The invention relates to a method for planning target image information extraction based on news events. Among them, the method can include: extraction of news text news entity information and keyword information; news information and entity information based on keywords, a news event information extraction planning target map; news event information extraction planning target image; according to the news event information extraction planning goal graph, decision rules of news event information extraction planning goal graph; decision rules of news event information extraction planning target image, extraction of news information. Thus, the embodiment of the invention solves the technical problem of how to automatically and quickly, to fully tap the news event information, to process and track state extraction task, can be achieved on the news and information, automatic sorting.
【技術實現步驟摘要】
基于規劃-目標圖的新聞事件信息抽取方法
本專利技術涉及計算機應用中的輿情分析和文本處理
,具體來說涉及一種基于規劃-目標圖的新聞事件信息抽取方法。
技術介紹
隨著web技術的迅猛發展,互聯網普及率逐漸上升,信息公開化程度逐步提高,網絡已經成為新聞事件報道和傳播的重要平臺。互聯網上新聞網頁的數量急劇增長,新聞量和冗余信息的增加,給閱讀和信息分析帶來了新的挑戰。快速、精準地從新聞報道中自動抽取新聞事件信息,尤其是新聞事件的關鍵信息,一方面,能夠輔助分析和管理新聞事件,降低人工成本,提高分析效率;另一方面,能夠為網絡輿情的監控和預警、熱點事件的檢索和追蹤、智能問答系統及大數據決策支持等上層應用提供支持,具有廣泛的應用前景。新聞事件是指發生在某時某地的一件特別的事情,它可以由許多信息組成,其中較為關鍵的信息包括:事件發生的時間、事件發生的地點、事件的參與者、事件的關鍵詞和事件的某些關鍵數字等。這些信息不僅有助于新聞閱讀者快速把握新聞事件的主體內容信息,而且可以為海量新聞數據的自動分析和處理提供必要的基礎內容。由于新聞文本在形式上具有詞匯、句式規范、篇章結構統一、語言風格穩定等特點,使得自動抽取新聞事件的關鍵信息成為可能。然而,目前最常見的新聞抽取系統所解決的問題主要是從新聞網頁中抽取正文中的個別句子作為新聞摘要或者對新聞正文進行簡單的分類處理,關于理解新聞事件內容,特別是自動地、可解釋地進行事件信息抽取等方面的工作仍然空缺。有鑒于此,特提出本專利技術。
技術實現思路
為了解決現有技術中的上述問題,即為了解決如何自動、快速、充分地挖掘新聞事件信息的技術問題而提供一 ...
【技術保護點】
一種基于規劃?目標圖的新聞事件信息抽取方法,其特征在于,所述方法包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于所述新聞實體信息和所述關鍵詞信息,建立新聞事件信息抽取規劃?目標圖;設置所述新聞事件信息抽取規劃?目標圖的狀態;根據所述新聞事件信息抽取規劃?目標圖的所述狀態,建立所述新聞事件信息抽取規劃?目標圖的判定規則;執行所述新聞事件信息抽取規劃?目標圖的判定規則,抽取所述新聞事件信息。
【技術特征摘要】
1.一種基于規劃-目標圖的新聞事件信息抽取方法,其特征在于,所述方法包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于所述新聞實體信息和所述關鍵詞信息,建立新聞事件信息抽取規劃-目標圖;設置所述新聞事件信息抽取規劃-目標圖的狀態;根據所述新聞事件信息抽取規劃-目標圖的所述狀態,建立所述新聞事件信息抽取規劃-目標圖的判定規則;執行所述新聞事件信息抽取規劃-目標圖的判定規則,抽取所述新聞事件信息。2.根據權利要求1所述的方法,其特征在于,所述抽取新聞文本的新聞實體信息和關鍵詞信息具體包括:將所述新聞文本分為:標題、摘要和正文;針對所述標題、所述摘要和所述正文,分別進行分詞、詞性標注和命名實體識別處理,抽取出時間實體、地點實體、人物實體、機構實體,并提取出所述正文的關鍵詞。3.根據權利要求2所述的方法,其特征在于,當所述時間實體和所述地點實體為多個時,將所述多個時間實體中的一個作為時間實體抽取值,將所述多個地點實體中的一個作為...
【專利技術屬性】
技術研發人員:趙美靜,倪晚成,劉禹,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。