• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于規劃?目標圖的新聞事件信息抽取方法技術

    技術編號:15690938 閱讀:58 留言:0更新日期:2017-06-24 03:44
    本發明專利技術涉及一種基于規劃?目標圖的新聞事件信息抽取方法。其中,該方法可以包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃?目標圖;設置新聞事件信息抽取規劃?目標圖的狀態;根據新聞事件信息抽取規劃?目標圖的狀態,建立新聞事件信息抽取規劃?目標圖的判定規則;執行新聞事件信息抽取規劃?目標圖的判定規則,抽取新聞事件信息。由此,本發明專利技術實施例解決了如何自動、快速、充分地挖掘新聞事件信息的技術問題,能夠隨時追蹤抽取任務的進程和狀態,能夠實現對新聞信息的高效自動整理。

    Planning target image information extraction method based on news events

    The invention relates to a method for planning target image information extraction based on news events. Among them, the method can include: extraction of news text news entity information and keyword information; news information and entity information based on keywords, a news event information extraction planning target map; news event information extraction planning target image; according to the news event information extraction planning goal graph, decision rules of news event information extraction planning goal graph; decision rules of news event information extraction planning target image, extraction of news information. Thus, the embodiment of the invention solves the technical problem of how to automatically and quickly, to fully tap the news event information, to process and track state extraction task, can be achieved on the news and information, automatic sorting.

    【技術實現步驟摘要】
    基于規劃-目標圖的新聞事件信息抽取方法
    本專利技術涉及計算機應用中的輿情分析和文本處理
    ,具體來說涉及一種基于規劃-目標圖的新聞事件信息抽取方法。
    技術介紹
    隨著web技術的迅猛發展,互聯網普及率逐漸上升,信息公開化程度逐步提高,網絡已經成為新聞事件報道和傳播的重要平臺。互聯網上新聞網頁的數量急劇增長,新聞量和冗余信息的增加,給閱讀和信息分析帶來了新的挑戰。快速、精準地從新聞報道中自動抽取新聞事件信息,尤其是新聞事件的關鍵信息,一方面,能夠輔助分析和管理新聞事件,降低人工成本,提高分析效率;另一方面,能夠為網絡輿情的監控和預警、熱點事件的檢索和追蹤、智能問答系統及大數據決策支持等上層應用提供支持,具有廣泛的應用前景。新聞事件是指發生在某時某地的一件特別的事情,它可以由許多信息組成,其中較為關鍵的信息包括:事件發生的時間、事件發生的地點、事件的參與者、事件的關鍵詞和事件的某些關鍵數字等。這些信息不僅有助于新聞閱讀者快速把握新聞事件的主體內容信息,而且可以為海量新聞數據的自動分析和處理提供必要的基礎內容。由于新聞文本在形式上具有詞匯、句式規范、篇章結構統一、語言風格穩定等特點,使得自動抽取新聞事件的關鍵信息成為可能。然而,目前最常見的新聞抽取系統所解決的問題主要是從新聞網頁中抽取正文中的個別句子作為新聞摘要或者對新聞正文進行簡單的分類處理,關于理解新聞事件內容,特別是自動地、可解釋地進行事件信息抽取等方面的工作仍然空缺。有鑒于此,特提出本專利技術。
    技術實現思路
    為了解決現有技術中的上述問題,即為了解決如何自動、快速、充分地挖掘新聞事件信息的技術問題而提供一種基于規劃-目標圖的新聞事件信息抽取方法。為了實現上述目的,提供了以下技術方案:一種基于規劃-目標圖的新聞事件信息抽取方法,該方法包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖;設置新聞事件信息抽取規劃-目標圖的狀態;根據新聞事件信息抽取規劃-目標圖的狀態,建立新聞事件信息抽取規劃-目標圖的判定規則;執行新聞事件信息抽取規劃-目標圖的判定規則,抽取新聞事件信息。進一步地,抽取新聞文本的新聞實體信息和關鍵詞信息具體包括:將新聞文本分為:標題、摘要和正文;針對標題、摘要和正文,分別進行分詞、詞性標注和命名實體識別處理,抽取出時間實體、地點實體、人物實體、機構實體,并提取出正文的關鍵詞。進一步地,當時間實體和地點實體為多個時,將多個時間實體中的一個作為時間實體抽取值,將多個地點實體中的一個多為地點實體抽取值。進一步地,基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖,具體包括:基于新聞實體信息和關鍵詞信息,建立層級節點關系圖;其中,層級節點關系圖由規劃節點和目標節點交替組成;設置同一目標節點的多個規劃節點之間的優先級。進一步地,設置新聞事件信息抽取規劃-目標圖的狀態具體包括:設置規劃節點和目標節點的邏輯屬性;確定同一目標節點的多個規劃節點之間的優先級。進一步地,執行新聞事件信息抽取規劃-目標圖的判定規則,抽取新聞事件信息,具體包括:當頂層節點的邏輯屬性為真時,根據目標節點的規劃節點的優先級,抽取新聞事件信息。進一步地,新聞事件信息包括新聞文本的時間、地點、參與者和事件關鍵詞信息。本專利技術實施例提供一種基于規劃-目標圖的新聞事件信息抽取方法。其中,該方法可以包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖;設置新聞事件信息抽取規劃-目標圖的狀態;根據新聞事件信息抽取規劃-目標圖的狀態,建立新聞事件信息抽取規劃-目標圖的判定規則;執行新聞事件信息抽取規劃-目標圖的判定規則,抽取新聞事件信息。本專利技術實施例通過對抽取任務進行子目標與子規劃的劃分,建立新聞事件信息抽取規劃-目標圖及其判定規則,并據此來抽取新聞事件信息。由此,本專利技術實施例解決了如何自動、快速、充分地挖掘新聞事件信息的技術問題,能夠實現對新聞信息的高效自動整理;具有非常強的過程解釋性,能夠根據規劃-目標圖的節點屬性和判定規則隨時追蹤抽取任務的進程和狀態;同時本專利技術實施例還具有非常強的操作擴展性,能夠在不改變方法進程的同時,對規劃節點和目標節點進行靈活地增、刪、改等操作。本專利技術實施例公開的方法能為新聞事件檢索、新聞報道跟蹤和輿情分析等上層應用提供支持。附圖說明圖1是根據本專利技術實施例的基于規劃-目標圖的新聞事件信息抽取方法的流程示意圖;圖2是根據本專利技術實施例的新聞事件信息抽取規劃-目標示意圖。具體實施方式下面參照附圖來描述本專利技術的優選實施方式。本領域技術人員應當理解的是,這些實施方式僅僅用于解釋本專利技術的技術原理,并非旨在限制本專利技術的保護范圍。在實際應用中,為了解決如何自動、快速、充分地挖掘新聞事件信息的技術問題。本專利技術實施例提供一種基于規劃-目標圖的新聞事件信息抽取方法。如圖1所示,該方法可以包括:S100:抽取新聞文本的新聞實體信息和關鍵詞信息。具體地,本步驟可以包括:S101:將新聞文本分為:標題、摘要和正文。在一個優選的實施例中,將新聞文本的首段文本確定為摘要;將新聞文本中除去標題和摘要后的內容確定為正文。舉例來說,標題可以為“殲—10女飛行員余旭在訓練中不幸犧牲”。摘要可以為“11月12日,空軍殲—10女飛行員余旭,在天津武清上空進行飛行訓練時不幸犧牲。”。正文可以為“空軍新聞發言人申進科表示,飛行是勇敢者的事業,確保飛行安全是世界各國空軍的共同追求和良好愿望。空軍女飛行員余旭同志在飛行訓練中不幸犧牲,我們失去了一名好戰友。空軍官兵對余旭同志的不幸犧牲深表痛惜,深表哀悼。空軍要繼續堅持從難從嚴訓練,忠實履行使命責任,不負祖國和人民對空軍的期望。犧牲的女飛行員余旭,1986年出生于四川崇州,2005年9月入伍,空軍上尉,二級飛行員,為空軍八一飛行表演隊中隊長。2005年,余旭考入中國人民解放軍空軍航空大學,成為第八批女飛行學員,2009年4月成為北空某部飛行員。2009年10月1日,參加中華人民共和國國慶60周年閱兵,擔任教—8梯隊三中隊右二僚機。2012年7月29日,駕馭中國自主研發的三代戰機首次單飛。余旭不僅是中國首批殲擊機女飛行員,也是中國第一位殲—10戰斗機女飛行員。她還曾參加國慶60周年閱兵,擔任教—8梯隊三中隊右二僚機。在參加2015年紀念抗日戰爭勝利70周年閱兵時,她作為地面備份人員,為左邊位置3號機備份。在八一飛行表演隊中,余旭的代號是“金孔雀”,是全國僅有的幾名具備表演機飛行資格的女飛行員之一。”。S102:針對標題、摘要和正文,分別進行分詞、詞性標注和命名實體識別處理,抽取出時間實體、地點實體、人物實體、機構實體,并提取出正文的關鍵詞。在一個可選的實施例中,對于步驟S102,當時間實體和地點實體有多個時,可以只保留第一個抽取值,即將多個時間實體中的一個作為時間實體抽取值,將多個地點實體中的一個作為地點實體抽取值。表1示例性地示出了對新聞文本進行新聞實體信息和關鍵詞信息抽取后得到的信息。表1:S110:基于新聞實體信息和關鍵詞信息,建立新聞事件信息抽取規劃-目標圖。具體地,本步驟可以通過步驟S111至步驟S112來實現。S111:基于新聞實體信息本文檔來自技高網...
    <a  title="基于規劃?目標圖的新聞事件信息抽取方法原文來自X技術">基于規劃?目標圖的新聞事件信息抽取方法</a>

    【技術保護點】
    一種基于規劃?目標圖的新聞事件信息抽取方法,其特征在于,所述方法包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于所述新聞實體信息和所述關鍵詞信息,建立新聞事件信息抽取規劃?目標圖;設置所述新聞事件信息抽取規劃?目標圖的狀態;根據所述新聞事件信息抽取規劃?目標圖的所述狀態,建立所述新聞事件信息抽取規劃?目標圖的判定規則;執行所述新聞事件信息抽取規劃?目標圖的判定規則,抽取所述新聞事件信息。

    【技術特征摘要】
    1.一種基于規劃-目標圖的新聞事件信息抽取方法,其特征在于,所述方法包括:抽取新聞文本的新聞實體信息和關鍵詞信息;基于所述新聞實體信息和所述關鍵詞信息,建立新聞事件信息抽取規劃-目標圖;設置所述新聞事件信息抽取規劃-目標圖的狀態;根據所述新聞事件信息抽取規劃-目標圖的所述狀態,建立所述新聞事件信息抽取規劃-目標圖的判定規則;執行所述新聞事件信息抽取規劃-目標圖的判定規則,抽取所述新聞事件信息。2.根據權利要求1所述的方法,其特征在于,所述抽取新聞文本的新聞實體信息和關鍵詞信息具體包括:將所述新聞文本分為:標題、摘要和正文;針對所述標題、所述摘要和所述正文,分別進行分詞、詞性標注和命名實體識別處理,抽取出時間實體、地點實體、人物實體、機構實體,并提取出所述正文的關鍵詞。3.根據權利要求2所述的方法,其特征在于,當所述時間實體和所述地點實體為多個時,將所述多個時間實體中的一個作為時間實體抽取值,將所述多個地點實體中的一個作為...

    【專利技術屬性】
    技術研發人員:趙美靜倪晚成劉禹
    申請(專利權)人:中國科學院自動化研究所
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: av无码人妻一区二区三区牛牛| 国产精品成人无码免费| 国产亚洲AV无码AV男人的天堂| 国产午夜无码精品免费看动漫 | 一本一道VS无码中文字幕| 日韩av无码成人无码免费| 国产成人A人亚洲精品无码| 久久久g0g0午夜无码精品| 亚洲国产精品无码久久久蜜芽 | 人妻精品久久无码区洗澡| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲Av无码乱码在线播放| 日韩精品无码熟人妻视频| 久久久91人妻无码精品蜜桃HD| 精品无码AV无码免费专区| 国内精品人妻无码久久久影院| 无码人妻一区二区三区精品视频| 精品人妻系列无码天堂| 小13箩利洗澡无码视频网站| 日本无码色情三级播放| 一本大道无码人妻精品专区| 少妇爆乳无码专区| 无码毛片内射白浆视频| 久久ZYZ资源站无码中文动漫| 亚洲av永久无码精品古装片| 中文字幕无码毛片免费看| 人妻av无码专区| 日日日日做夜夜夜夜无码| 国产精品午夜无码av体验区| 日韩加勒比一本无码精品| 亚洲爆乳少妇无码激情| 亚洲αⅴ无码乱码在线观看性色| 无码人妻精品一区二区三| 无码精品人妻一区二区三区中| 无码人妻久久久一区二区三区 | 国产在线无码精品电影网| 成年午夜无码av片在线观看| YY111111少妇无码理论片| 中文无码日韩欧免费视频| 国产精品无码无卡无需播放器 | 精品无码国产自产拍在线观看|