• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>河海大學專利>正文

    一種基于概念向量模型的多主題提取方法技術

    技術編號:10363047 閱讀:120 留言:0更新日期:2014-08-27 19:05
    本發明專利技術提供了一種基于概念向量模型的多主題提取方法,包含以下步驟:首先使用傳統方法對文檔進行預處理后初步得到由特征詞組成的向量;其次利用《知網》詞義與概念間的對應關系對同義詞進行歸并,根據語義類與上下文語境的相關性對多義詞進行排歧,構造概念向量模型表示該文檔;再利用《知網》中概念的相關語義信息計算概念相似度,通過“預設種子”的方法改進K-means算法對概念進行聚類,形成多個主題概念簇;最后根據概念和詞的對應關系,得到多個子主題詞集。該方法考慮了語義信息,克服K-means算法對初始中心的敏感性和時空開銷不穩定等缺陷,提高了提取主題的質量。

    【技術實現步驟摘要】

    本專利技術涉及文本信息提取
    ,特別是涉及。
    技術介紹
    自人類社會進入信息時代以來,各種電子文本大量涌現,這些海量文本中存在著大量多主題文本,包含著多方面豐富的主題信息,例如:一篇關于李克強總理訪問歐洲的報道,既屬于政治類新聞,又屬于經濟類新聞。隨著科學技術的發展,學科之間融合度越來越高,大多數研究都跨越多個學科領域,許多科技文本內容都從不同側面包含了多個主題,如一篇關于生物基因信息挖掘的文本,既包含計算機科學方面的主題又包含生物醫學領域主題。因此,現實世界中存在大量多主題文本,如何從這些文本中提取有價值的反映不同方面的多個子主題信息,在信息檢索、圖書情報和信息安全等領域有著非常廣泛的應用。國外對文本主題提取研究起于上世紀50年代,目前比較成熟的主題提取方法是基于統計模型的方法,該方法主要是利用詞頻統計信息提取主題,后來研究人員加入了對標題、位置、句法結構和線索詞等要素的考慮,能夠從英文文本中提取高質量的主題。國內對主題提取的研究起于上世紀80年代后期,然而,由于漢語言的復雜性,許多成功的英文主題提取方法不適用于中文。目前,國內應用廣泛的還是基于統計的方法,該方法在向量空間模型(VSM)下,前提假設是向量之間兩兩正交,即構成文本的詞匯之間毫無聯系,這顯然與文本中詞匯語義與上下文相關的現實不符,又由于中文詞匯量很大,在VSM下,必然存在向量高維、稀疏、忽略詞匯語義及上下文背景等問題,同時提取過程受到同義詞和多義詞的干擾,因而在質量和效率上表現欠佳。目前關于主題提取的研究熱點集中在如何增加語義信息上,雖然有很多學者提出了各種基于語義的主題提取方法,但仍然沒有達到應用級別的突破性進展。另夕卜,提取多主題和單主題提取在算法上有很大差別,從一篇文本中識別多個子主題詞,僅使用傳統基于詞頻統計的方法無法實現。廖濤等人提出的復雜網絡中的社區劃分算法能夠提取多主題,但未涉及詞的語義信息,是一個純粹的統計方法,提取的多主題質量不高。因此,針對現有的以詞頻統計為依據的傳統文本處理技術,一篇文本只能提出單個主題的問題,同時考慮了傳統文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導致的算法效率低和提取主題詞質量不高的問題,需要提供。
    技術實現思路
    本專利技術要解決的技術問題是,為了解決傳統文本處理技術以詞頻統計為依據,一篇文本只能提出單個主題的問題,同時考慮了傳統文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導致的算法效率低和提取主題詞質量不高的問題,提供了,該方法利用《知網》語義知識庫,對表示文本的特征詞進行一一映射,把該文本表示成概念模型,并且在映射過程中同義詞自動歸并到了同一概念中,實現了向量降維;根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧。本專利技術的目的在于提供,包括以下步驟:Stepl:向量模型表示:對文本進行預處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預處理后的文本表示成特征詞組成的向量;Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結構來表示概念間語義關系的語義知識庫,利用詞義與所述概念之間的對應關系對所述預處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧,之后,將所述經過歸并和排歧后的文本的向量空間模型映射成概念空間模型;Step3:多主題詞提取:使用改進的K-means算法對所述經過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據形成的多個主題概念簇,利用概念和原文本特征詞對應關系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題詞。進一步地,所述步驟Stepl可以包括如下步驟:Stepl-1:使用分詞系統對待處理文本T進行分詞,接著,進行去停、去噪,之后,得到所述文本的初級向量空間模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η個由特征詞組成的向量,所述去停是指過濾文本中出現的停用詞,所述去噪是指過濾文本中出現的無實際意義的詞匯;Stepl-2:從初級向量空間模型中進一步提取特征向量,以得到該文本的高級向量空間模型 T = IC1, C2,..., Cj ,其中 m〈 = η。進一步地,所述步驟Step2可以包括如下步驟:文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞;概念映射過程通過查詢所述語義知識庫實現,其中:查詢知識庫,判斷當文本中所包含的詞匯是單義詞時,直接得到其唯一對應的概念;查詢知識庫,判斷當文本中所包含的詞匯是同義詞時,直接得到其唯一對應的概念,在這個過程中,通過將該文本中出現的同義詞自動歸并到同一個概念中,以實現向量降維;查詢知識庫,判斷當文本中所包含的詞匯是多義詞時,該多義詞對應多個概念,概念與語義類一一對應,根據語義類成員詞在該文本中的信息量計算語義類權值,選取權值最大的語義類對應概念作為所述多義詞適合本文上下文語境的概念,從而實現多義詞排歧。 進一步地,所述查詢知識庫,判斷當文本中所包含的詞匯是多義詞時,該多義詞對應多個概念,概念與語義類一一對應,根據語義類成員詞在該文本中信息量計算語義類權值,選取權值最大的語義類對應概念作為所述多義詞適合本文上下文語境的概念,從而實現多義詞排歧,包括如下步驟:在所述語義知識庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關的詞來描述,描述某概念基本義原集的詞構成了一個語義類;判斷多義詞對應多個概念,計算所述概念對應語義類的所有成員詞在所述處理文本中的信息量,加權計算得到每一個語義類的權值;選擇權值最大的語義類對應的概念作為所述多義詞適合本文上下文語境的概念,從而實現多義詞排歧。進一步地,所述步驟Step2可以包括如下步驟:St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進行概念映射;St印2-1-1:查詢知識庫,若T的特征詞Cm對應唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉至步驟Setp2-2 ;Step2-1-2:查詢知識庫,若T的特征詞(;對應多個概念,則特征詞Cm為多義詞,則需對多義詞Cm進行詞義排歧,選擇出適合該文上下文語境的概念;St印2-2:得到文本 T 對應概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};St印2-3:進一步按照概念進行整理輸出文本T對應概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,Ck)為概念 Gq 在文中對應出現的詞。進一步地,所述步驟Step2_l_2可以包括如下步驟:Step2-1-2-l:查詢知識庫,多義詞Cm對應多個概念,描述概念語義的基本義原集夠成了一個語義類,因而多義詞Cm對應多個語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關的詞組;Step2-1-2-2:計算多義詞Cm每一個語義類成員詞在該文中的信息量,所述成員詞Wi在該文中所含的信息量H(Wi)計算公式如下:H(Wi) = -TF (Wi, ST) X log [p (Wi)],其中,TF (本文檔來自技高網
    ...

    【技術保護點】
    一種基于概念向量模型的多主題提取方法,其特征在于,包括以下步驟:?Step1:向量模型表示:對文本進行預處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預處理后的文本表示成特征詞組成的向量;?Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結構來表示概念間語義關系的語義知識庫,利用詞義與所述概念之間的對應關系對所述預處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧,之后,將所述經過歸并和排歧后的文本的向量空間模型映射成概念空間模型;?Step3:多主題詞提取:使用改進的K?means算法對所述經過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據形成的多個主題概念簇,利用概念和原文本特征詞對應關系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題詞。

    【技術特征摘要】
    1.一種基于概念向量模型的多主題提取方法,其特征在于,包括以下步驟: Stepl:向量模型表示:對文本進行預處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預處理后的文本表示成特征詞組成的向量; Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結構來表示概念間語義關系的語義知識庫,利用詞義與所述概念之間的對應關系對所述預處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧,之后,將所述經過歸并和排歧后的文本的向量空間模型映射成概念空間模型; Step3:多主題詞提取:使用改進的K-means算法對所述經過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據形成的多個主題概念簇,利用概念和原文本特征詞對應關系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題ο2.根據權利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Stepl進一步包括如下步驟: Stepl-1:使用分詞系統對待處理 文本T進行分詞,接著,進行去停、去噪,之后,得到所述文本的初級向量空間模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η個由特征詞組成的向量,所述去停是指過濾文本中出現的停用詞,所述去噪是指過濾文本中出現的無實際意義的詞匯; Stepl-2:從初級向量空間模型中進一步提取特征向量,以得到該文本的高級向量空間模型 T =IC1, C2,..., Cj ,其中 m〈 = η。3.根據權利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Step2進一步包括如下步驟: St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進行概念映射;Step2-1-1:查詢知識庫,若T的特征詞Cm對應唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉至步驟Setp2-2 ; Step2-1-2:查詢知識庫,若T的特征詞(;對應多個概念,則特征詞Cm為多義詞,則需對多義詞Cm進行詞義排歧,選擇出適合該文上下文語境的概念; St印2-2:得到文本 T 對應概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)}; St印2-3:進一步按照概念進行整理輸出文本T對應概念向量T = {(Gl,(C1,...,Ci)),(G2, (C2,...,Cj)),…,(Gq, (Cq,…,Ck))},其中(Cq,...,(;)為概念 Gq 在文中對應出現的詞。4.根據權利要求3所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟St印2-1-2可以包括如下步驟: Step2-1-2-l:查詢知識庫,多義詞Cm對應多個概念,描述概念語義的基本義原集夠成了一個語義類,因而多義詞Cm對應多個語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關的詞組; Step2-1-2-2:計算多...

    【專利技術屬性】
    技術研發人員:馬甲林王志堅
    申請(專利權)人:河海大學
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码一区二区三区乱子伦| 亚洲欧洲无码一区二区三区| 国精品无码A区一区二区| 亚洲AV无码码潮喷在线观看| 亚洲AV无码乱码麻豆精品国产| 亚洲av无码专区青青草原| 亚洲精品无码aⅴ中文字幕蜜桃| 亚洲精品无码日韩国产不卡?V| 无码日韩人妻精品久久蜜桃 | 亚洲精品无码久久久久牙蜜区| 曰韩无码无遮挡A级毛片| 色窝窝无码一区二区三区成人网站 | 日韩AV无码精品一二三区| 亚洲AV日韩AV永久无码久久| 免费A级毛片无码久久版 | 亚洲无码黄色网址| 一区二区无码免费视频网站| 亚洲国产无套无码av电影| 热の无码热の有码热の综合| 最新中文字幕av无码专区| 亚洲国产精品无码av| 亚洲精品97久久中文字幕无码| 国产精品无码一区二区三区不卡| 熟妇无码乱子成人精品| 亚洲AV永久纯肉无码精品动漫 | 永久免费av无码入口国语片| 无码的免费不卡毛片视频| 亚洲av无码偷拍在线观看| 亚洲日韩乱码中文无码蜜桃臀| 亚洲av中文无码乱人伦在线咪咕| 东京热加勒比无码视频| 亚洲人成人无码网www国产| 无码一区二区三区中文字幕| 免费无码黄十八禁网站在线观看 | V一区无码内射国产| 免费无码一区二区| 亚洲熟妇少妇任你躁在线观看无码 | 精品久久久久久无码人妻蜜桃| 国产成人精品无码专区| 无码日本精品XXXXXXXXX| 久久久久久99av无码免费网站 |