【技術實現步驟摘要】
本專利技術涉及文本信息提取
,特別是涉及。
技術介紹
自人類社會進入信息時代以來,各種電子文本大量涌現,這些海量文本中存在著大量多主題文本,包含著多方面豐富的主題信息,例如:一篇關于李克強總理訪問歐洲的報道,既屬于政治類新聞,又屬于經濟類新聞。隨著科學技術的發展,學科之間融合度越來越高,大多數研究都跨越多個學科領域,許多科技文本內容都從不同側面包含了多個主題,如一篇關于生物基因信息挖掘的文本,既包含計算機科學方面的主題又包含生物醫學領域主題。因此,現實世界中存在大量多主題文本,如何從這些文本中提取有價值的反映不同方面的多個子主題信息,在信息檢索、圖書情報和信息安全等領域有著非常廣泛的應用。國外對文本主題提取研究起于上世紀50年代,目前比較成熟的主題提取方法是基于統計模型的方法,該方法主要是利用詞頻統計信息提取主題,后來研究人員加入了對標題、位置、句法結構和線索詞等要素的考慮,能夠從英文文本中提取高質量的主題。國內對主題提取的研究起于上世紀80年代后期,然而,由于漢語言的復雜性,許多成功的英文主題提取方法不適用于中文。目前,國內應用廣泛的還是基于統計的方法,該方法在向量空間模型(VSM)下,前提假設是向量之間兩兩正交,即構成文本的詞匯之間毫無聯系,這顯然與文本中詞匯語義與上下文相關的現實不符,又由于中文詞匯量很大,在VSM下,必然存在向量高維、稀疏、忽略詞匯語義及上下文背景等問題,同時提取過程受到同義詞和多義詞的干擾,因而在質量和效率上表現欠佳。目前關于主題提取的研究熱點集中在如何增加語義信息上,雖然有很多學者提出了各種基于語義的主題提取 ...
【技術保護點】
一種基于概念向量模型的多主題提取方法,其特征在于,包括以下步驟:?Step1:向量模型表示:對文本進行預處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預處理后的文本表示成特征詞組成的向量;?Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結構來表示概念間語義關系的語義知識庫,利用詞義與所述概念之間的對應關系對所述預處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧,之后,將所述經過歸并和排歧后的文本的向量空間模型映射成概念空間模型;?Step3:多主題詞提取:使用改進的K?means算法對所述經過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據形成的多個主題概念簇,利用概念和原文本特征詞對應關系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題詞。
【技術特征摘要】
1.一種基于概念向量模型的多主題提取方法,其特征在于,包括以下步驟: Stepl:向量模型表示:對文本進行預處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預處理后的文本表示成特征詞組成的向量; Step2:概念模型映射:基于以概念來表達自然語言詞匯語義且以樹形結構來表示概念間語義關系的語義知識庫,利用詞義與所述概念之間的對應關系對所述預處理后的組成文本的特征詞進行概念映射,在概念映射過程中,文本中的同義詞自動進行歸并,接著,根據語義類與上下文語境的相關性對文中出現的多義詞進行排歧,之后,將所述經過歸并和排歧后的文本的向量空間模型映射成概念空間模型; Step3:多主題詞提取:使用改進的K-means算法對所述經過歸并和排歧后的文本概念空間模型中的概念進行聚類,形成多個主題概念簇,根據形成的多個主題概念簇,利用概念和原文本特征詞對應關系,逆向得到多個主題特征詞集,以提取單個中文文本中的多主題ο2.根據權利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Stepl進一步包括如下步驟: Stepl-1:使用分詞系統對待處理 文本T進行分詞,接著,進行去停、去噪,之后,得到所述文本的初級向量空間模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η個由特征詞組成的向量,所述去停是指過濾文本中出現的停用詞,所述去噪是指過濾文本中出現的無實際意義的詞匯; Stepl-2:從初級向量空間模型中進一步提取特征向量,以得到該文本的高級向量空間模型 T =IC1, C2,..., Cj ,其中 m〈 = η。3.根據權利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Step2進一步包括如下步驟: St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進行概念映射;Step2-1-1:查詢知識庫,若T的特征詞Cm對應唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉至步驟Setp2-2 ; Step2-1-2:查詢知識庫,若T的特征詞(;對應多個概念,則特征詞Cm為多義詞,則需對多義詞Cm進行詞義排歧,選擇出適合該文上下文語境的概念; St印2-2:得到文本 T 對應概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)}; St印2-3:進一步按照概念進行整理輸出文本T對應概念向量T = {(Gl,(C1,...,Ci)),(G2, (C2,...,Cj)),…,(Gq, (Cq,…,Ck))},其中(Cq,...,(;)為概念 Gq 在文中對應出現的詞。4.根據權利要求3所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟St印2-1-2可以包括如下步驟: Step2-1-2-l:查詢知識庫,多義詞Cm對應多個概念,描述概念語義的基本義原集夠成了一個語義類,因而多義詞Cm對應多個語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關的詞組; Step2-1-2-2:計算多...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。