• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于向量空間模型的文本相似性匹配方法組成比例

    技術編號:8594073 閱讀:282 留言:0更新日期:2013-04-18 07:17
    本發明專利技術公開了一種基于向量空間模型的文本相似性匹配方法,包括:提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹;根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。本發明專利技術技術方案相對準確反映了文本之間的聯系,這樣可以更加充分地反映文本的相似度。

    【技術實現步驟摘要】

    本專利技術涉及一種計算機技術,具體說,涉及一種。
    技術介紹
    現在一些常用的文本檢索模型,包括基于文字的檢索模型和基于結構的檢索模型。基于文本的檢索模型又包括向量空間模型、近似模型、概率模型和統計語言檢索模型;基于結構的文本檢索模型又包括內部結構檢索模型、外部結構檢索模型。文本的相似度,即兩篇文本之間相似程度的數值度量,取兩篇文本D1、D2,若(Dl H D2)/ (Dl U D2)越接近I表示兩篇文本的相似度越高,反之相反。在文本檢索技術中,相似度計算主要用于衡量文本對象之間的相似程度,在數據挖掘、自然語言處理中是一個基礎性計算。其中的關鍵技術主要是兩個部分,對象的特征表示和特征集合之間的相似關系。在信息檢索、網頁判重、推薦系統等,都涉及到對象之間或者對象和對象集合的相似性的計算。針對不同的應用場景,受限于數據規模、時空開銷等的限制,相似度計算方法的選擇又會有所區別和不同。通常使用的計算相似度的方法是VSM (向量空間模型)。這種模型通過對文本提取關鍵詞,然后進行權值賦值,將文本表示成由權重不同的關鍵詞構成的向量,通過計算兩個文本的向量距離從而得到文本的相似度。由于關鍵詞很可能存在同義詞、一詞多義等現象,所以用傳統的向量空間模型方法得到的相似度計算結果精度不高,結果往往并不令人滿意;關鍵詞加權算法僅僅是尋求文本和關鍵詞之間的關系,不能橫向地聯系不同文本間關鍵詞之間的關系,給文本檢索帶來了如下問題(I)關鍵詞不能準確表達用戶需求。用戶很難選擇準確的關鍵詞來進行搜索,因為其中涉及到查詢和概念之間的語義映射問題。用戶給出的查詢關鍵詞不能很好地反映用戶的意圖。(2)關鍵詞不能反映文本內容。如果關鍵詞外延太大,就很難或者無法檢索到相關文本。(3) —詞多義現象。由于關鍵詞匹配技術很難解決一詞多義現象,往往會檢索出大量無關信息。(4)關鍵詞以同義方式在文中出現。用戶的查詢關鍵詞有時并不在文中直接出現,而是以同義詞、近義詞或者關鍵詞的其他構詞方式出現,這樣,文本就不能檢索到。當查詢關鍵詞與文本主題詞構成概念上下位關系時,則更加難以檢索到。
    技術實現思路
    本專利技術所解決的技術問題是提供一種,相對準確反映了文本之間的聯系,這樣可以更加充分地反映文本的相似度。技術方案如下一種,包括提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹;根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。進一步,所述生成關鍵詞概念樹的步驟包括提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合;對關鍵詞集合中的關鍵詞進行聚類,把相同概念的關鍵詞聚合為一個概念類集合,根據所述概念類集合生成所述關鍵詞概念樹。進一步,若關鍵詞Ici出現的概率P (ki)>Pl ;且有,在出現匕的該文本中也出現關鍵詞kj的條件概率P Ckj I Iii) >P2,則認為關鍵詞kj和Iii表達相同概念,Pl和P2為設定概率閥值。進一步,生成所述關鍵詞概念樹的過程具體步驟包括提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合C= {kl,k2,…,kn},計算C中每個關鍵詞k在參考庫中出現的概率p(k),即出現關鍵詞k的文本數和集合中文本總數之比; 根據設定閥值過濾關鍵詞,取pmin〈p(k)〈pmax的關鍵詞,將其作為待合并的集合項,設符合條件的關鍵詞個數為m個,其中pmax和pmin為設定好的高低限閥值;對過濾后得到的關鍵詞按P (k)進行降序排序,并將每一個關鍵詞作為一個集合,這樣得到初始的m個待合并集合,記為{kj, {k2},….,{kj ;在這m個關鍵詞中,計算在關鍵詞Ici出現的文本中關鍵詞kj也出現的概率,記為P(IijIki),共計P I個條件概率,(I 彡 i,j 彡 m ;i 關 j);p (IijIki)=P (^ki)/p Cki),p (Iijki)為h和Iii同時出現在同一篇文本中的概率;合并待合并集合,生成根節點為關鍵詞集合C的關鍵詞概念樹。進一步,對于待合并的兩個關鍵詞集合Cl和C2,合并條件為存在Ici屬于Cl,kj屬于C2,且P Cki) >Pl,p (kj I Iii) >P2,當P (IiiWPp (k」| Iii)大于所述設定閥值時,關鍵詞h和h表達相同概念,滿足其所在的集合的合并條件之一;在合并后的集合中任給一個關鍵詞ki;其與集合中一半以上關鍵詞都滿足條件P α」1^)>Ρ2 ;若兩個集合滿足以上兩個條件,則概念具有很大相似性,屬于可合并的集合,合并后生成上一層概念類集合。進一步,在參考庫中查找匹配的文本的過程包括提取參考庫內所有文檔的關鍵詞,組成關鍵詞集合;根據所述關鍵詞概念樹的結構,通過改進的文本相似度計算公式,計算待分類文本與參考庫中每個文本的相似性,按照相似度降序返回結果文本。進一步,在翻譯參考文獻庫中查找匹配的文本的過程具體步驟包括定義H為生成的概念樹的高度,定義cbpth (k)為節點k在樹中的深度,即為從根節點到該節點所經歷的邊數;定義com (ki; kj)為離節點Iii和kj最近的共同父節點,任兩個節點必有一個共同的父節點即根節點;任兩個關鍵詞的積的計算公式IciXkj=Clepth (com Cki, kj)) /H ;設向量A=^a2, ---,aj ,B= {b1 b2,…,bn},定義向量計算:本文檔來自技高網
    ...

    【技術保護點】
    一種基于向量空間模型的文本相似性匹配方法,包括:提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹;根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。

    【技術特征摘要】
    1.一種基于向量空間模型的文本相似性匹配方法,包括 提取文本的關鍵詞,對所有關鍵詞進行聚類,生成關鍵詞概念樹; 根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性,按相似性的大小得到在翻譯參考文獻庫中匹配的文本。2.如權利要求1所述的基于向量空間模型的文本相似性匹配方法,其特征在于,所述生成關鍵詞概念樹的步驟包括 提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合; 對關鍵詞集合中的關鍵詞進行聚類,把相同概念的關鍵詞聚合為ー個概念類集合,根據所述概念類集合生成所述關鍵詞概念樹。3.如權利要求2所述的基于向量空間模型的文本相似性匹配方法,其特征在于,若關鍵詞も出現的概率p Cki) >P1 ;且有,在出現ん的該文本中也出現關鍵詞Icj的條件概率pCkj I kj >P2,則認為關鍵詞も和Ici表達相同概念,Pl和P2為設定概率閥值。4.如權利要求3所述的基于向量空間模型的文本相似性匹配方法,其特征在于,生成所述關鍵詞概念樹的過程具體步驟包括 提取待分類文檔和參考庫中的所有關鍵詞,得到關鍵詞集合C= {kl,k2,…,kn},計算C中每個關鍵詞k在出現的概率,出現關鍵詞k的文本數和文本總數之比記為p (k); 根據設定閥值過濾關鍵詞,取Pmin〈P (k) <pfflax的關鍵詞,將其作為待合并的集合項,設符合條件的關鍵詞個數為m個,其中Pmax和Pmin為設定好的高低限閥值; 對過濾后得到的關鍵詞按P (k)進行降序排序,并將每ー個關鍵詞作為ー個集合,這樣得到初始的m個待合并集合,記為{kj,{k2},…,{kj ; 在這m個關鍵詞中,計算在關鍵詞h出現的文本中關鍵詞Icj出現的概率,記...

    【專利技術屬性】
    技術研發人員:江潮
    申請(專利權)人:武漢傳神信息技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: HEYZO无码综合国产精品| 中文无码精品A∨在线观看不卡| 无码av大香线蕉伊人久久| 无码av无码天堂资源网| 中文无码喷潮在线播放| 亚洲一区二区三区国产精品无码 | 亚洲精品久久无码av片俺去也| 亚洲av无码专区在线| 无码人妻一区二区三区精品视频| 亚洲av永久无码制服河南实里| 无码午夜人妻一区二区不卡视频| 亚洲av无码成h人动漫无遮挡 | 无码的免费不卡毛片视频| 午夜无码A级毛片免费视频| 亚洲人成无码www久久久| 无码尹人久久相蕉无码| 久久久久久精品无码人妻| 国产成人精品无码免费看| 亚洲AV无码一区二区三区在线观看 | 97在线视频人妻无码| 精品久久久久久无码专区不卡| 国产精品无码AV一区二区三区| 国产高新无码在线观看| 日韩精品无码人妻一区二区三区| 亚洲中文字幕久久精品无码A | 亚洲爆乳精品无码一区二区| 亚洲AV永久纯肉无码精品动漫| 不卡无码人妻一区三区音频 | 人妻无码人妻有码中文字幕| 国产精品无码免费视频二三区| 午夜无码人妻av大片色欲| 无码成人AAAAA毛片| 亚洲精品97久久中文字幕无码 | 免费无码又爽又刺激网站| yy111111电影院少妇影院无码 | 精品人妻无码区二区三区| 无码人妻精品一区二区蜜桃网站| 97精品人妻系列无码人妻| 亚洲国产精品无码久久| 国产成人无码AV片在线观看 | 无码国产精品一区二区免费式芒果 |