基于向量空間模型的文本相似性匹配方法組成比例

技術編號：8594073 閱讀：282 留言：0更新日期：2013-04-18 07:17

本發明專利技術公開了一種基于向量空間模型的文本相似性匹配方法，包括：提取文本的關鍵詞，對所有關鍵詞進行聚類，生成關鍵詞概念樹；根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性，按相似性的大小得到在翻譯參考文獻庫中匹配的文本。本發明專利技術技術方案相對準確反映了文本之間的聯系，這樣可以更加充分地反映文本的相似度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種計算機技術，具體說，涉及一種。
技術介紹
現在一些常用的文本檢索模型，包括基于文字的檢索模型和基于結構的檢索模型。基于文本的檢索模型又包括向量空間模型、近似模型、概率模型和統計語言檢索模型；基于結構的文本檢索模型又包括內部結構檢索模型、外部結構檢索模型。文本的相似度，即兩篇文本之間相似程度的數值度量，取兩篇文本D1、D2，若(Dl H D2)/ (Dl U D2)越接近I表示兩篇文本的相似度越高，反之相反。在文本檢索技術中，相似度計算主要用于衡量文本對象之間的相似程度，在數據挖掘、自然語言處理中是一個基礎性計算。其中的關鍵技術主要是兩個部分，對象的特征表示和特征集合之間的相似關系。在信息檢索、網頁判重、推薦系統等，都涉及到對象之間或者對象和對象集合的相似性的計算。針對不同的應用場景，受限于數據規模、時空開銷等的限制，相似度計算方法的選擇又會有所區別和不同。通常使用的計算相似度的方法是VSM (向量空間模型)。這種模型通過對文本提取關鍵詞，然后進行權值賦值，將文本表示成由權重不同的關鍵詞構成的向量，通過計算兩個文本的向量距離從而得到文本的相似度。由于關鍵詞很可能存在同義詞、一詞多義等現象，所以用傳統的向量空間模型方法得到的相似度計算結果精度不高，結果往往并不令人滿意；關鍵詞加權算法僅僅是尋求文本和關鍵詞之間的關系，不能橫向地聯系不同文本間關鍵詞之間的關系，給文本檢索帶來了如下問題(I)關鍵詞不能準確表達用戶需求。用戶很難選擇準確的關鍵詞來進行搜索，因為其中涉及到查詢和概念之間的語義映射問題。用戶給出的查詢關鍵詞不能很好地反映用戶的意圖。(...

【技術保護點】
一種基于向量空間模型的文本相似性匹配方法，包括：提取文本的關鍵詞，對所有關鍵詞進行聚類，生成關鍵詞概念樹；根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性，按相似性的大小得到在翻譯參考文獻庫中匹配的文本。

【技術特征摘要】
1.一種基于向量空間模型的文本相似性匹配方法，包括提取文本的關鍵詞，對所有關鍵詞進行聚類，生成關鍵詞概念樹；根據構建的待翻譯文本中關鍵詞的關鍵詞概念樹計算文本的相似性，按相似性的大小得到在翻譯參考文獻庫中匹配的文本。2.如權利要求1所述的基于向量空間模型的文本相似性匹配方法，其特征在于，所述生成關鍵詞概念樹的步驟包括提取待分類文檔和參考庫中的所有關鍵詞，得到關鍵詞集合；對關鍵詞集合中的關鍵詞進行聚類，把相同概念的關鍵詞聚合為ー個概念類集合，根據所述概念類集合生成所述關鍵詞概念樹。3.如權利要求2所述的基于向量空間模型的文本相似性匹配方法，其特征在于，若關鍵詞も出現的概率p Cki) >P1 ;且有，在出現ん的該文本中也出現關鍵詞Icj的條件概率pCkj I kj >P2，則認為關鍵詞も和Ici表達相同概念，Pl和P2為設定概率閥值。4.如權利要求3所述的基于向量空間模型的文本相似性匹配方法，其特征在于，生成所述關鍵詞概念樹的過程具體步驟包括提取待分類文檔和參考庫中的所有關鍵詞，得到關鍵詞集合C= {kl，k2，…，kn}，計算C中每個關鍵詞k在出現的概率，出現關鍵詞k的文本數和文本總數之比記為p (k)；根據設定閥值過濾關鍵詞，取Pmin〈P (k) <pfflax的關鍵詞，將其作為待合并的集合項，設符合條件的關鍵詞個數為m個，其中Pmax和Pmin為設定好的高低限閥值；對過濾后得到的關鍵詞按P (k)進行降序排序，并將每ー個關鍵詞作為ー個集合，這樣得到初始的m個待合并集合，記為{kj，{k2}，…，{kj ；在這m個關鍵詞中，計算在關鍵詞h出現的文本中關鍵詞Icj出現的概率，記...

【專利技術屬性】
技術研發人員：江潮，
申請(專利權)人：武漢傳神信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術