用于消除非結構化文本中的特征的歧義的方法技術

技術編號：14275420 閱讀：126 留言：0更新日期：2016-12-24 16:53

提供一種用于消除非結構化文本中的特征的歧義的方法。所公開的方法可以不要求預先存在的鏈接的存在。用于消除非結構化文本中的特征的歧義的方法可使用從源文檔和大的文檔語料庫兩者獲得的共同出現的特征。所公開的方法可包括多個模塊，其包括用于將從源文檔獲得的特征鏈接到現存的知識庫的共同出現的特征的鏈接模塊。所公開的用于消除特征的歧義的方法可允許從包括具有獨特的一組共同出現的特征的實體的知識庫中識別獨特的實體，這進而可允許在知識搜尋和搜索結果中增加準確度，在大的語料庫上使用高級分析方法，使用實體、共同出現的實體、主題ID以及其他獲得的特征的組合。

全部詳細技術資料下載

【技術實現步驟摘要】
【國外來華專利技術】
本公開總體上涉及數據管理；并且更具體地，涉及從通過網絡接收的源項中提取并存儲資料的數據管理系統和方法。
技術介紹
在包括諸如網絡的源的大的文檔集合中搜索關于實體(例如，人，位置，組織)的信息常常可以是有歧義的，其可導致不精確的文本處理功能、在知識提取期間不精確的特征關聯，并因此導致不精確的數據分析。現有技術的系統將基于鏈接的群集和排列用于數個算法，例如網頁排名(PageRank)和超鏈誘導主題搜索(HITS)算法中。這背后的基本思想和相關的方法是預先存在的鏈接通常存在于相關的各頁面或各概念之間。基于群集的技術的限制在于：有時候在語境中不存在消除實體的歧義所需的語境信息，導致不正確的消除歧義結果。類似地，關于相同的或表面上相似的語境中的不同實體的文檔可能被不正確地群集在一起。其他系統試圖通過參考實體的一個或多個外部詞典(或知識庫)消除實體的歧義。在這樣的系統中，實體的語境與詞典中可能匹配的實體作比較，并返回最接近的匹配。與當前基于詞典的技術相關的限制源于以下事實：實體的數量可隨時增加，并因此，沒有詞典可包括世界上所有實體的表示。因此，如果文檔的語境與詞典中的實體匹配，那么該技術僅識別詞典中最相似的實體，且不一定是正確的實體，正確的實體可能在詞典之外。在消除歧義的過程中，大多數方法僅使用實體和關鍵短語。因此，仍然需要允許精確數據分析的精確的實體消除歧義技術。
技術實現思路
一些實施例描述了用于消除特征的歧義的方法。該方法可包括多個模塊，例如一個或多個特征提取模塊、一個或多個消除歧義模塊、一個或多個評分模塊以及一個或多個鏈接模塊。將通過使用潛在狄利克雷分配(MC-...
用于消除非結構化文本中的特征的歧義的方法

【技術保護點】
一種方法，包括：通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄，以識別與一個或多個提取的特征匹配的一個或多個候選，其中，與候選匹配的提取的特征是初級特征；通過所述節點使每個所述提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯；基于主題ID的相關性，通過所述節點使每個所述初級特征相對于彼此消除歧義；基于所述主題ID的相關性，通過所述節點來識別與每個初級特征關聯的一組次級特征；基于所述主題ID的相關性，通過所述節點使每個所述初級特征相對于關聯的所述一組次級特征中的每個所述次級特征消除歧義；通過所述節點將每個初級特征鏈接到關聯的所述一組次級特征，以形成新的集群；通過所述節點確定所述新的集群是否與現存的知識庫集群匹配，其中，當匹配存在時，通過所述內存數據庫服務器計算機的消除歧義模塊來確定與所述知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新所述知識庫集群以包括所述新的集群；以及當匹配不存在時，通過所述節點創建新的知識庫集群并給所述新的知識庫集群的初級特征分配新的唯一ID；以及通過所述節點傳送用于初級特征的所述現存的唯一ID和所述新的唯一ID中的一個。...

【技術特征摘要】
【國外來華專利技術】2013.12.02 US 61/910,7391.一種方法，包括：通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄，以識別與一個或多個提取的特征匹配的一個或多個候選，其中，與候選匹配的提取的特征是初級特征；通過所述節點使每個所述提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯；基于主題ID的相關性，通過所述節點使每個所述初級特征相對于彼此消除歧義；基于所述主題ID的相關性，通過所述節點來識別與每個初級特征關聯的一組次級特征；基于所述主題ID的相關性，通過所述節點使每個所述初級特征相對于關聯的所述一組次級特征中的每個所述次級特征消除歧義；通過所述節點將每個初級特征鏈接到關聯的所述一組次級特征，以形成新的集群；通過所述節點確定所述新的集群是否與現存的知識庫集群匹配，其中，當匹配存在時，通過所述內存數據庫服務器計算機的消除歧義模塊來確定與所述知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新所述知識庫集群以包括所述新的集群；以及當匹配不存在時，通過所述節點創建新的知識庫集群并給所述新的知識庫集群的初級特征分配新的唯一ID；以及通過所述節點傳送用于初級特征的所述現存的唯一ID和所述新的唯一ID中的一個。2.根據權利要求1所述的方法，進一步包括：通過所述節點將與提取的特征匹配的每個所述候選記錄作比較；以及基于所述比較，通過所述節點給每個所述提取的特征分配加權的匹配分數結果。3.根據權利要求2所述的方法，進一步包括：通過所述節點使每個所述提取的特征與一組加權的特征屬性關聯。4.根據權利要求3所述的方法，進一步包括：基于一個或多個加權的特征屬性，通過所述節點確定每個所述提取的特征的相關性。5.根據權利要求1所述的方法，進一步包括：通過所述節點的提取模塊來識別和提取，其中，在一個或多個提取的特征中識別一個或多個初級特征；以及通過所述節點的提取模塊將每個所述提取的特征存儲在數據庫中。6.根據權利要求5所述的方法，進一步包括：通過所述節點的提取模塊給每個所述特征分配提取確定性分數。7.根據權利要求1所述的方法，其中，每個初級特征與一組一個或多個特征屬性關聯。8.根據權利要求7所述的方法，其中，特征屬性選自由以下各項構成的組：主題ID、文檔標識符(“文檔ID”)、特征類型、特征名稱、置信度分數以及特征位置。9.根據權利要求1所述的方法，其中，每個關聯的特征與根據預定集群層級的一組次序更低的特征關聯。10.根據權利要求1所述的方法，進一步包括：通過節點執行所述一組候選記錄的模糊關鍵字搜索。11.根據權利要求7所述的方法，進一步包括：基于相關的多個主題ID的共同出現以及一個或多個特征屬性，通過所述節點的即時鏈接模塊來鏈接兩個或更多個數據源。12.根據權利要求1所述的方法，進一步包括：通過將一個數據源中的提取的特征與第二數據...

【專利技術屬性】
技術研發人員：斯科特·萊特納，弗蘭茲·威克斯爾，桑賈伊·博德胡，拉凱什·戴維，羅伯特·弗拉格，
申請(專利權)人：丘貝斯有限責任公司，
類型：發明
國別省市：美國;US

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術