• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于消除非結構化文本中的特征的歧義的方法技術

    技術編號:14275420 閱讀:126 留言:0更新日期:2016-12-24 16:53
    提供一種用于消除非結構化文本中的特征的歧義的方法。所公開的方法可以不要求預先存在的鏈接的存在。用于消除非結構化文本中的特征的歧義的方法可使用從源文檔和大的文檔語料庫兩者獲得的共同出現的特征。所公開的方法可包括多個模塊,其包括用于將從源文檔獲得的特征鏈接到現存的知識庫的共同出現的特征的鏈接模塊。所公開的用于消除特征的歧義的方法可允許從包括具有獨特的一組共同出現的特征的實體的知識庫中識別獨特的實體,這進而可允許在知識搜尋和搜索結果中增加準確度,在大的語料庫上使用高級分析方法,使用實體、共同出現的實體、主題ID以及其他獲得的特征的組合。

    【技術實現步驟摘要】
    【國外來華專利技術】
    本公開總體上涉及數據管理;并且更具體地,涉及從通過網絡接收的源項中提取并存儲資料的數據管理系統和方法。
    技術介紹
    在包括諸如網絡的源的大的文檔集合中搜索關于實體(例如,人,位置,組織)的信息常常可以是有歧義的,其可導致不精確的文本處理功能、在知識提取期間不精確的特征關聯,并因此導致不精確的數據分析。現有技術的系統將基于鏈接的群集和排列用于數個算法,例如網頁排名(PageRank)和超鏈誘導主題搜索(HITS)算法中。這背后的基本思想和相關的方法是預先存在的鏈接通常存在于相關的各頁面或各概念之間。基于群集的技術的限制在于:有時候在語境中不存在消除實體的歧義所需的語境信息,導致不正確的消除歧義結果。類似地,關于相同的或表面上相似的語境中的不同實體的文檔可能被不正確地群集在一起。其他系統試圖通過參考實體的一個或多個外部詞典(或知識庫)消除實體的歧義。在這樣的系統中,實體的語境與詞典中可能匹配的實體作比較,并返回最接近的匹配。與當前基于詞典的技術相關的限制源于以下事實:實體的數量可隨時增加,并因此,沒有詞典可包括世界上所有實體的表示。因此,如果文檔的語境與詞典中的實體匹配,那么該技術僅識別詞典中最相似的實體,且不一定是正確的實體,正確的實體可能在詞典之外。在消除歧義的過程中,大多數方法僅使用實體和關鍵短語。因此,仍然需要允許精確數據分析的精確的實體消除歧義技術。
    技術實現思路
    一些實施例描述了用于消除特征的歧義的方法。該方法可包括多個模塊,例如一個或多個特征提取模塊、一個或多個消除歧義模塊、一個或多個評分模塊以及一個或多個鏈接模塊。將通過使用潛在狄利克雷分配(MC-LDA)主題模型的多分量擴展,從特征的周圍文檔提取主題,而部分地支持消除特征的歧義。這里,圍繞存儲在現存的知識庫中的或在進入的文檔上提取的每個次級特征,對每個分量建模。進一步地,鏈接或消除歧義的過程被建模成來自MC-LDA的主題推斷,其在MC-LDA訓練期間提供自動權重估計并在推斷期間容易地應用它們。示例性方法可提高實體消除歧義的準確度,超過了不考慮文檔鏈接的情況下可實現的準確度。考慮文檔鏈接可通過考慮文檔和由鏈接暗示的實體的關系,而允許更好的消除歧義。在一個實施例中,方法包括:通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄,以識別與一個或多個提取的特征匹配的一個或多個候選,其中與候選匹配的提取的特征是初級特征;通過節點使每個提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯;基于主題ID的相關性,通過節點使每個初級特征相對于彼此消除歧義;基于主題ID的相關性,通過節點識別與每個初級特征關聯的一組次級特征;基于主題ID的相關性,通過節點使每個初級特征相對于關聯的一組次級特征中的每個次級特征消除歧義;通過節點將每個初級特征鏈接到關聯的一組次級特征,以形成新的集群;通過節點確定新的集群是否與現存的知識庫集群匹配,其中當匹配存在時,通過內存數據庫服務器計算機的消除歧義模塊來確定與知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新知識庫集群以包括該新的集群;以及當匹配不存在時,通過節點創建新的知識庫集群并給新的知識庫集群的初級特征分配新的唯一ID;以及通過節點傳送用于初級特征的現存的唯一ID和新的唯一ID中的一個。在另一實施例中,一種非暫時性計算機可讀介質,其上存儲有計算機可執行的指令,所述指令包括:通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄,以識別與一個或多個提取的特征匹配的一個或多個候選,其中,與候選匹配的提取的特征是初級特征;通過節點使每個提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯;基于主題ID的相關性,通過節點使每個初級特征相對于彼此消除歧義;基于主題ID的相關性,通過節點識別與每個初級特征關聯的一組次級特征;基于主題ID的相關性,通過節點使每個初級特征相對于關聯的一組次級特征中的每個次級特征消除歧義;通過節點將每個初級特征鏈接到關聯的一組次級特征,以形成新的集群;通過節點確定新的集群是否與現存的知識庫集群匹配,其中當匹配存在時,通過節點確定與知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新知識庫集群以包括該新的集群;以及當匹配不存在時,創建新的知識庫集群并給新的知識庫集群的初級特征分配新的唯一ID;以及通過節點傳送用于初級特征的現存的唯一ID和新的唯一ID中的一個。將在下面的描述中闡述實施例的附加特點和優點,部分地將從描述中明顯。通過具體地在書面描述中的示例性實施例、本文的權利要求以及附圖中指出的結構,將實現和獲得本專利技術的目的和其他優點。將理解的是,前面的一般性描述和下面的詳細描述是示例性的和說明性的,意在提供對要求保護的專利技術的進一步解釋。附圖說明通過參照以下附圖,可更好地理解本公開。附圖構成本說明書的一部分并示出了本專利技術的實施例,且與說明書一起解釋本專利技術。附圖中的組件不一定按比例繪制,相反重點是著重于說明本公開的原理。在附圖中,貫穿不同的視圖,參考數字指示對應的部分。圖1是根據示例性實施例的、用于消除非結構化文本中的特征的歧義的方法的流程圖。圖2是根據示例性實施例的、由用于消除特征的歧義的方法中使用的消除歧義模塊所執行的步驟的流程圖。圖3是根據示例性實施例的、由用于消除特征的歧義的方法中使用的即時鏈接模塊(link on-the-fly module)所執行的步驟的流程圖。圖4是根據示例性實施例的、用于實現用于消除特征的歧義的方法的系統的原理圖。圖5示出了根據示例性實施例的、多分量的、條件獨立的潛在狄利克雷分配(MC-LDA)主題模型的圖示。圖6示出了根據示例性實施例的、用于多分量的、條件獨立的潛在狄利克雷分配主題模型的吉布斯采樣等式的實施例。圖7示出了根據示例性實施例的、用于多分量的、條件獨立的潛在狄利克雷分配主題模型中的訓練和推斷的、隨機變分推斷算法的實現的實施例。圖8是示出根據示例性實施例的、用于多分量的、條件獨立的潛在狄利克雷分配主題模型的樣本主題的表。定義如本文使用的,下面的術語可具有如下定義:“文檔”指的是具有開頭和結尾的信息的離散電子表示。“多文檔”指的是以下文檔,該文檔具有其標記、不同類型的被命名的實體、以及被組織成單獨的“表面包形式(bag-of-surface form)”分量的關鍵短語。“數據庫”指的是包括集群和模塊的任何組合、適合于存儲一個或多個集合且適合于處理一個或多個查詢的任何系統。“語料庫”指的是一個或多個文檔的集合。“活的語料庫”或“文檔流”指的是當新的文檔上傳到網絡中時被持續地供給的語料庫。“特征”指的是至少部分地從文檔中獲得的任何信息。“特征屬性”指的是與特征關聯的元數據;例如,特征在文檔中的位置,置信度分數等。“集群”指的是特征的集合。“實體知識庫”指的是包含特征/實體的庫。“即時鏈接模塊”或“鏈接OTF”指的是當活的語料庫被更新時對數據進行更新的任何鏈接模塊。“存儲器”指的是適合于以足夠高的速度存儲信息并檢索所述信息的任何硬件組件。“模塊”指的是適合于執行一個或多個所限定的任務的計算機軟件組件。“情緒”指的是與文檔、文檔的一部分或特征關聯的主觀評價。“主題”指的是至少部分地從語料庫獲得的本文檔來自技高網...
    用于消除非結構化文本中的特征的歧義的方法

    【技術保護點】
    一種方法,包括:通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄,以識別與一個或多個提取的特征匹配的一個或多個候選,其中,與候選匹配的提取的特征是初級特征;通過所述節點使每個所述提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯;基于主題ID的相關性,通過所述節點使每個所述初級特征相對于彼此消除歧義;基于所述主題ID的相關性,通過所述節點來識別與每個初級特征關聯的一組次級特征;基于所述主題ID的相關性,通過所述節點使每個所述初級特征相對于關聯的所述一組次級特征中的每個所述次級特征消除歧義;通過所述節點將每個初級特征鏈接到關聯的所述一組次級特征,以形成新的集群;通過所述節點確定所述新的集群是否與現存的知識庫集群匹配,其中,當匹配存在時,通過所述內存數據庫服務器計算機的消除歧義模塊來確定與所述知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新所述知識庫集群以包括所述新的集群;以及當匹配不存在時,通過所述節點創建新的知識庫集群并給所述新的知識庫集群的初級特征分配新的唯一ID;以及通過所述節點傳送用于初級特征的所述現存的唯一ID和所述新的唯一ID中的一個。...

    【技術特征摘要】
    【國外來華專利技術】2013.12.02 US 61/910,7391.一種方法,包括:通過對內存數據庫進行寄存的系統的節點搜索一組候選記錄,以識別與一個或多個提取的特征匹配的一個或多個候選,其中,與候選匹配的提取的特征是初級特征;通過所述節點使每個所述提取的特征與一個或多個由機器生成的主題標識符(“主題ID”)關聯;基于主題ID的相關性,通過所述節點使每個所述初級特征相對于彼此消除歧義;基于所述主題ID的相關性,通過所述節點來識別與每個初級特征關聯的一組次級特征;基于所述主題ID的相關性,通過所述節點使每個所述初級特征相對于關聯的所述一組次級特征中的每個所述次級特征消除歧義;通過所述節點將每個初級特征鏈接到關聯的所述一組次級特征,以形成新的集群;通過所述節點確定所述新的集群是否與現存的知識庫集群匹配,其中,當匹配存在時,通過所述內存數據庫服務器計算機的消除歧義模塊來確定與所述知識庫集群中的每個匹配的初級特征對應的現存的唯一標識符(“唯一ID”)并更新所述知識庫集群以包括所述新的集群;以及當匹配不存在時,通過所述節點創建新的知識庫集群并給所述新的知識庫集群的初級特征分配新的唯一ID;以及通過所述節點傳送用于初級特征的所述現存的唯一ID和所述新的唯一ID中的一個。2.根據權利要求1所述的方法,進一步包括:通過所述節點將與提取的特征匹配的每個所述候選記錄作比較;以及基于所述比較,通過所述節點給每個所述提取的特征分配加權的匹配分數結果。3.根據權利要求2所述的方法,進一步包括:通過所述節點使每個所述提取的特征與一組加權的特征屬性關聯。4.根據權利要求3所述的方法,進一步包括:基于一個或多個加權的特征屬性,通過所述節點確定每個所述提取的特征的相關性。5.根據權利要求1所述的方法,進一步包括:通過所述節點的提取模塊來識別和提取,其中,在一個或多個提取的特征中識別一個或多個初級特征;以及通過所述節點的提取模塊將每個所述提取的特征存儲在數據庫中。6.根據權利要求5所述的方法,進一步包括:通過所述節點的提取模塊給每個所述特征分配提取確定性分數。7.根據權利要求1所述的方法,其中,每個初級特征與一組一個或多個特征屬性關聯。8.根據權利要求7所述的方法,其中,特征屬性選自由以下各項構成的組:主題ID、文檔標識符(“文檔ID”)、特征類型、特征名稱、置信度分數以及特征位置。9.根據權利要求1所述的方法,其中,每個關聯的特征與根據預定集群層級的一組次序更低的特征關聯。10.根據權利要求1所述的方法,進一步包括:通過節點執行所述一組候選記錄的模糊關鍵字搜索。11.根據權利要求7所述的方法,進一步包括:基于相關的多個主題ID的共同出現以及一個或多個特征屬性,通過所述節點的即時鏈接模塊來鏈接兩個或更多個數據源。12.根據權利要求1所述的方法,進一步包括:通過將一個數據源中的提取的特征與第二數據...

    【專利技術屬性】
    技術研發人員:斯科特·萊特納弗蘭茲·威克斯爾桑賈伊·博德胡拉凱什·戴維羅伯特·弗拉格
    申請(專利權)人:丘貝斯有限責任公司
    類型:發明
    國別省市:美國;US

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码日韩人妻精品久久| 无码人妻啪啪一区二区| 中文字幕无码精品亚洲资源网| 亚洲综合无码精品一区二区三区| 久久精品无码专区免费东京热| 国产怡春院无码一区二区| 国产精品无码成人午夜电影| 亚洲AV综合色区无码二区爱AV| 亚洲毛片av日韩av无码| 麻豆aⅴ精品无码一区二区| 精品无码一级毛片免费视频观看| 人妻少妇偷人精品无码| 伊人久久精品无码av一区| 国产成人无码aa精品一区| 亚洲AV无码男人的天堂| 午夜人性色福利无码视频在线观看 | 久久久无码精品国产一区| 无码人妻丰满熟妇啪啪| 亚洲av成本人无码网站| 久热中文字幕无码视频| 亚洲AV永久纯肉无码精品动漫| 亚洲毛片av日韩av无码| 亚洲精品无码久久久久AV麻豆| 亚洲人成网亚洲欧洲无码| 久久AV无码精品人妻糸列| 久久人妻少妇嫩草AV无码专区| 亚洲精品无码久久一线| 国产精品无码av片在线观看播| 亚洲Av永久无码精品黑人 | 亚洲性无码AV中文字幕| 亚洲av无码精品网站| 国产精品无码无卡在线播放| HEYZO无码综合国产精品| 亚洲AⅤ无码一区二区三区在线| 国语成本人片免费av无码| 色国产色无码色欧美色在线| 色综合99久久久无码国产精品| 亚洲中文无码卡通动漫野外| 中文字幕久久久人妻无码| 亚洲性无码一区二区三区| 无码视频免费一区二三区|