提出了一種從大規模文檔文集中提取命名實體的方法。該方法包括識別文集中的命名實體,并利用一些現有資源人工或自動形成種子實體集合,構造命名實體圖以發現任何給定命名實體對之間的相同類型概率,擴展所述種子實體集合,以及在所述命名實體圖上執行種子實體的置信度傳播。
【技術實現步驟摘要】
【國外來華專利技術】
技術介紹
互聯網的出現導致了像以前從來沒有過的信息爆炸。每天有數千文檔上載,網絡已成為搜索信息的最喜歡的地方。命名實體(NE named entity)搜索是搜索正確信息的機制之一。命名實體通常是指詞或詞組,例如公司、人的名稱、位置、時間、日期、數值等。命名實體搜索可以使查找相關信息的任務變得相對容易。不過,如果在互聯網上進行搜索,假設搜索文檔的文集(corpus )可能潛在地是數百萬文檔,搜索具有多個簡單命名實體的復雜命名實體(例如詞組)不是小任務。已經報告過用于命名實體提取的若干種方法。這些方法中的ー些利用機器學習技術來訓練模型,以從高質量的新聞專線文本提取公共命名實體。它們集中于針對特定的典型NE類型使用統計模型,例如隱馬爾可夫模型、規則學習和最大熵馬爾可夫模型。這些研究從手工加標簽的訓練文集中學習模型或規則,因此模型和規則僅對類似的文集有效,而 對于具有不同統計特性或不同流派或風格的其他文集表現不佳。由于針對每種特定NE類型的訓練模型成本高昂,所以這些方法不能滿足一般命名實體提取的需求。附圖說明為了更好地理解本專利技術,現在將參考附圖完全以舉例的方式描述實施例,在附圖中圖I示出了根據實施例的命名實體提取的計算機實施的方法的流程圖。圖2示出了根據實施例的圖I的方法的子例程的流程圖。圖3示出了根據實施例的命名實體圖的示范性圖解表示。圖4示出了可以在其上實施實施例的計算機系統400的方框圖。具體實施例方式在包括附圖的整個文檔中可互換地使用以下術語。(a) “節點”和“命名實體” (b) “文檔”和“電子文檔” 本專利技術的實施例提供了用于從文檔或文檔文集提取命名實體(NE)的方法、計算機可執行代碼和計算機存儲介質。本專利技術的實施例g在在低質量文集上執行命名實體的有效提取,并以最低成本提取任何類型的實體。所提出的方法適應文檔的多祥性(例如在有組織的網頁中),并且在大規模文集上提取大量命名實體是高效的。實施例從大規模文檔文集有效地提取命名實體,在這種文檔文集中,內容的冗余性不如網絡規模的文集顯著。圖I示出了根據實施例的100的流程圖。可以在計算機系統(或計算機可讀介質)上執行方法100。該方法在步驟110中開始。在步驟110中,訪問文檔或文檔文集,并且識別文檔或文檔文集中出現的命名實體(NE),利用一些現有資源可以從其人工或自動形成種子實體集ロ O文檔文集可以是電子文檔的集合,例如但不限于網頁的集合。可以從諸如電子數據庫之類的儲存庫(repository)獲得文檔。電子數據庫可以是內部數據庫,例如公司的內部網或外部數據庫例如Wikipedia。而且,電子數據庫可以存儲在獨立的個人計算機上或遍布在多個計算機器上,利用有線或無線技術聯網在一起。例如,電子數據庫可以被托管(host)在通過廣域網(WAN)或互聯網而連接的多個服務器上。在實施例中,識別文集(例如內部網中的網頁)中出現的所有可能的命名實體而不考慮其類型。該步驟識別簡單和復雜的命名實體這二者。作為例示,可以識別簡單實體,例如人名(“Jack Sparrow)和位置(“曼谷”)。也可以識別復雜命名實體,例如產品名稱(“Compaq Presario 3434 with HP Printer 4565,,)和項目名稱(“Entity ExtractionProject in ABC Department”),而不論其類型如何。在實施例中,可以使用一種基于排列(collocation)的方法(例如,D. Downey等人 在 Proc. of IJCAI, 2007 中的“Locating complex named entities in web text”所述的方法)來識別命名實體。不過,本實施例使用不同的方法判斷命名實體的邊界。它使用具有數字的項目(term)作為命名實體邊界的標識符,并使用預定義的閾值來選擇對稱條件概率(SCP)高于閾值的候選者作為命名實體。在步驟120中,構造命名實體圖以發現以上步驟110中識別的任何給定命名實體對之間的相同類型概率。在構造命名實體圖以發現任何給定命名實體對之間的相同類型概率中涉及的方法步驟包括若干子步驟,如圖2中所示。在實施例中,使用基于語言模型的圖構造方法和基于simhash的方法來計算兩個命名實體之間的條件概率并構造命名實體圖,其對文檔文集(例如,組織的網頁)中命名實體之間的相同類型信息進行編碼。下文描述這兩種模型。基于語言模型的圖構造 如所周知,圖一般是點的集合,其中ー些點由鏈路(link)連接。點被稱為頂點(或節點),并且連接一些頂點對的鏈路被稱為邊。邊可以是有方向或無方向的。圖構造時的主要問題之ー是計算每條邊的權重,其對端節點與起始節點是相同類型的條件概率進行編碼。在實施例中,提出了一種三階段方法以計算邊的權重并構造命名實體圖(a)為每個命名實體(節點)創建語言模型,(b)基于KL-距離(KL-Divergence)計算條件概率,(c)利用所有命名實體來構造圖。在第一階段中,為每個命名實體創建語言模型(122)。這是通過針對每個命名實體檢索包含該命名實體的文檔來實現的。然后將檢索到的文檔與排名前列的文檔中的圍繞命名實體的片斷組合成虛擬文檔。為了例示,取命名實體“Jack Sparrow^還假設文檔文集中對“Jack Sparrow”的實體搜索獲得幾百個文檔。在本實施例中,所提出的方法將排名前列的文檔中的圍繞命名實體(“Jack Sparrow”)的片斷組合成虛擬文檔。排名前列的文檔可能標題為例如“Pirate”、“Pirates of The Caribbean”、“Johnny Depp” 等。而且,該片斷可以是“膠片”、“電影”、“演員”、“好萊塢”等。所創建的虛擬文檔反映了其中命名實體出現在的片段的多祥性,并且捕獲了片段中的命名實體的語境的主要特征。因此,虛擬頁集合充當用于為每個命名實體構造語言模型的良好集合。在實施例中,利用Dirichlet平滑法構造語言模型。在第二階段中,計算(124)每個給定命名實體對之間的條件概率。在實施例中,給定ー對實體 ' 和 ',假設 ' 和乃的語言模型分別是Li和Lj,基于其KL-距離D (Lj I Li),條件概率可以被計算為本文檔來自技高網...
【技術保護點】
【技術特征摘要】
【國外來華專利技術】1.一種提取命名實體的計算機實施的方法,包括 識別文檔文集中的命名實體,并利用ー些現有資源人工或自動形成種子實體集合; 構造命名實體圖,以發現任何給定命名實體對之間的相同類型概率; 擴展所述種子實體集合;以及 在所述命名實體圖上執行種子實體的置信度傳播。2.根據權利要求I所述的方法,其中命名實體圖中的每個節點都是命名實體,并且每條邊反映了端節點(命名實體)與起始節點(命名實體)是相同類型的條件概率。3.根據權利要求I所述的方法,其中構造命名實體圖包括 為每個命名實體創建語言模型; 確定每個給定命名實體對之間的條件概率,其中每個命名實體都具有其自己的語言模型;以及 利用具有其對應條件概率的所有命名實體構造所述命名實體圖。4.根據權利要求3所述的方法,其中確定每個給定命名實體對之間的條件概率基于其KL-距尚。5.根據權利要求3所述的方法,在圖構造之前還包括如下步驟 針對每個命名實體,確定所述命名實體和其余命名實體之間的邊;以及 針對所述命名實體和其余命名實體之間的每個邊確定條件概率。6.根據權利要求5所述的方法,其中僅使用條件概率高于...
【專利技術屬性】
技術研發人員:姚從磊,熊宇紅,鄭李煒,
申請(專利權)人:惠普發展公司,有限責任合伙企業,
類型:
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。