本發明專利技術提供了一種人物搜索方法和設備,該方法包括:文檔獲取步驟,以給定的人物名稱作為關鍵詞進行搜索,以獲取與該人物名稱相關的多個文檔;預處理步驟,對所獲取的多個文檔進行預處理,以獲得多個文檔的相關信息;特征提取步驟,從所獲得的相關信息中提取文檔特征;特征優化步驟,針對每個特征,如果該特征在預設的禁止特征集合中,則濾除該特征;文檔相似度計算步驟,利用優化后的特征,計算多個文檔中每兩個文檔之間的相似度;以及文檔聚類步驟,基于算出的相似度,對多個文檔進行聚類,并輸出聚類結果,其中不同類別代表具有相同名稱的不同人物。根據本發明專利技術的實施例,能夠提高聚類性能,并且能夠提高召回率,從而改善了用戶體驗。
【技術實現步驟摘要】
本專利技術涉及網絡服務領域,并且更具體地,涉及一種基于特征優化的人物搜索方法和設備。
技術介紹
近年來,隨著網絡的發展,網絡上的重名信息越來越多。因此,如何區分這些具有相同名稱的人物已引起了研究者的興趣。例如,當在網頁的搜索引擎中輸入要搜索的人物的名稱時,返回的結果中可能包含許多其他同名人物的信息。這就需要再人工添加查詢詞或者逐一瀏覽以確定哪些信息是需要的。但是,由于人工添加查詢詞對搜索結果進行了過濾,從而降低了搜索的覆蓋率;而逐一進行瀏覽又需要花費大量的時間和精力。因此,理想的解決方案是對搜索引擎返回的搜索結果進行聚類,從而將具有相同名稱的不同人物聚在不同的類別中,既保證了信息不會丟失,又節約了時間。為了解決上述問題,現有的大部分方案都是采用網頁聚類的方法,即將包含相同人物名稱的相似文檔聚在一起,從而便于用戶查看。但是,由于網頁相對于純文本具有噪聲大、錯誤多的特點,因此會出現表示不同人物的文檔被聚類在一起或者表示同一人物的文檔未被聚類在一起的情況,從而大大降低了聚類的性能。
技術實現思路
在下文中給出了關于本專利技術的簡要概述,以便提供關于本專利技術的某些方面的基本理解。但是,應當理解,這個概述并不是關于本專利技術的窮舉性概述。它并不是意圖用來確定本專利技術的關鍵性部分或重要部分,也不是意圖用來限定本專利技術的范圍。其目的僅僅是以簡化的形式給出關于本專利技術的某些概念,以此作為稍后給出的更詳細描述的前序。由于對于聚類任務,特征的選擇是非常關鍵的。因此,本專利技術的目的是提供一種新穎且改進的人物搜索方法和設備,其能夠通過對特征進行優化,濾除掉影響聚類結果的禁用特征,以保證特征的有效性,從而提高聚類的性能,并且還能夠在傳統的標準聚類過程之后,進一步引入檢索策略以進行類別歸并,從而使得被當成單獨類別的單個文檔歸入其相應的類別中,以提高召回率。為了實現上述目的,根據本專利技術的實施例的一個方面,提供了 一種人物搜索方法,該方法可以包括文檔獲取步驟,以給定的人物名稱作為關鍵詞進行搜索,以獲取與該人物名稱相關的多個文檔;預處理步驟,對所獲取的多個文檔進行預處理,以獲得多個文檔的相關信息;特征提取步驟,從所獲得的相關信息中提取文檔特征;特征優化步驟,針對每個特征,如果該特征在預設的禁止特征集合中,則濾除該特征;文檔相似度計算步驟,利用優化后的特征,計算多個文檔中每兩個文檔之間的相似度;以及文檔聚類步驟,基于算出的相似度,對多個文檔進行聚類,并輸出聚類結果,其中不同類別代表具有相同名稱的不同人物。根據本專利技術的實施例的另一方面,還提供了一種人物搜索設備,該設備可以包括文檔獲取單元,以給定的人物名稱作為關鍵詞進行搜索,以獲取與該人物名稱相關的多個文檔;預處理單元,對所獲取的多個文檔進行預處理,以獲得多個文檔的相關信息;特征提取單元,從所獲得的相關信息中提取文檔特征;特征優化單元,針對每個特征,如果該特征在預設的禁止特征集合中,則濾除該特征;文檔相似度計算單元,利用優化后的特征,計算多個文檔中每兩個文檔之間的相似度;以及文檔聚類單元,基于算出的相似度,對多個文檔進行聚類,并輸出聚類結果,其中不同類別代表具有相同名稱的不同人物。另外,根據本專利技術的另一方面,還提供了一種存儲介質,該存儲介質包括機器可讀的程序代碼,當在信息處理設備上執行程序代碼時,該程序代碼使得信息處理設備執行根據本專利技術的人物搜索方法。此外,根據本專利技術的再一方面,還提供了 一種程序產品,該程序產品包括機器可執行的指令,當在信息處理設備上執行指令時,該指令使得信息處理設備執行根據本專利技術的上述人物搜索方法。因此,根據本專利技術的實施例,能夠通過對特征進行優化以保證特征的有效性從而提高聚類的性能,并且能夠通過在標準聚類過程之后引入檢索策略以進行類別歸并,從而提聞召回率。在下面的說明書部分中給出本專利技術實施例的其他方面,其中,詳細說明用于充分地公開本專利技術實施例的優選實施例,而不對其施加限定。附圖說明下面結合具體的實施例,并參照附圖,對本專利技術實施例的上述和其它目的和優點做進一步的描述。在附圖中,相同的或對應的技術特征或部件將采用相同或對應的附圖標記來表示。圖1示出了根據本專利技術的實施例的人物搜索方法的流程圖;圖2詳細示出了根據本專利技術的實施例的特征優化算法的流程圖;圖3示出了根據本專利技術的檢索策略的流程圖;圖4詳細示出了圖3所示的類別相似度計算步驟的第一示例的流程圖;圖5詳細示出了圖3所示的類別相似度計算步驟的第二示例的流程圖;圖6示出了根據本專利技術的實施例的人物搜索設備的配置的框圖;圖7詳細示出了圖6中的禁止特征集合獲取單元的配置的框圖;圖8示出了圖6中的類別相似度計算單元的第一示例的配置的框圖;圖9示出了圖6中的類別相似度計算單元的第二示例的配置的框圖;以及圖10是示出作為本專利技術的實施例中所采用的信息處理設備的個人計算機的示例性結構的框圖。具體實施例方式在下文中將結合附圖對本專利技術的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現開發人員的具體目標,例如,符合與系統及業務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發工作有可能是非常復雜和費時的,但對得益于本公開內容的本領域技術人員來說,這種開發工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節而模糊了本專利技術,在附圖中僅僅示出了與根據本專利技術的方案密切相關的設備結構和/或處理步驟,而省略了與本專利技術關系不大的其它細節。以下參照附圖1至10來描述本專利技術的實施例。首先參照圖1,對根據本專利技術的實施例的人物搜索方法進行描述。該人名搜索方法可以包括文檔獲取步驟SlOl :以給定的人物名稱作為關鍵詞進行搜索,以獲取與該人物名稱相關的多個文檔。具體地,在互聯網搜索引擎中輸入想要搜索的人物的名稱,從而得到返回的與該人物名稱相關的多個網頁。預處理步驟S102 :對在步驟SlOl中獲取的多個文檔進行預處理,以獲得多個文檔的相關信息,該相關信息例如可包括網頁的URL、標題、時間以及正文等信息。特征提取步驟S103 :從在步驟S102中獲得的文檔相關信息中提取文檔特征。這里,文檔特征提取的范圍是整個文檔,并且所提取的文檔特征可以是對該文檔具有較強指示能力的特征,例如可以包括命名實體特征、復合名詞特征和超鏈接特征。具體地,對于命名實體特征,這里采用斯坦福的NER(命名實體識別)來進行命名實體特征的提取。實體可以包括三種常見的類型入名、地名以及機構名。由于地名和機構名可能具有許多與特定人物相關性較低的名詞,因此與入名相比,對地名和機構名分配較低的權重值。在通過搜索得到的多個文檔中,根據WePS(網絡人物搜索)2009,每個文檔包含至少出現過一次的要搜索的入名。然而,由于聚類的目的是為了區分指的是同名而不同人的文檔,因此所輸入的查詢人名屬于禁用詞(stop-word),應該從所提取的特征中剔除該特征。這是因為這些禁用詞不但難以縮小搜索范圍,還會延誤搜索結果的提供。對于復合名詞特征,它們可以包含與一個人物相關的語義信息或傳記信息,這對于識別個體是非常好的指示。復合名詞特征的提取是基于復合名詞與其作本文檔來自技高網...
【技術保護點】
一種人物搜索方法,包括:文檔獲取步驟,以給定的人物名稱作為關鍵詞進行搜索,以獲取與所述人物名稱相關的多個文檔;預處理步驟,對所獲取的多個文檔進行預處理,以獲得所述多個文檔的相關信息;特征提取步驟,從所獲得的相關信息中提取文檔特征;特征優化步驟,針對每個所述特征,如果該特征在預設的禁止特征集合中,則濾除該特征;文檔相似度計算步驟,利用優化后的特征,計算所述多個文檔中每兩個文檔之間的相似度;以及文檔聚類步驟,基于算出的相似度,對所述多個文檔進行聚類,并輸出聚類結果,其中不同類別代表具有相同名稱的不同人物。
【技術特征摘要】
【專利技術屬性】
技術研發人員:張姝,孟遙,夏迎炬,于浩,
申請(專利權)人:富士通株式會社,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。