【技術實現步驟摘要】
本專利技術涉及互聯網搜索
,特別地涉及一種利用搜索引擎進行查詢擴展的方法及系統。
技術介紹
隨著計算機技術及互聯網技術的飛速發展,互聯網上的數據和信息急劇增長。面對海量的數字化信息,人們通常需要通過搜索引擎來獲取他們想要的信息。而對于搜索引擎而言,如何能夠更好的理解用戶的需求,如何能夠從海量的數據中提取用戶感興趣的信息返回給用戶,已經成為首要的課題。對于通用搜索引擎而言,通常只有一個輸入框接受用戶的查詢。這就使得理解用戶的查詢核心需求以及具體需求細節變得有挑戰性。如果用戶的查詢語句太短,則很難弄清用戶需求的全部細節,檢索結果往往與用戶的需求部分相關;如果用戶的查詢語句過長,則很難把握用戶的核心需求,很可能查詢結果偏離用戶的核心需求,或者只滿足部分需求,顧此失彼。 為了更好的理解用戶的查詢意圖,進而提高搜索引擎檢索的準確率和召回率,查詢擴展技術應運而生。目前的查詢擴展技術主要包括基于全局分析的查詢擴展、基于局部分析的查詢擴展、基于查詢日志的查詢擴展和基于語義資源的查詢擴展。基于全局分析的查詢擴展通過挖掘大數據集上詞語之間的相關度進行查詢擴展。對通用搜索引擎而言,其數據集全體及其龐大,基于全局的數據分析對時間、設備的需求是極其巨大的;同時由于可能的歧義影響,全局分析擴展出的查詢語義需求可能更加模糊,使得檢索結果變差。因此,這種方法在實際的搜索引擎中鮮有采用。基于局部分析的查詢擴展包括相關反饋和偽相關反饋。相關反饋方法是搜索引擎算法中的經典方法。該方法先用用戶的初始查詢,得到搜索結果,通過用戶點擊,得到相關文檔集合,和不相關文檔集合,對與查詢相關性高的詞進行加權 ...
【技術保護點】
一種利用搜索引擎集群進行查詢擴展的方法,其特征在于,包括,用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,所述檢索結果被收集到一個文檔池中,N為自然數;根據文檔池中的文檔對每個搜索引擎進行評價,從而獲得每個搜索引擎的權重;根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞;根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞;根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢;利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。
【技術特征摘要】
1.一種利用搜索引擎集群進行查詢擴展的方法,其特征在于,包括, 用戶查詢被分發到搜索引擎集群中的每個搜索引擎,并獲取每個搜索引擎返回的前N條檢索結果,所述檢索結果被收集到一個文檔池中,N為自然數; 根據文檔池中的文檔對每個搜索引擎進行評價,從而獲得每個搜索引擎的權重; 根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞; 根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞; 根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞,生成擴展查詢; 利用主搜索引擎搜索擴展查詢,得到查詢結果并返回給用戶。2.根據權利要求I所述的方法,其特征在于,所述根據文檔池中文檔的信息和搜索引擎的權重確定用戶查詢中的核心詞具體包括, 過濾用戶查詢中的停用詞; 提取用戶查詢中的實體詞; 根據文檔池中文檔的信息和各個搜索引擎的權重給用戶查詢中除停用詞外的每個詞語打分,詞語打分最高的至少一個詞語被標識為核心詞。3.根據權利要求2所述的方法,其特征在于,所述提取用戶查詢中的實體詞具體包括, 從分類實體詞庫中提取實體詞; 識別查詢中的命名實體; 進行實體名的消歧工作,對于有沖突的實體名進行處理,確定最后的實體名輸出列表。4.根據權利要求2所述的方法,其特征在于,所述根據文檔池中文檔的信息和各個搜索引擎的權重給用戶查詢中除停用詞外的每個詞語打分具體包括, 所述詞語的最終打分score = f (Score1, score2), Score1是詞語自身屬性的打分,Score2是根據文檔池中文檔的信息和各個搜索引擎的權重信息得到的詞語在相關文檔中的打分,f表不兩種打分的稱合方式。5.根據權利要求I所述的方法,其特征在于,所述根據用戶查詢的核心詞分類信息及句法分析確定用戶查詢中的修飾詞具體包括, 對核心詞進行分類; 在核心詞有確定分類時,根據核心詞類別確定修飾詞的特征模板,并利用該模板在用戶查詢中查找匹配的修飾詞; 當核心詞無確定分類時,進行句法分析,比如依存句法分析,尋找核心詞的修飾成分。6.根據權利要求I所述的方法,其特征在于,所述根據用戶查詢中的核心詞、修飾詞,文檔池中的文檔信息和各個搜索引擎的權重確定用戶查詢的擴展詞具體包括, 獲得潛在擴展詞的綜合得分score = Score1 * Score2,其中Score1是根據文檔池中文檔的信息和各個搜索引擎的權重信息得到的該擴展詞與核心詞和修飾詞的關聯得分,Score2是擴展詞自身的顯著性得分; 在得到潛在擴展詞的打分后,排名前X個擴展詞將被選中和原始查詢的核心詞及修飾詞一起組成擴展后的查詢,其中X的設定將取決于主搜索引擎的承載能力和原始查詢的需求類別,所述X為自然數。7.一種利用搜索引擎進行查詢擴展的系統,其特征在于,包括,搜索引擎查詢模塊,用于...
【專利技術屬性】
技術研發人員:石志偉,雷大偉,車天文,周步戀,楊振東,王更生,王喜民,何宏靖,徐憶蘇,
申請(專利權)人:深圳市宜搜科技發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。