【技術(shù)實(shí)現(xiàn)步驟摘要】
擴(kuò)展查詢方法及系統(tǒng)
本申請(qǐng)涉及計(jì)算機(jī)數(shù)據(jù)處理
,特別是涉及一種擴(kuò)展查詢方法及系統(tǒng)。
技術(shù)介紹
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索引擎得到了不斷的完善,通過搜索引擎可以從互聯(lián)網(wǎng)上獲取各種信息。搜索引擎是當(dāng)前互聯(lián)網(wǎng)幫助用戶快速獲取信息的主要途徑之一。用戶提交一個(gè)查詢詞(Query)給搜索引擎,搜索引擎返回給用戶與該查詢詞相關(guān)的搜索結(jié)果。在電子商務(wù)網(wǎng)站中,特別是對(duì)于大型的電子商務(wù)網(wǎng)站來說,因?yàn)樗婕暗纳唐窋?shù)量較大,用戶往往也需要通過查詢詞的方式進(jìn)行搜索來查找其所需要的商品。因?yàn)橛脩糨斎氲牟樵冊~多是根據(jù)自己的意愿組合而成,這可能會(huì)出現(xiàn)能夠與查詢詞匹配的結(jié)果過少或者過多的情況,查詢結(jié)果準(zhǔn)確度不高的情況,往往需要反復(fù)搜索。為此搜索引擎往往會(huì)對(duì)查詢詞進(jìn)行擴(kuò)展或者改寫,豐富查詢信息,智能的對(duì)用戶輸入的查詢詞進(jìn)行優(yōu)化,從而提高搜索結(jié)果的準(zhǔn)確性,同時(shí)降低用戶因?yàn)榉磸?fù)搜索而給服務(wù)器帶來的壓力。常見的查詢詞擴(kuò)展方法有在查詢端和索引端進(jìn)行擴(kuò)展。其中,在查詢端擴(kuò)展主要包括對(duì)查詢詞進(jìn)行增詞、換詞和去詞。即在用戶輸入的查詢詞的基礎(chǔ)上增加、替換或者去掉其中的某一個(gè)字或者某個(gè)部分。例如,用戶輸入的查詢詞為“諾基亞手機(jī)”,那么對(duì)查詢詞進(jìn)行增詞擴(kuò)展則可以是“諾基亞N95手機(jī)”等等;進(jìn)行去詞擴(kuò)展則可以是“諾基亞”或者“手機(jī)”;進(jìn)行換詞擴(kuò)展則可以是“三星手機(jī)”或者“蘋果手機(jī)”等等。在索引端擴(kuò)展主要是在索引端對(duì)查詢詞進(jìn)行同義詞擴(kuò)展。一般通過常規(guī)的數(shù)據(jù)挖掘等方式獲取到同義詞集合,當(dāng)某個(gè)詞出現(xiàn)時(shí),則從同義詞集合中提取其他同義詞進(jìn)行擴(kuò)展。為了保證搜索結(jié)果與查詢詞的準(zhǔn)確性,在擴(kuò)展查詢時(shí)會(huì)采用查詢端和索 ...
【技術(shù)保護(hù)點(diǎn)】
一種擴(kuò)展查詢方法,其特征在于,包括以下步驟:獲取用戶輸入的查詢詞;根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞;將所述歸一化查詢詞作為所述查詢詞的擴(kuò)展詞進(jìn)行擴(kuò)展查詢;其中,所述查詢詞的歸一化查詢詞采用如下方式確定:獲取用戶搜索日志中的session信息;獲取單個(gè)session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計(jì)各查詢詞的投票數(shù),在所述單個(gè)session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個(gè)查詢詞之前的任何一個(gè)查詢詞到該查詢詞都記為一次投票;根據(jù)目標(biāo)查詢詞在所有session內(nèi)的總投票數(shù)以及單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票數(shù)確定單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度;根據(jù)所述投票相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度;根據(jù)所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度確定所述目標(biāo)查詢詞的歸一化查詢詞。
【技術(shù)特征摘要】
1.一種擴(kuò)展查詢方法,其特征在于,包括以下步驟: 獲取用戶輸入的查詢詞; 根據(jù)所述查詢詞確定所述查詢詞的歸一化查詢詞; 將所述歸一化查詢詞作為所述查詢詞的擴(kuò)展詞進(jìn)行擴(kuò)展查詢; 其中,所述查詢詞的歸一化查詢詞采用如下方式確定: 獲取用戶搜索日志中的session信息; 獲取單個(gè)session內(nèi)出現(xiàn)的所有查詢詞,統(tǒng)計(jì)各查詢詞的投票數(shù),在所述單個(gè)session內(nèi),按照各查詢詞出現(xiàn)的先后順序,某個(gè)查詢詞之前的任何一個(gè)查詢詞到該查詢詞都記為一次投票; 根據(jù)目標(biāo)查詢詞在所有session內(nèi)的總投票數(shù)以及單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票數(shù)確定單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度; 根據(jù)所述投票相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度; 根據(jù)所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度確定所述目標(biāo)查詢詞的歸一化查詢詞。2.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述目標(biāo)查詢詞在所有session內(nèi)的總投票數(shù)采用如下方式統(tǒng)計(jì): 獲取包含有目標(biāo)查詢詞的session ; 統(tǒng)計(jì)所述目標(biāo)查詢詞在每個(gè)session內(nèi)的投票數(shù); 將所述每個(gè)session內(nèi)的投票數(shù)累加得到所述目標(biāo)查詢詞的總投票數(shù)。3.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票數(shù)采用如下方式統(tǒng)計(jì): 獲取同時(shí)包含單個(gè)查詢詞和目標(biāo)查詢詞的session ; 判斷所述session內(nèi),該單個(gè)查詢詞對(duì)目標(biāo)查詢詞是否有投票,若是,則選取所述session ; 統(tǒng)計(jì)所有被選取session的數(shù)量,得到所述單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票數(shù)。4.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述確定單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度包括: 將所述單個(gè)產(chǎn)品對(duì)單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票數(shù)占目標(biāo)查詢詞的總投票數(shù)的比例作為所述單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度。5.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述確定單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度包括: 確定對(duì)目標(biāo)查詢詞的每個(gè)投票的權(quán)重和基數(shù); 根據(jù)所述權(quán)重和基數(shù)計(jì)算每個(gè)投票的得分; 將單個(gè)查詢詞對(duì)目標(biāo)查詢詞的投票 總得分占所有查詢詞對(duì)目標(biāo)查詢詞的投票總得分的比例作為單個(gè)查詢詞和目標(biāo)查詢詞的投票相似度。6.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述根據(jù)所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度確定所述目標(biāo)查詢詞的歸一化查詢詞包括: 設(shè)定歸一化查詢詞閾值,若單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度值超過所述歸一化產(chǎn)品閾值,則確定所述單個(gè)查詢詞為目標(biāo)查詢詞的歸一化查詢詞。7.如權(quán)利要求6所述的擴(kuò)展查詢方法,其特征在于,所述根據(jù)所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度確定所述目標(biāo)查詢詞的歸一化查詢詞包括: 將歸一化查詢詞類別分為同義歸一化查詢詞、相關(guān)歸一化查詢詞和擴(kuò)展歸一化查詢詞三個(gè)類別; 按照關(guān)聯(lián)度值由大到小設(shè)定所述三個(gè)類別各自的取值范圍; 將所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度所屬的取值范圍對(duì)應(yīng)的類別作為所述單個(gè)查詢詞和目標(biāo)查詢詞的細(xì)化類別。8.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,所述方法在根據(jù)所述投票相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度之前還包括: 獲取用戶搜索日志中搜索結(jié)果的點(diǎn)擊信息; 根據(jù)所述點(diǎn)擊信息中提取包含有目標(biāo)查詢詞的搜索結(jié)果; 根據(jù)所有包含有目標(biāo)查詢詞的搜索結(jié)果被點(diǎn)擊的總次數(shù)以及單個(gè)查詢詞所對(duì)應(yīng)的包含有目標(biāo)查詢詞的搜索結(jié)果被點(diǎn)擊的次數(shù)確定單個(gè)查詢詞和目標(biāo)查詢詞的點(diǎn)擊相似度; 所述確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和點(diǎn)擊相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度。9.如權(quán)利要求8所述的擴(kuò)展查詢方法,其特征在于,所述根據(jù)所述投票相似度和點(diǎn)擊相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度包括: 將投票相似度和點(diǎn)擊相似度中的較大值作為單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度;或 確定投票相似度和點(diǎn)擊相似度的權(quán)重;根據(jù)所述投票相似度和點(diǎn)擊相似度和各自的權(quán)重按照預(yù)定規(guī)則計(jì)算得到單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度。10.如權(quán)利要求1所述的擴(kuò)展查詢方法,其特征在于,在根據(jù)所述投票相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度之前還包括: 獲取服務(wù)器中存儲(chǔ)的賣家數(shù)據(jù),所述賣家數(shù)據(jù)為賣家對(duì)產(chǎn)品進(jìn)行描述時(shí)所確定的產(chǎn)品描述信息; 解析所述賣家數(shù)據(jù),提取其中的查詢詞以及查詢詞的特征詞; 根據(jù)單個(gè)查詢詞和目標(biāo)查詢詞的特征詞確定特征相似度; 所述根據(jù)所述投票相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度包括:根據(jù)所述投票相似度和特征相似度確定單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度。11.如權(quán)利要求10所述的擴(kuò)展查詢方法,其特征在于,所述根據(jù)單個(gè)查詢詞和目標(biāo)查詢詞的特征詞確定特征相似度包括: 計(jì)算每個(gè)特征詞的特征值,所述特征值根據(jù)特征詞及對(duì)應(yīng)的查詢詞的點(diǎn)互信息計(jì)算得到; 根據(jù)特征值計(jì)算單個(gè)查詢詞和目標(biāo)查詢詞的特征相似度。12.如權(quán)利要求1至11任一項(xiàng)所述的擴(kuò)展查詢方法,其特征在于,所述根據(jù)所述單個(gè)查詢詞和目標(biāo)查詢詞的關(guān)聯(lián)度確定所述目標(biāo)查詢詞的歸一化查詢詞之前還包括:確定單個(gè)查詢詞和目標(biāo)查詢詞的語義相似度和...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:朱力,董靜,黃云平,
申請(qǐng)(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。