本發(fā)明專(zhuān)利技術(shù)提供一種建立IP地址分類(lèi)模型的方法、對(duì)用戶(hù)分類(lèi)的方法及裝置,其中所述建立IP地址分類(lèi)模型的方法包括:A.獲取用戶(hù)搜索日志;B.統(tǒng)計(jì)搜索日志中每個(gè)IP地址下的cookie數(shù)量;C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢(xún)抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的IP地址分類(lèi)模型。通過(guò)使用上述模型,可以實(shí)現(xiàn)對(duì)搜索引擎用戶(hù)的有效分類(lèi),使搜索引擎系統(tǒng)能夠針對(duì)不同類(lèi)型的用戶(hù)采用不同的計(jì)算方式,節(jié)約系統(tǒng)資源。
【技術(shù)實(shí)現(xiàn)步驟摘要】
建立IP地址分類(lèi)模型的方法、對(duì)用戶(hù)分類(lèi)的方法及裝置
本專(zhuān)利技術(shù)涉及搜索引擎領(lǐng)域,特別涉及一種建立IP地址分類(lèi)模型的方法、對(duì)用戶(hù)分類(lèi)的方法及裝置。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的廣泛使用,搜索引擎越來(lái)越成為人們生活當(dāng)中不可或缺的工具,與普通的軟件應(yīng)用系統(tǒng)或其他的網(wǎng)絡(luò)應(yīng)用系統(tǒng)相比,搜索引擎系統(tǒng)有個(gè)重要的特點(diǎn),即它的用戶(hù)群體來(lái)源廣泛,通常用戶(hù)并不需要在系統(tǒng)中注冊(cè)并留下自己的個(gè)性化信息就可以使用搜索引擎,因此,對(duì)搜索引擎系統(tǒng)而言,對(duì)用戶(hù)進(jìn)行分類(lèi)就顯得比較困難,由于無(wú)法對(duì)用戶(hù)進(jìn)行有效地分類(lèi),也就限制了搜索引擎系統(tǒng)針對(duì)不同的用戶(hù)實(shí)現(xiàn)不同的結(jié)果呈現(xiàn)形式,或針對(duì)不同的用戶(hù)采用不同的計(jì)算方式以減少系統(tǒng)的開(kāi)銷(xiāo)。
技術(shù)實(shí)現(xiàn)思路
本專(zhuān)利技術(shù)所要解決的技術(shù)問(wèn)題是提供一種建立IP地址分類(lèi)模型的方法、對(duì)用戶(hù)分類(lèi)的方法及裝置,以解決現(xiàn)有技術(shù)中由于無(wú)法對(duì)搜索引擎用戶(hù)進(jìn)行有效分類(lèi)導(dǎo)致的搜索結(jié)果呈現(xiàn)方式單一或搜索引擎系統(tǒng)資源浪費(fèi)的缺陷。本專(zhuān)利技術(shù)為解決技術(shù)問(wèn)題而采用的技術(shù)方案是提供一種建立IP地址分類(lèi)模型的方法,包括A.獲取用戶(hù)搜索日志;B.統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢(xún)抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的IP地址分類(lèi)模型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,該方法還包括將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶(hù)類(lèi)別的IP地址。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述步驟C中,對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問(wèn)服務(wù)器次數(shù)與間接訪問(wèn)服務(wù)器次數(shù)的相對(duì)比例。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述步驟C中,對(duì)查詢(xún)抽取的特征是通過(guò)信息增益的方法得到的。本專(zhuān)利技術(shù)還提供了一種對(duì)用戶(hù)分類(lèi)的方法,包括a.獲取當(dāng)前用戶(hù)的IP地址;b.采用前文所述方法建立的IP地址分類(lèi)模型,得到與所述當(dāng)前用戶(hù)的IP地址一致的用戶(hù)類(lèi)型作為所述當(dāng)前用戶(hù)的用戶(hù)類(lèi)型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括c.當(dāng)所述當(dāng)前用戶(hù)的IP地址的類(lèi)型為家庭類(lèi)或小區(qū)類(lèi)時(shí),判斷所述當(dāng)前用戶(hù)的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶(hù)的細(xì)分用戶(hù)類(lèi)型為與所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型,否則執(zhí)行識(shí)別cookie的步驟;所述識(shí)別cookie的步驟包括d.根據(jù)查詢(xún)分類(lèi)模型對(duì)所述cookie下的每個(gè)會(huì)話(huà)所處周期內(nèi)的查詢(xún)進(jìn)行分類(lèi),以得到所述查詢(xún)對(duì)應(yīng)的用戶(hù)類(lèi)型作為每個(gè)會(huì)話(huà)對(duì)應(yīng)的用戶(hù)類(lèi)型,其中所述查詢(xún)分類(lèi)模型是包含查詢(xún)與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的分類(lèi)模型確定所述cookie下屬于每類(lèi)用戶(hù)的會(huì)話(huà)的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型識(shí)別為該比例的會(huì)話(huà)對(duì)應(yīng)的用戶(hù)類(lèi)型,且所述當(dāng)前用戶(hù)的細(xì)分用戶(hù)類(lèi)型為與所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述步驟c中,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型均被識(shí)別為同一用戶(hù)類(lèi)型時(shí),判斷所述cookie為已識(shí)別。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述查詢(xún)分類(lèi)模型是通過(guò)下列方式獲得的從注冊(cè)用戶(hù)搜索日志中挖掘所有線(xiàn)下查詢(xún);統(tǒng)計(jì)每個(gè)線(xiàn)下查詢(xún)被每類(lèi)用戶(hù)搜索的比例,并將所述比例作為每個(gè)線(xiàn)下查詢(xún)隸屬于每類(lèi)用戶(hù)的隸屬分值;將每個(gè)線(xiàn)下查詢(xún)進(jìn)行分詞處理得到分詞結(jié)果,并通過(guò)用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢(xún)與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的查詢(xún)分類(lèi)模型。本專(zhuān)利技術(shù)還提供了一種建立IP地址分類(lèi)模型的裝置,其特征在于,所述裝置包括接收單元,用于獲取用戶(hù)搜索日志;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;特征抽取單元,用于對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢(xún)抽取特征;訓(xùn)練單元,用于利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的分類(lèi)模型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述訓(xùn)練單元還用于將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶(hù)類(lèi)別的IP地址。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述特征抽取單元對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問(wèn)服務(wù)器次數(shù)與間接訪問(wèn)服務(wù)器次數(shù)的相對(duì)比例。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述特征抽取單元對(duì)查詢(xún)抽取的特征是通過(guò)信息增益的方法得到的。本專(zhuān)利技術(shù)還提供了一種對(duì)用戶(hù)分類(lèi)的裝置,其特征在于,所述裝置包括檢測(cè)單元,用于獲取當(dāng)前用戶(hù)的IP地址;分類(lèi)單元,用于采用前文所述裝置建立的IP地址分類(lèi)模型得到與所述當(dāng)前用戶(hù)的IP地址一致的用戶(hù)類(lèi)型作為所述當(dāng)前用戶(hù)的用戶(hù)類(lèi)型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括判斷單元,用于當(dāng)所述當(dāng)前用戶(hù)的IP地址的類(lèi)型為家庭類(lèi)或小區(qū)類(lèi)時(shí),判斷所述當(dāng)前用戶(hù)的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶(hù)的細(xì)分用戶(hù)類(lèi)型為與所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型,否則觸發(fā)cookie識(shí)別單元;所述cookie識(shí)別單元具體包括查詢(xún)分類(lèi)子單元,用于受到所述判斷單元的觸發(fā)后,根據(jù)查詢(xún)分類(lèi)模型對(duì)所述cookie下的每個(gè)會(huì)話(huà)所處周期內(nèi)的查詢(xún)進(jìn)行分類(lèi),以得到所述查詢(xún)對(duì)應(yīng)的用戶(hù)類(lèi)型作為每個(gè)會(huì)話(huà)對(duì)應(yīng)的用戶(hù)類(lèi)型,其中所述查詢(xún)分類(lèi)模型是包含查詢(xún)與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的分類(lèi)模型;識(shí)別子單元,用于確定所述cookie下屬于每類(lèi)用戶(hù)的會(huì)話(huà)的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型識(shí)別為該比例的會(huì)話(huà)對(duì)應(yīng)的用戶(hù)類(lèi)型,且所述當(dāng)前用戶(hù)的細(xì)分用戶(hù)類(lèi)型為與所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶(hù)類(lèi)型均被識(shí)別為同一用戶(hù)類(lèi)型時(shí),所述判斷單元判斷所述cookie為已識(shí)別。根據(jù)本專(zhuān)利技術(shù)之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括查詢(xún)分類(lèi)模型生成單元;所述查詢(xún)分類(lèi)模型生成單元具體包括挖掘子單元,用于從所述注冊(cè)用戶(hù)搜索日志中挖掘所有線(xiàn)下查詢(xún);統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)每個(gè)線(xiàn)下查詢(xún)被每類(lèi)用戶(hù)搜索的比例,并將所述比例作為每個(gè)線(xiàn)下查詢(xún)隸屬于每類(lèi)用戶(hù)的隸屬分值;訓(xùn)練子單元,用于將每個(gè)線(xiàn)下查詢(xún)進(jìn)行分詞處理得到分詞結(jié)果,并通過(guò)用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢(xún)與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的所述查詢(xún)分類(lèi)模型。由以上技術(shù)方案可以看出,通過(guò)對(duì)搜索引擎用戶(hù)的訪問(wèn)行為特征,即cookie特征和搜索引擎用戶(hù)訪問(wèn)時(shí)的語(yǔ)義特征,即查詢(xún)特征進(jìn)行分析,本專(zhuān)利技術(shù)可以實(shí)現(xiàn)對(duì)搜索引擎用戶(hù)的有效分類(lèi),從而使搜索引擎系統(tǒng)在面對(duì)不同用戶(hù)時(shí),能夠?qū)崿F(xiàn)有針對(duì)性的結(jié)果呈現(xiàn)方式,并可針對(duì)不同類(lèi)型的用戶(hù)采用不同的計(jì)算方式,節(jié)約系統(tǒng)資源。附圖說(shuō)明圖I為本專(zhuān)利技術(shù)實(shí)施例中建立IP地址分類(lèi)模型的方法的流程示意圖;圖2為本專(zhuān)利技術(shù)實(shí)施例中對(duì)用戶(hù)分類(lèi)的方法的流程示意圖;圖3為本專(zhuān)利技術(shù)實(shí)施例中建立查詢(xún)分類(lèi)模型的方法的流程示意圖;圖4為本專(zhuān)利技術(shù)實(shí)施例中訓(xùn)練和使用查詢(xún)分類(lèi)模型的示意圖;圖5為本專(zhuān)利技術(shù)實(shí)施例中建立IP地址分類(lèi)模型的裝置的結(jié)構(gòu)示意框圖;圖6為本專(zhuān)利技術(shù)實(shí)施例中對(duì)用戶(hù)分類(lèi)的裝置的結(jié)構(gòu)示意框圖。具體實(shí)施方式為了使本專(zhuān)利技術(shù)的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本專(zhuān)利技術(shù)進(jìn)行詳細(xì)描述。請(qǐng)參考圖1,圖I為本專(zhuān)利技術(shù)實(shí)施例中建立IP地址分類(lèi)模型的方本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種建立IP地址分類(lèi)模型的方法,其特征在于,所述方法包括:A.獲取用戶(hù)搜索日志;B.統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢(xún)抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶(hù)類(lèi)型之間對(duì)應(yīng)關(guān)系的IP地址分類(lèi)模型。
【技術(shù)特征摘要】
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:張旭,
申請(qǐng)(專(zhuān)利權(quán))人:北京百度網(wǎng)訊科技有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。