【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于互聯(lián)網(wǎng)通信
,具體涉及一種建立微博用戶興趣推理模型的方法及裝置。
技術(shù)介紹
在微博普及的同時(shí),基于微博的各種應(yīng)用也應(yīng)允而生,其中,針對博主的個(gè)性化推薦技術(shù)獲得了很多的關(guān)注,其中關(guān)于微博的個(gè)性化推薦的學(xué)術(shù)研究也開始出現(xiàn),例如基于地理位置信息的好友推薦、基于相同Tag信息的好友推薦、基于共同關(guān)注的好友推薦、基于話題熱度的微博話題推薦等,然而這些個(gè)性化推薦技術(shù)通常只考慮了博主的某部分相對片面的信息,卻忽略了一個(gè)重要的目的,推薦的賬號或話題是否能被博主接受,是其想要的、真正感興趣的。傳統(tǒng)的基于協(xié)同過濾的個(gè)性化推薦算法,根據(jù)博主之間的近似程度來選擇推薦物品,這種方式雖然能夠較好地完成各種推薦,然而這種忽略個(gè)體間差異性尋求共性的推薦方法,只能覆蓋部分博主或博主的部分興趣,不能完整的刻畫博主的興趣,如一些商業(yè)化的應(yīng)用案例中,推薦系統(tǒng)只能向同類的賬戶推送相同的產(chǎn)品。這種只需考慮博主對商品的潛在購買欲或?qū)σ徊侩娪捌谕^看指數(shù)的推薦算法,并不適合所有的系統(tǒng),在微博中尤為如此。微博中信息繁雜,博主的興趣愛好廣泛,博主的相似性計(jì)算起來很復(fù)雜,且相似性如何衡量也是一個(gè)待探究問題。如能將博主興趣點(diǎn)概括成一個(gè)興趣模型,通過衡量模型間的相似程度來尋找有相同愛好的博主,并用于微博的個(gè)性化服務(wù)中,預(yù)計(jì)將是一個(gè)有效的思路。而其中的一個(gè)核心問題是如何對博主的興趣進(jìn)行建模,建模后的模型精確度對今后的推薦有很大影 ...
【技術(shù)保護(hù)點(diǎn)】
一種建立微博用戶興趣推理模型的方法,其特征在于:所述方法包括(1)用戶個(gè)人標(biāo)簽的獲取與計(jì)算,(2)用戶微博內(nèi)容的興趣關(guān)鍵詞提取,(3)提取基于社會化網(wǎng)絡(luò)的興趣標(biāo)簽,最后對上述三個(gè)方面的興趣特征進(jìn)行融合,建立用戶的興趣模型:M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的標(biāo)簽通過計(jì)算得到的博主興趣點(diǎn)模型,Mcontent是博主微博的內(nèi)容提取出來的興趣關(guān)鍵詞,Mrelation是基于博主的關(guān)注列表提取的博主興趣點(diǎn)模型;Mtags的模型計(jì)算主要是提取當(dāng)前博主的Tags標(biāo)簽,并利用標(biāo)簽自帶的權(quán)重值進(jìn)行歸一化處理;Mcontent的提取關(guān)鍵詞的計(jì)算包括:微博文本的預(yù)處理,分詞、同義詞計(jì)算進(jìn)行話題分類,微博內(nèi)容擴(kuò)充,關(guān)鍵詞提取以及權(quán)重計(jì)算;Mrelation采用標(biāo)簽傳播算法計(jì)算,所述標(biāo)簽傳播算法是利用已標(biāo)注好的節(jié)點(diǎn)標(biāo)簽信息去評測尚未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。
【技術(shù)特征摘要】
1.一種建立微博用戶興趣推理模型的方法,其特征在于:所述方法包括(1)
用戶個(gè)人標(biāo)簽的獲取與計(jì)算,(2)用戶微博內(nèi)容的興趣關(guān)鍵詞提取,(3)
提取基于社會化網(wǎng)絡(luò)的興趣標(biāo)簽,最后對上述三個(gè)方面的興趣特征進(jìn)行
融合,建立用戶的興趣模型:
M=αMtags+βMcontent+γMrelation其中0≤α,β,γ≤1,且α+β+γ=1,Mtags是博主的標(biāo)簽通過計(jì)算得到的
博主興趣點(diǎn)模型,Mcontent是博主微博的內(nèi)容提取出來的興趣關(guān)鍵詞,
Mrelation是基于博主的關(guān)注列表提取的博主興趣點(diǎn)模型;Mtags的模型計(jì)
算主要是提取當(dāng)前博主的Tags標(biāo)簽,并利用標(biāo)簽自帶的權(quán)重值進(jìn)行歸
一化處理;Mcontent的提取關(guān)鍵詞的計(jì)算包括:微博文本的預(yù)處理,分
詞、同義詞計(jì)算進(jìn)行話題分類,微博內(nèi)容擴(kuò)充,關(guān)鍵詞提取以及權(quán)重計(jì)
算;Mrelation采用標(biāo)簽傳播算法計(jì)算,所述標(biāo)簽傳播算法是利用已標(biāo)注
好的節(jié)點(diǎn)標(biāo)簽信息去評測尚未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述微博內(nèi)容擴(kuò)充分為兩種
方式:一是對該用戶的微博進(jìn)行分類聚類處理,從微博平臺收集具有相
同話題或相似話題的微博歸為博主的微博數(shù)據(jù)文本數(shù)據(jù)集中;二是利用
WBUserRank算法尋找與當(dāng)前博主關(guān)系最為密切的那些博主的部分微博
混合集作為當(dāng)前博主的微博文本集。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于:對融合后的主題模型的關(guān)鍵
詞提取,采用計(jì)算主題內(nèi)關(guān)鍵詞的相似性的方法,選取權(quán)重較大的有代
表性的詞作為關(guān)鍵詞。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于:博主A經(jīng)過標(biāo)簽傳播算法
可以表示成:
M A = Σ i = 1 n M A i × W B U R ( ...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王岢,徐曉飛,葉允明,李小宜,劉廣建,
申請(專利權(quán))人:哈爾濱工業(yè)大學(xué)深圳研究生院,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。