本發(fā)明專利技術(shù)涉及一種用戶數(shù)據(jù)的處理方法和裝置。該方法主要包括:根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息;計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。利用本發(fā)明專利技術(shù)實(shí)施例,可以有效地獲取用戶的綜合的沒有產(chǎn)品偏向性的興趣類別分布信息。
【技術(shù)實(shí)現(xiàn)步驟摘要】
用戶數(shù)據(jù)的處理方法和裝置
本專利技術(shù)涉及計(jì)算機(jī)應(yīng)用
,尤其涉及一種用戶數(shù)據(jù)的處理方法、以及一種實(shí)現(xiàn)該方法的裝置。
技術(shù)介紹
目前,獲取用戶的興趣數(shù)據(jù)的第一種方法為:基于用戶主動(dòng)輸入的信息獲取用戶的興趣數(shù)據(jù),比如,根據(jù)用戶在新浪微博或百度知道中主動(dòng)輸入的信息挖掘出用戶的興趣數(shù)據(jù)。上述現(xiàn)有技術(shù)中的獲取用戶的興趣數(shù)據(jù)的方法的缺點(diǎn)為:依賴于用戶的主動(dòng)輸入信息的行為,在用戶不主動(dòng)輸入信息時(shí),該方法無法獲取用戶的興趣數(shù)據(jù)。獲取用戶的興趣數(shù)據(jù)的第二種方法為:基于用戶在單一產(chǎn)品中的行為數(shù)據(jù)獲取用戶的興趣數(shù)據(jù)。例如Google搜索引擎中,通過記錄分析特定用戶在本應(yīng)用中使用行為,例如檢索的搜索詞、點(diǎn)擊的查詢結(jié)果來挖掘用戶的興趣數(shù)據(jù);在百度知道中通過分析用戶提出、回答問題的類別來挖掘用戶的興趣數(shù)據(jù)。上述現(xiàn)有技術(shù)中的獲取用戶的興趣數(shù)據(jù)的方法的缺點(diǎn)為:該方法只是分析用戶在單一產(chǎn)品中的行為數(shù)據(jù),會(huì)造成獲取的用戶興趣數(shù)據(jù)有產(chǎn)品偏向性。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的實(shí)施例提供了一種用戶數(shù)據(jù)的處理方法和裝置,以實(shí)現(xiàn)有效地獲取用戶的綜合的無偏向的興趣數(shù)據(jù)。一種用戶數(shù)據(jù)的處理方法,包括:根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息;計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。一種用戶數(shù)據(jù)的處理裝置,包括:有偏向興趣類別分布信息獲取模塊,用于根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息;無偏向興趣類別分布信息獲取模塊,用于計(jì)算出所述有偏向興趣類別分布信息獲取模塊所獲取的有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;興趣類別分布信息綜合模塊,用于將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。由上述本專利技術(shù)的實(shí)施例提供的技術(shù)方案可以看出,本專利技術(shù)實(shí)施例通過計(jì)算用戶在某種產(chǎn)品上的有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息,再將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,從而可以有效地獲取用戶的綜合的沒有產(chǎn)品偏向性的興趣類別分布信息。附圖說明圖1為本專利技術(shù)實(shí)施例一提供的一種用戶數(shù)據(jù)的處理方法的流程示意圖;圖2為本專利技術(shù)實(shí)施例二提供的一種用戶數(shù)據(jù)的處理方法的原理示意圖圖3為本專利技術(shù)實(shí)施例二提供的一種用戶數(shù)據(jù)的處理方法的流程示意圖;圖4為本專利技術(shù)實(shí)施例三提供的一種用戶數(shù)據(jù)的處理裝置的具體結(jié)構(gòu)圖;圖5為本專利技術(shù)實(shí)施例三提供的另一種用戶數(shù)據(jù)的處理裝置的具體結(jié)構(gòu)圖。具體實(shí)施方式為使本專利技術(shù)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖,以對(duì)本專利技術(shù)實(shí)施例進(jìn)行清楚、完整地描述人員。實(shí)施例一該實(shí)施例提供的一種用戶數(shù)據(jù)的處理方法的處理流程如圖1所示,具體包括以下步驟11~13。步驟11、根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息。預(yù)先設(shè)定包括多種興趣類別的興趣類別體系,獲取用戶在某種產(chǎn)品中的行為數(shù)據(jù),通過設(shè)定的映射方法得到所述行為數(shù)據(jù)所對(duì)應(yīng)的所述興趣類別體系中的多種興趣類別和每種興趣類別的權(quán)重值。根據(jù)所述多種興趣類別和每種興趣類別的權(quán)重值,構(gòu)造出所述用戶在所述產(chǎn)品中的有偏向的興趣類別分布信息。步驟12、計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息。根據(jù)某種產(chǎn)品上設(shè)定數(shù)量的用戶的行為數(shù)據(jù)對(duì)應(yīng)的有偏向的興趣類別分布信息,以及該產(chǎn)品包含的用戶興趣影響特性,確定該產(chǎn)品的用戶興趣背景分布信息。通過相對(duì)熵散度衡量方法計(jì)算出上述用戶在某種產(chǎn)品上的有偏向的興趣類別分布信息與上述某種產(chǎn)品的用戶興趣背景分布信息之間的差異值,將所述差異值作為所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息。分別計(jì)算出用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息。步驟13、將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。根據(jù)經(jīng)驗(yàn)值設(shè)定用戶在每種產(chǎn)品上的無偏向的興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù);或者,基于支持向量機(jī)方法學(xué)習(xí)得到用戶在每種產(chǎn)品上的無偏向的興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù);根據(jù)每種興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù),使用線性組合方式將用戶在每種產(chǎn)品上的興趣類別分布信息疊加在一起,得到所述用戶的綜合的興趣類別分布信息。實(shí)施例二該實(shí)施例提供的一種用戶數(shù)據(jù)的處理方法的原理示意圖如圖2所示,具體處理流程如圖3所示,具體包括以下步驟31~34。步驟31、計(jì)算出用戶在某種產(chǎn)品中的行為數(shù)據(jù)所對(duì)應(yīng)的多種興趣類別和每種興趣類別的權(quán)重值。該實(shí)施例采用傳統(tǒng)分類方法設(shè)定用戶行為數(shù)據(jù)的興趣類別體系,該興趣類別體系主要包括:體育、娛樂、財(cái)經(jīng)、科技、汽車、旅行、房產(chǎn)、女性、健康、游戲、教育、動(dòng)漫、圖書、星座、視頻和兒童共16個(gè)興趣類別。在獲取了用戶在某種產(chǎn)品中的行為數(shù)據(jù)后,根據(jù)上述設(shè)定的興趣類別體系,通過設(shè)定的映射方法得到上述行為數(shù)據(jù)所對(duì)應(yīng)的多種興趣類別和每種興趣類別的權(quán)重值。上述映射方法可以包括:tag(標(biāo)簽)集合映射方法或者貝葉斯分類器映射方法。比如,分別獲取了用戶Q在下列5種產(chǎn)品中的行為數(shù)據(jù):1、QQ印象分類興趣數(shù)據(jù);2、Qzone個(gè)人檔數(shù)據(jù);3、騰訊微博用戶填寫的興趣tag;4、SoSo查詢?nèi)罩緮?shù)據(jù);5、問問中參與的問題數(shù)據(jù)等。對(duì)于用戶Q在上述1、2或3種產(chǎn)品中的行為數(shù)據(jù),用戶Q和一個(gè)封閉tag集合對(duì)應(yīng),該tag集合中包括多種類別的tag。可以預(yù)先設(shè)定一個(gè)完整的tag集合中的每種類別的tag和上述興趣類別體系中的各個(gè)興趣類別的對(duì)應(yīng)關(guān)系,然后,根據(jù)用戶Q對(duì)應(yīng)的tag集合查詢上述對(duì)應(yīng)關(guān)系,得到用戶Q對(duì)應(yīng)的tag集合所對(duì)應(yīng)的各種興趣類別,將每種興趣類別的權(quán)重設(shè)為一個(gè)統(tǒng)一的數(shù)值。對(duì)于上述用戶Q在上述4或5種產(chǎn)品中的行為數(shù)據(jù),該行為數(shù)據(jù)通常為文本數(shù)據(jù),比如,用戶Q最近一段時(shí)間內(nèi)查詢的信息,提出或回答的問問中的問題內(nèi)容。可以將上述行為數(shù)據(jù)輸入到貝葉斯分類器中,該貝葉斯分類器經(jīng)過映射處理后,輸出上述行為數(shù)據(jù)對(duì)應(yīng)的各個(gè)興趣類別和每個(gè)興趣類別對(duì)應(yīng)的后驗(yàn)概率,該后驗(yàn)概率即為興趣類別的權(quán)重。上述貝葉斯分類器是基于貝葉斯公式:將具有特征F的用戶對(duì)于興趣類別C的后驗(yàn)概率計(jì)算轉(zhuǎn)化為類別C下各特征F的條件概率密度函數(shù)與類別C的先驗(yàn)概率的乘積,而后兩者都可以在有類別標(biāo)注的訓(xùn)練數(shù)據(jù)上利用最大似然估計(jì)獲得。步驟32、根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù)所對(duì)應(yīng)的多種興趣類別和每種興趣類別的權(quán)重值,構(gòu)造出用戶在某種產(chǎn)品中的有偏向的興趣類別分布信息。比如,如圖2所示,根據(jù)用戶Q在產(chǎn)品S中的行為數(shù)據(jù)構(gòu)造出用戶Q在產(chǎn)品S中的無偏向的興趣類別分布信息。進(jìn)一步地,對(duì)于用戶Q在上述1、2或3種產(chǎn)品中的行為數(shù)據(jù),根據(jù)上述用戶Q對(duì)應(yīng)的tag集合所對(duì)應(yīng)的各種興趣類別,以及每種興趣類別的權(quán)重,構(gòu)成出用本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種用戶數(shù)據(jù)的處理方法,其特征在于,包括:根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息;計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。
【技術(shù)特征摘要】
1.一種用戶數(shù)據(jù)的處理方法,其特征在于,包括:根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息;計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;其中,所述用戶興趣背景分布信息是指設(shè)定數(shù)量的用戶在所述產(chǎn)品中的行為數(shù)據(jù),所述產(chǎn)品的用戶興趣背景分布信息是通過計(jì)算設(shè)定數(shù)量用戶在該產(chǎn)品上的興趣類別分布信息的平均值而得到的;將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息。2.根據(jù)權(quán)利要求1所述的用戶數(shù)據(jù)的處理方法,其特征在于,所述的根據(jù)用戶在某種產(chǎn)品中的行為數(shù)據(jù),計(jì)算出所述用戶在所述產(chǎn)品上的有偏向的興趣類別分布信息,包括:預(yù)先設(shè)定包括多種興趣類別的興趣類別體系;獲取用戶在某種產(chǎn)品中的行為數(shù)據(jù),通過設(shè)定的映射方法得到所述行為數(shù)據(jù)所對(duì)應(yīng)的所述興趣類別體系中的多種興趣類別和每種興趣類別的權(quán)重值;根據(jù)所述多種興趣類別和每種興趣類別的權(quán)重值,構(gòu)造出所述用戶在所述產(chǎn)品中的有偏向的興趣類別分布信息。3.根據(jù)權(quán)利要求1所述的用戶數(shù)據(jù)的處理方法,其特征在于,所述的方法還包括:根據(jù)某種產(chǎn)品上設(shè)定數(shù)量的用戶的行為數(shù)據(jù)對(duì)應(yīng)的有偏向的興趣類別分布信息,確定該產(chǎn)品的用戶興趣背景分布信息,再根據(jù)該產(chǎn)品中包含的用戶興趣影響特性,對(duì)該產(chǎn)品的用戶興趣背景分布信息中相應(yīng)興趣類別的權(quán)重值進(jìn)行調(diào)整,而得到最終的該產(chǎn)品的用戶興趣背景分布信息。4.根據(jù)權(quán)利要求2所述的用戶數(shù)據(jù)的處理方法,其特征在于,所述的計(jì)算出所述有偏向的興趣類別分布信息與所述產(chǎn)品的用戶興趣背景分布信息之間的差異值,根據(jù)所述差異值得到所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息,包括:通過相對(duì)熵散度衡量方法計(jì)算出用戶在某種產(chǎn)品上的行為數(shù)據(jù)所對(duì)應(yīng)的有偏向的興趣類別分布信息與上述某種產(chǎn)品的用戶興趣背景分布信息之間的差異值,將所述差異值作為所述用戶在所述產(chǎn)品上的無偏向的興趣類別分布信息;分別計(jì)算出用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息。5.根據(jù)權(quán)利要求1或2或3或4所述的用戶數(shù)據(jù)的處理方法,其特征在于,所述的將所述用戶在多種產(chǎn)品上的無偏向的興趣類別分布信息進(jìn)行綜合,獲取所述用戶的綜合的興趣類別分布信息,包括:根據(jù)經(jīng)驗(yàn)值設(shè)定用戶在每種產(chǎn)品上的無偏向的興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù);或者,基于支持向量機(jī)方法學(xué)習(xí)得到用戶在每種產(chǎn)品上的無偏向的興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù);根據(jù)每種興趣類別分布信息對(duì)應(yīng)的線性組合參數(shù),使用線性組合方式將用戶在每種產(chǎn)品上的興趣類別分布信息疊加在一起,得到所述用戶的綜合的興趣類別分布信息。6.一種用戶數(shù)據(jù)的處理裝置,其特征在于,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:邸楠,劉玉璇,肖慧,賈自艷,
申請(qǐng)(專利權(quán))人:騰訊科技深圳有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。