The invention relates to a method of weighted recommendation of heterogeneous information network based on the films, including the following steps: (1) the use of heterogeneous information network of semantic information and edge attribute information, calculate the similarity between users of different element based on path; (2) the similarity of different size were obtained based on the element applied to the collaborative filtering recommendation the algorithm based on the user, each user based on the similarity score; (3) using supervised learning algorithm to assign different weights for each user score, score fusion final value to fully consider the various meta path information users. Experimental results on extended MovieLens data sets show that the proposed algorithm significantly improves the accuracy of the proposed algorithm over traditional algorithms.
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,尤其涉及一種加權(quán)異構(gòu)信息網(wǎng)絡(luò)中基于元路徑計算用戶間相似度的新的協(xié)同過濾推薦方法,屬于數(shù)據(jù)挖掘和機器學習的
技術(shù)介紹
協(xié)同過濾(CollaborativeFiltering)是推薦系統(tǒng)發(fā)展史上發(fā)展最快、應(yīng)用最廣的一類算法,其基本思想是相似的用戶對商品的選取也是相似的,根據(jù)與目標用戶最相似的K個鄰居對目標項目的評分來進行推薦。其中,鄰居用戶是基于用戶間的相似度得出的,最常用的相似度度量方式有Pearson相關(guān)系數(shù)和Cosine相似度。但是傳統(tǒng)的相似度度量方式只考慮了用戶評分這一個因素,評分矩陣是極其稀疏的,兩個用戶共同評價的項目非常少,在這種情況下得到的用戶相似性是不準確的,最終推薦精度自然不高。近年來,隨著數(shù)據(jù)庫技術(shù)、機器學習技術(shù)以及網(wǎng)絡(luò)科學的不斷進步,社交網(wǎng)絡(luò)朝異質(zhì)性方向發(fā)展:網(wǎng)絡(luò)中包含多種實體(Entity)、實體間存在多種關(guān)系(Relation),這種網(wǎng)絡(luò)被稱為異構(gòu)信息網(wǎng)絡(luò)(HeterogeneousInformationNetwork,HIN)。大數(shù)據(jù)時代的HIN包含豐富的語義信息,對其進行深度挖掘分析能夠得到非常有意義的知識,而HIN中包含的更多的有效信息會帶來更好地推薦效果,所以近年來在HIN上做推薦問題的研究開始興起。以圖1為例,HIN中不僅包含多種類型的實體(如:用戶、電影和導演類型等),還包含著多種多樣的邊信息(如:用戶對電影的評分、電影的各種屬性和邊的屬性信息等)。為了更好地利用異構(gòu)網(wǎng)絡(luò)中所蘊含的多樣性內(nèi)容,可以用元路徑(MetaPath)表示不同的關(guān)系,表示兩個實體之間語 ...
【技術(shù)保護點】
一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,其特征在于,包括以下步驟:(1)對數(shù)據(jù)集構(gòu)建加權(quán)異構(gòu)信息網(wǎng)絡(luò),并提取出兩用戶間多種不同的元路徑;(2)分別計算用戶在對電影M、演員A、導演D、國家C、電影體裁G、電影標簽T方面的偏好度;(3)分別針對用戶在每一方面的偏好度,計算兩用戶間的相似度,若兩用戶在所有方面的偏好都相似,則兩用戶相似;否則,兩用戶偏好相差越大則兩用戶越不相似;(4)分別將受偏好度影響的6個相似度應(yīng)用到協(xié)同過濾推薦算法中,預測用戶對電影的評分;(5)應(yīng)用經(jīng)典的線性回歸算法為每一個用戶對電影的評分分配合適的權(quán)重,融合為最終的評分值;(6)將最終的評分值最高的幾部電影推薦給該用戶。
【技術(shù)特征摘要】
1.一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,其特征在于,包括以下步驟:(1)對數(shù)據(jù)集構(gòu)建加權(quán)異構(gòu)信息網(wǎng)絡(luò),并提取出兩用戶間多種不同的元路徑;(2)分別計算用戶在對電影M、演員A、導演D、國家C、電影體裁G、電影標簽T方面的偏好度;(3)分別針對用戶在每一方面的偏好度,計算兩用戶間的相似度,若兩用戶在所有方面的偏好都相似,則兩用戶相似;否則,兩用戶偏好相差越大則兩用戶越不相似;(4)分別將受偏好度影響的6個相似度應(yīng)用到協(xié)同過濾推薦算法中,預測用戶對電影的評分;(5)應(yīng)用經(jīng)典的線性回歸算法為每一個用戶對電影的評分分配合適的權(quán)重,融合為最終的評分值;(6)將最終的評分值最高的幾部電影推薦給該用戶。2.根據(jù)權(quán)利要求1所述的一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,其特征在于,所述數(shù)據(jù)集是指grouplens研究組發(fā)布的MovieLens10M擴展數(shù)據(jù)集,所述數(shù)據(jù)集包括實體類型、表示及數(shù)目,實體類型包括用戶、電影、演員、導演、國家、體裁、標簽;表示是指對每種實體類型的表示字符,字符U表示用戶類型,字符M表示電影類型,字符A表示演員類型,字符D表示導演類型,字符C表示國家類型,字符G表示體裁類型,字符T表示標簽類型;數(shù)目是指每種實體類型的個數(shù);所述元路徑包括P1、P2、P3、P4、P5、P6,P1=UMU,P2=UMAMU,P3=UMCMU,P4=UMDMU,P5=UMGMU,P6=UMTMU;P1的語義信息是指:與目標用戶看過同一部電影的用戶;P2的語義信息是指:與目標用戶看過同一個演員演過的電影的用戶;P3的語義信息是指:與目標用戶看過在同一個國家上映的電影的用戶;P4的語義信息是指:與目標用戶看過由同一個導演執(zhí)導的電影的用戶;P5的語義信息是指:與目標用戶看過屬于同一個體裁的電影的用戶;P6的語義信息是指:與目標用戶看過被貼上同一個類型標簽T的電影的用戶。3.根據(jù)權(quán)利要求2所述的一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,其特征在于,所述步驟(2),用戶ui對影響因素y的偏好度的求取公式如式(Ⅰ)所示:式(Ⅰ)中,ui表示用戶,ui屬于用戶類型U;P為用戶ui到影響因素y的元路徑;為從ui到y(tǒng)的一個加權(quán)路徑實例,w為該加權(quán)路徑上的權(quán)重值;為ui到y(tǒng)的一個加權(quán)路徑實例上的權(quán)重值;t(ui,y)為ui到y(tǒng)的所有加權(quán)路徑實例上的權(quán)重值之和,即要求取的用戶ui對影響因素y的偏好度;影響因素y包括電影、演員、導演、國家、體裁、標簽;y屬于影響因素y。4.根據(jù)權(quán)利要求3所述的一種基于加權(quán)異構(gòu)信息網(wǎng)絡(luò)的電影推薦方法,其特征在于,通過擴展交換矩陣快速計算用戶在每一方面的偏好度,包括步驟如下:A、設(shè)定...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張海霞,呂振,
申請(專利權(quán))人:山東大學,
類型:發(fā)明
國別省市:山東;37
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。