本發(fā)明專利技術(shù)公開了一種基于標(biāo)簽推薦文檔的方法及文檔推薦裝置。該方法包括:接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對(duì)應(yīng)的同義詞組;根據(jù)獲取的同義詞組,從預(yù)先存儲(chǔ)的文檔庫(kù)中,查詢并獲取包含所述同義詞組的文檔列表;計(jì)算包含所述同義詞組的文檔列表中每一文檔的特征值,構(gòu)建基于文檔標(biāo)簽的空間權(quán)重向量;根據(jù)構(gòu)建的基于文檔標(biāo)簽的空間權(quán)重向量,計(jì)算文檔標(biāo)簽對(duì)應(yīng)的文檔與文檔列表中每一篇文檔的相似度,并選取預(yù)定數(shù)目的相似度最高的文檔作為查詢結(jié)果輸出。應(yīng)用本發(fā)明專利技術(shù),可以提升文檔推薦效率。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及搜索技木,尤其涉及ー種基于標(biāo)簽(tag)推薦文檔的方法及文檔推薦
技術(shù)介紹
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)文檔,例如,博文以及微博文的數(shù)量迅速膨脹,如何有效管理網(wǎng)絡(luò)文檔的海量數(shù)據(jù)資源,以及,從海量數(shù)據(jù)資源的文檔中,向用戶有效推薦文檔,受到越來越多的關(guān)注。其中,文檔分類技術(shù)作為管理海量數(shù)據(jù)以及推薦文檔的關(guān)鍵技術(shù),得到了巨大的發(fā)展,質(zhì)量高的文檔分類,可以為管理和推薦文檔提供較好的支持?,F(xiàn)有技術(shù)中,文檔分類主要基于特征值權(quán)重技術(shù),特征值權(quán)重的計(jì)算考慮兩個(gè)權(quán)重因子詞頻(TF, Term Frequency)以及逆文檔詞頻(IDF, Inverse Document Frequency)。其中,TF表示ー個(gè)詞(標(biāo)簽)在文檔中出現(xiàn)的次數(shù)的權(quán)重,如果ー個(gè)詞在文檔中出現(xiàn)的次數(shù)越高,該詞就越能表征該文檔的主題,同時(shí),考慮文檔的長(zhǎng)度,因?yàn)槲臋n越長(zhǎng),詞在文檔中出現(xiàn)的頻率越高。TF的權(quán)重計(jì)算公式為TF =十式中,TF為詞頻權(quán)重;Pw為詞w出現(xiàn)在文檔中的次數(shù);P為文檔長(zhǎng)度。IDF是表示文檔集體范圍的ー種全局因子,IDF的權(quán)重計(jì)算公式為//)/' = log — W式中,IDF為逆文檔詞頻權(quán)重;Dw為樣本(文檔庫(kù))中含有詞w的個(gè)體(文檔)總數(shù);D為樣本總數(shù),即總文檔數(shù)。如果IDF值越小,表示樣本中越多的文檔包含有該詞,該詞包含的信息量越少;如果IDF值越大,表示樣本中只有越少的文檔包含有該詞,該詞包含的信息量越大。結(jié)合詞頻及逆文檔詞頻,可以形成詞頻-逆文檔詞頻(TF-IDF, TermFrequency-Inverse Document Frequency), TF-IDF 是一種用于信息搜索、推薦的常用加權(quán)技術(shù),常應(yīng)用于搜尋引擎,作為文檔與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí),基于統(tǒng)計(jì)方法,用以評(píng)估詞對(duì)ー個(gè)文件集或一個(gè)語料庫(kù)中的其中一份文檔的重要程度,井向用戶推薦查詢結(jié)果。其中,詞的重要性隨著該詞在文檔中出現(xiàn)的次數(shù)成正比増加,同時(shí)隨著在樣本庫(kù)中出現(xiàn)的頻率成反比下降。也就是說,如果詞在一篇文檔中出現(xiàn)的TF高,且在其他文檔中很少出現(xiàn),則認(rèn)為該詞具有較好的類別區(qū)分能力,適用于分類。TF-IDF權(quán)重可以采用TF與IDF進(jìn)行表示,其計(jì)算公式如下Weighty ニ TFxUW = log—式中,Weightw為詞 w 的 TF-IDF 權(quán)重。如果TF-IDF權(quán)重值越大,表示該詞的指示性越好。這樣,用戶在瀏覽某一文檔時(shí),如果需要獲取與該文檔相 關(guān)的文檔信息以作進(jìn)一步的了解,由于文檔一般包含有標(biāo)簽,可以根據(jù)用戶選取的當(dāng)前瀏覽文檔的標(biāo)簽(推薦詞或推薦詞組),獲取文檔庫(kù)中包含有該推薦詞或推薦詞組的文檔,井分別計(jì)算各文檔包含的用戶輸入標(biāo)簽在文檔庫(kù)中的TF-IDF權(quán)重值,并對(duì)獲取的TF-IDF權(quán)重值進(jìn)行排序,選取排序前N位的TF-IDF權(quán)重值對(duì)應(yīng)的文檔作為推薦文檔,向用戶展示,從而使用戶根據(jù)展示的推薦文檔進(jìn)行推薦或作進(jìn)ー步瀏覽。由上述可見,現(xiàn)有基于推薦詞(標(biāo)簽)推薦文檔的方法,根據(jù)當(dāng)前瀏覽文檔的標(biāo)簽,獲取文檔庫(kù)中包含有該標(biāo)簽的文檔,并分別計(jì)算各文檔在文檔庫(kù)中的TF-IDF權(quán)重值,根據(jù)TF-IDF權(quán)重值進(jìn)行文檔推薦,由于僅僅針對(duì)推薦詞進(jìn)行相關(guān)文檔TF-IDF權(quán)重值計(jì)算,沒有對(duì)推薦詞進(jìn)行同義詞、同類詞的語義分析擴(kuò)展,使得輸出的查詢結(jié)果信息量(推薦文檔)較少,不能滿足用戶的同義查詢需求,查詢效率較低。例如,如果用戶輸入包含三個(gè)查詢字符串(推薦詞組)的標(biāo)簽“恭喜久仰過獎(jiǎng)”,通過搜索引擎的搜索查詢,進(jìn)行相關(guān)TF-IDF權(quán)重值計(jì)算后,只向用戶輸出包含有三個(gè)推薦詞的相關(guān)文檔。這樣,可能導(dǎo)致搜索引擎的文檔庫(kù)中沒有與推薦詞組“恭喜久仰過獎(jiǎng)”相匹配的文檔,從而使得推薦失敗,推薦效率低,而沒有考慮對(duì)推薦詞進(jìn)行同義擴(kuò)展,例如,分別將推薦詞“恭喜”進(jìn)行同義擴(kuò)展,得到同義推薦詞組“恭喜恭賀賀喜”;將推薦詞“久仰”進(jìn)行同義擴(kuò)展,得到同義推薦詞詞組“久仰久仰大名久慕盛名”;將推薦詞“過獎(jiǎng)”進(jìn)行同義擴(kuò)展,得到同義推薦詞詞組“過獎(jiǎng)過譽(yù)”,再以擴(kuò)展的同義詞組作為ー個(gè)空間權(quán)重向量的坐標(biāo),進(jìn)行搜索查詢,從而獲取與通過查詢字符串查詢得到的文檔相關(guān)(相近似)的文檔作為推薦文檔,以擴(kuò)展查詢結(jié)果的信息量,滿足用戶對(duì)同義詞的查詢需求。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的實(shí)施例提供一種基于標(biāo)簽推薦文檔的方法,提升文檔推薦效率。本專利技術(shù)的實(shí)施例還提供一種基于標(biāo)簽推薦文檔的文檔推薦裝置,提升文檔推薦效率。為達(dá)到上述目的,本專利技術(shù)實(shí)施例提供的一種基于標(biāo)簽推薦文檔的方法,包括接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對(duì)應(yīng)的同義詞組;根據(jù)獲取的同義詞組,從預(yù)先存儲(chǔ)的文檔庫(kù)中,查詢并獲取包含所述同義詞組的文檔列表;計(jì)算包含所述同義詞組的文檔列表中每一文檔的特征值,構(gòu)建基于文檔標(biāo)簽的空間權(quán)重向量;根據(jù)構(gòu)建的基于文檔標(biāo)簽的空間權(quán)重向量,計(jì)算文檔標(biāo)簽對(duì)應(yīng)的文檔與文檔列表中每ー篇文檔的相似度,并選取預(yù)定數(shù)目的相似度最高的文檔作為查詢結(jié)果輸出。其中,所述文檔包括文檔標(biāo)識(shí)、文檔標(biāo)簽、文檔更新時(shí)間以及文檔內(nèi)容。其中,所述查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對(duì)應(yīng)的同義詞組包括查詢預(yù)先設(shè)置的同義詞詞林 ,分別獲取與文檔標(biāo)簽中各標(biāo)簽對(duì)應(yīng)的同義詞子組;基于文檔標(biāo)簽格式,將各標(biāo)簽對(duì)應(yīng)的同義詞子組組合為同義詞組。其中,所述從預(yù)先存儲(chǔ)的文檔庫(kù)中,查詢并獲取包含所述同義詞組的文檔列表包括基于文檔標(biāo)簽,對(duì)獲取的同義詞組進(jìn)行組合,得到組合的同義詞組;根據(jù)組合的同義詞組,查詢倒排索引集合,獲取所述組合的同義詞組對(duì)應(yīng)的正排索引集合標(biāo)識(shí);根據(jù)獲取的正排索引集合標(biāo)識(shí),查詢正排索引集合,獲取正排索引集合標(biāo)識(shí)映射的文檔,形成文檔列表。其中,所述計(jì)算包含所述同義詞組的文檔列表中每一文檔的特征值包括查詢預(yù)先設(shè)置的標(biāo)簽計(jì)數(shù)器,遍歷文檔列表,獲取文檔列表中每一文檔基于文檔標(biāo)簽的計(jì)數(shù)值;結(jié)合文檔庫(kù)中文檔總數(shù)以及基于文檔標(biāo)簽的計(jì)數(shù)值,分別得到文檔列表中各文檔對(duì)應(yīng)的特征值。其中,在所述查詢預(yù)先存儲(chǔ)的標(biāo)簽計(jì)數(shù)器的步驟之前,所述方法進(jìn)ー步包括接收發(fā)布的攜帯博文標(biāo)識(shí)的博文,獲取該博文中的博文標(biāo)簽;查詢文檔庫(kù)中,獲取所述博文標(biāo)識(shí)對(duì)應(yīng)的博文標(biāo)簽數(shù)組;根據(jù)獲取的博文標(biāo)簽以及博文標(biāo)簽數(shù)組,更新博文標(biāo)簽數(shù)組中的計(jì)數(shù)值。其中,所述根據(jù)獲取的博文標(biāo)簽以及博文標(biāo)簽數(shù)組,更新博文標(biāo)簽數(shù)組中的計(jì)數(shù)值包括將所述博文標(biāo)簽與所述博文標(biāo)簽數(shù)組互為差集,將博文標(biāo)簽差博文標(biāo)簽數(shù)組的集合寫入輸入標(biāo)簽數(shù)組,博文標(biāo)簽數(shù)組差博文標(biāo)簽的集合寫入輸出標(biāo)簽數(shù)組;根據(jù)輸入標(biāo)簽數(shù)組中的標(biāo)簽,對(duì)標(biāo)簽計(jì)數(shù)器中相應(yīng)標(biāo)簽對(duì)應(yīng)的計(jì)數(shù)值執(zhí)行加I操作;根據(jù)輸出標(biāo)簽數(shù)組中的標(biāo)簽,對(duì)標(biāo)簽計(jì)數(shù)器中相應(yīng)標(biāo)簽對(duì)應(yīng)的計(jì)數(shù)值執(zhí)行減I操作;對(duì)輸入標(biāo)簽數(shù)組中的數(shù)據(jù),增加索引倒排數(shù)據(jù)內(nèi)容,對(duì)輸出標(biāo)簽數(shù)組中的數(shù)據(jù),刪除對(duì)應(yīng)的索引倒排數(shù)據(jù)內(nèi)容。其中,計(jì)算所述相似度采用夾角余弦定理公式。一種基于標(biāo)簽推薦文檔的文檔推薦裝置,該裝置包括同義詞組獲取模塊、文檔獲取模塊、空間權(quán)重向量構(gòu)建模塊以及文檔推薦模塊,其中,同義詞組獲取模塊,用于接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對(duì)應(yīng)的同義詞組;文檔獲取模塊,用于根據(jù)獲取的同義詞組,從預(yù)先存儲(chǔ)的文檔庫(kù)中,查詢并獲取包含所述同義詞組的文檔列表;空間權(quán)重向量構(gòu)建模塊,用于計(jì)算本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于標(biāo)簽推薦文檔的方法,包括:接收用戶選取的文檔標(biāo)簽,查詢預(yù)先設(shè)置的同義詞詞林,獲取與文檔標(biāo)簽相對(duì)應(yīng)的同義詞組;根據(jù)獲取的同義詞組,從預(yù)先存儲(chǔ)的文檔庫(kù)中,查詢并獲取包含所述同義詞組的文檔列表;計(jì)算包含所述同義詞組的文檔列表中每一文檔的特征值,構(gòu)建基于文檔標(biāo)簽的空間權(quán)重向量;根據(jù)構(gòu)建的基于文檔標(biāo)簽的空間權(quán)重向量,計(jì)算文檔標(biāo)簽對(duì)應(yīng)的文檔與文檔列表中每一篇文檔的相似度,并選取預(yù)定數(shù)目的相似度最高的文檔作為查詢結(jié)果輸出。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉曉震,
申請(qǐng)(專利權(quán))人:新浪技術(shù)中國(guó)有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。