The invention discloses a similarity calculation method and system based on text representation Chinese characters attribute vector, the method comprises the following steps: S1. vector Chinese characters based on attribute representation to construct text similarity calculation model; S2. short text annotated based on the set of parameters similar to construct to obtain the calculation model for training the model, obtained the mature text similarity calculation model; short text message S3. to calculate the similarity input mature text similarity calculation model, get the similarity between the short text, and the results and feedback to the user. The invention provides a representation based on the attribute vector Chinese characters text similarity calculation method and system can get accurate and effective short text analysis, is conducive to dig out valuable information from massive short text messages, convenient for users to use.
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)
本專利技術(shù)涉及中文文本挖掘
,尤其涉及一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)。
技術(shù)介紹
互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展使得社交媒體成為了人們傳遞信息的主要平臺(tái)。每天在社交媒體上都產(chǎn)生著難以計(jì)數(shù)的信息交互,其中文本是這種信息交互的主要載體,此外互聯(lián)網(wǎng)上產(chǎn)生的信息大多以短文本形式存在。文本相似度計(jì)算是中文文本挖掘領(lǐng)域中的關(guān)鍵問(wèn)題,其應(yīng)用場(chǎng)景非常廣泛;如在推薦系統(tǒng)中,基于內(nèi)容相似性的推薦;論文文獻(xiàn)查重以及文本聚類、分類等;在做文本相似度計(jì)算之前需要對(duì)文本進(jìn)行向量化表示,傳統(tǒng)的處理過(guò)程中常基于向量空間模型(VectorSpaceModel,VSM),然而此種表示方法不僅維度較高空間開(kāi)銷大而且無(wú)法表征語(yǔ)義信息;此外,也有基于奇異值分解來(lái)獲取詞的語(yǔ)義信息的方法,可是其計(jì)算復(fù)雜度偏高。而當(dāng)下對(duì)于短文本相似性的計(jì)算方法中:傳統(tǒng)的TF-IDF(詞頻-逆文檔頻率)及其他相關(guān)向量化文本的方法依賴于詞語(yǔ)的共現(xiàn),但語(yǔ)義相關(guān)與否并非與是否有共同的詞語(yǔ)一定相關(guān);基于主題模型(LatentDirichletAllocation,LDA)的方法,由于短文本的語(yǔ)義的稀疏性問(wèn)題,也不適用。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng),能夠得到準(zhǔn)確有效的短文本分析結(jié)果,有利于從海量短文本消息中挖掘出有價(jià)值的信息,方便于用戶使用。本專利技術(shù)的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于漢字屬性向量表示的文本相似性計(jì)算方法,包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建 ...
【技術(shù)保護(hù)點(diǎn)】
一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。
【技術(shù)特征摘要】
1.一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。2.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:S11.基于漢字屬性將短文本消息向量化;S12.提取向量化后短文本消息的特征語(yǔ)義向量;S13.依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。3.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S11包括以下子步驟:S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。4.根據(jù)權(quán)利要求3所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的字向量ci的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù),6-31位為漢字對(duì)應(yīng)的26個(gè)拼音,第32位為漢字拼音的聲調(diào)。5.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S12包括以下子步驟:S121.設(shè)置滑動(dòng)窗口d,將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量:第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成,記為L(zhǎng)i:S122.定義卷積矩陣為WL,用卷積矩陣WL和激活函數(shù)tanh作用于上下文拼接向量Li,獲得局部特征向量Fi:Fi=tanh(WL*Li);S123.將獲得的所有局部特征向量Fi每一個(gè)維度的最大值提取出來(lái)形成表征向量R;S124.定義語(yǔ)義矩陣為WS,將語(yǔ)義矩陣WS和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y:y=tanh(WS*R)。6.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S13包括:基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y1,y2)的相似性:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李平,朱婷婷,陳凱琪,胡棟,陳雁,朱鵬軍,彭欣宇,代臻,文敏,汪麗娟,
申請(qǐng)(專利權(quán))人:西南石油大學(xué),
類型:發(fā)明
國(guó)別省市:四川,51
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。