• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):15690851 閱讀:113 留言:0更新日期:2017-06-24 03:34
    本發(fā)明專利技術(shù)公開(kāi)了一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng),所述的方法包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。本發(fā)明專利技術(shù)提供一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng),能夠得到準(zhǔn)確有效的短文本分析結(jié)果,有利于從海量短文本消息中挖掘出有價(jià)值的信息,方便于用戶使用。

    Method and system for computing text similarity based on attribute vector representation of Chinese characters

    The invention discloses a similarity calculation method and system based on text representation Chinese characters attribute vector, the method comprises the following steps: S1. vector Chinese characters based on attribute representation to construct text similarity calculation model; S2. short text annotated based on the set of parameters similar to construct to obtain the calculation model for training the model, obtained the mature text similarity calculation model; short text message S3. to calculate the similarity input mature text similarity calculation model, get the similarity between the short text, and the results and feedback to the user. The invention provides a representation based on the attribute vector Chinese characters text similarity calculation method and system can get accurate and effective short text analysis, is conducive to dig out valuable information from massive short text messages, convenient for users to use.

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)
    本專利技術(shù)涉及中文文本挖掘
    ,尤其涉及一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)。
    技術(shù)介紹
    互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展使得社交媒體成為了人們傳遞信息的主要平臺(tái)。每天在社交媒體上都產(chǎn)生著難以計(jì)數(shù)的信息交互,其中文本是這種信息交互的主要載體,此外互聯(lián)網(wǎng)上產(chǎn)生的信息大多以短文本形式存在。文本相似度計(jì)算是中文文本挖掘領(lǐng)域中的關(guān)鍵問(wèn)題,其應(yīng)用場(chǎng)景非常廣泛;如在推薦系統(tǒng)中,基于內(nèi)容相似性的推薦;論文文獻(xiàn)查重以及文本聚類、分類等;在做文本相似度計(jì)算之前需要對(duì)文本進(jìn)行向量化表示,傳統(tǒng)的處理過(guò)程中常基于向量空間模型(VectorSpaceModel,VSM),然而此種表示方法不僅維度較高空間開(kāi)銷大而且無(wú)法表征語(yǔ)義信息;此外,也有基于奇異值分解來(lái)獲取詞的語(yǔ)義信息的方法,可是其計(jì)算復(fù)雜度偏高。而當(dāng)下對(duì)于短文本相似性的計(jì)算方法中:傳統(tǒng)的TF-IDF(詞頻-逆文檔頻率)及其他相關(guān)向量化文本的方法依賴于詞語(yǔ)的共現(xiàn),但語(yǔ)義相關(guān)與否并非與是否有共同的詞語(yǔ)一定相關(guān);基于主題模型(LatentDirichletAllocation,LDA)的方法,由于短文本的語(yǔ)義的稀疏性問(wèn)題,也不適用。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng),能夠得到準(zhǔn)確有效的短文本分析結(jié)果,有利于從海量短文本消息中挖掘出有價(jià)值的信息,方便于用戶使用。本專利技術(shù)的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種基于漢字屬性向量表示的文本相似性計(jì)算方法,包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:S11.基于漢字屬性將短文本消息向量化;S12.提取向量化后短文本消息的特征語(yǔ)義向量;S13.依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。所述的步驟S11包括以下子步驟:S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。所述的字向量ci的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù),6-31位為漢字對(duì)應(yīng)的26個(gè)拼音,第32位為漢字拼音的聲調(diào)。所述的步驟S12包括以下子步驟:S121.設(shè)置滑動(dòng)窗口d,將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量:第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成,記為L(zhǎng)i:S122.定義卷積矩陣為WL,用卷積矩陣WL和激活函數(shù)tanh作用于上下文拼接向量Li,獲得局部特征向量Fi:Fi=tanh(WL*Li);S123.將獲得的所有局部特征向量Fi每一個(gè)維度的最大值提取出來(lái)形成表征向量R;S124.定義語(yǔ)義矩陣為WS,將語(yǔ)義矩陣WS和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y:y=tanh(WS*R)。所述的步驟S13包括:基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y1,y2)的相似性:式中,y1表示文本對(duì)中第一個(gè)短文本消息的語(yǔ)義特征向量,y2表示文本對(duì)中第二個(gè)短文本消息的語(yǔ)義特征向量。所述的步驟S2包括以下子步驟:S21.獲取帶有相似性標(biāo)注的短文本集;S22.利用短文本相似性計(jì)算模型,將短文本集中的短文本消息表征為語(yǔ)義特征向量;S23.利用短文本相似性計(jì)算模型,計(jì)算短文本對(duì)之間的語(yǔ)義相似性;S24.根據(jù)短文本集中的標(biāo)注與計(jì)算得到的短文本對(duì)之間的語(yǔ)義相似性,構(gòu)建最小化誤差損失函數(shù)作為目標(biāo),并利用隨機(jī)梯度下降訓(xùn)練獲得相似性計(jì)算模型中的卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS,獲得成熟的相似性計(jì)算模型。所述步驟S3包括以下子步驟:S31.將至少兩個(gè)待計(jì)算的相似度的短文本消息輸入成熟的相似性計(jì)算模型中;所述成熟的相似性計(jì)算模型,即訓(xùn)練得到的已知卷積矩陣參數(shù)WL和語(yǔ)義矩陣參數(shù)WS的計(jì)算模型;S32.利用成熟的相似性計(jì)算模型,將各個(gè)輸入短文本消息表征為語(yǔ)義特征向量;S33.利用成熟的相似性計(jì)算模型,計(jì)算各個(gè)短文本消息兩兩之間的語(yǔ)義相似性;S34.將計(jì)算得到的結(jié)果反饋給用戶。所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法采用的系統(tǒng),包括服務(wù)端和客戶端;所述服務(wù)端,用于提供文本相似性計(jì)算服務(wù),包括:漢字屬性庫(kù),包括漢字筆畫(huà)庫(kù)和拼音庫(kù),用于存儲(chǔ)中文漢字的筆畫(huà)和拼音,為模型構(gòu)建提供依據(jù);模型構(gòu)建模塊,用于根據(jù)漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;模型訓(xùn)練模塊,用于根據(jù)帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;數(shù)據(jù)管理模塊,用于與客戶端通訊,將來(lái)自客戶端的短文本消息輸入成熟的計(jì)算模型中,得到相似性分析結(jié)果,并反饋給客戶端;存儲(chǔ)模塊,用于將帶標(biāo)注的短文本集、用戶輸入待分析的短文本消息以及相似性分析結(jié)果進(jìn)行存儲(chǔ);所述客戶端,用于為用戶提供輸入的接口便于用戶輸入待分析的短文本消息,同時(shí)將分析結(jié)果呈現(xiàn)給用戶。所述模型構(gòu)建模塊構(gòu)建的文本相似性計(jì)算模型包括:短文本消息向量化單元,用于根據(jù)短文本消息中的漢字屬性,將短文本消息向量化;所述的漢字屬性包括漢字的筆畫(huà)和拼音;語(yǔ)義特征提取單元,用于提取向量化后短文本消息的特征語(yǔ)義向量;相似性計(jì)算單元,用于依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。本專利技術(shù)的有益效果是:本專利技術(shù)基于漢字結(jié)構(gòu)屬性和拼音屬性構(gòu)建了中文字向量的表示方法,從而以更簡(jiǎn)單更低的空間消耗表征了短文本消息,并且實(shí)現(xiàn)了自動(dòng)提取短文本消息的語(yǔ)義特征的功能,從而有效、準(zhǔn)確地計(jì)算出短文本消息之間的語(yǔ)義相似性,進(jìn)而有利于從海量短文本消息中挖掘出有價(jià)值的信息,方便于用戶使用。附圖說(shuō)明圖1為本專利技術(shù)的方法流程圖;圖2為文本相似性計(jì)算模型的數(shù)據(jù)處理流程圖;圖3為文本相似性計(jì)算模型的訓(xùn)練流程圖;圖4為待分析的短文本消息相似性計(jì)算流程圖;圖5為本專利技術(shù)的系統(tǒng)原理框圖。具體實(shí)施方式下面結(jié)合附圖進(jìn)一步詳細(xì)描述本專利技術(shù)的技術(shù)方案,但本專利技術(shù)的保護(hù)范圍不局限于以下所述。如圖1所示,一種基于漢字屬性向量表示的文本相似性計(jì)算方法,包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。如圖2所示,步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:S11.基于漢字屬性將短文本消息向量化;具體地,所述的步驟S11包括以下子步驟:S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;S112.將構(gòu)本文檔來(lái)自技高網(wǎng)...
    一種基于漢字屬性向量表示的文本相似性計(jì)算方法及系統(tǒng)

    【技術(shù)保護(hù)點(diǎn)】
    一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。

    【技術(shù)特征摘要】
    1.一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:包括以下步驟:S1.基于漢字屬性的向量表示構(gòu)建文本相似性計(jì)算模型;S2.基于帶標(biāo)注的短文本集,對(duì)構(gòu)建的相似性計(jì)算模型進(jìn)行訓(xùn)練以獲取模型的參數(shù),得到成熟的文本相似性計(jì)算模型;S3.將待計(jì)算相似度的短文本消息輸入成熟的文本相似性計(jì)算模型中,得到短文本對(duì)之間的相似性,并結(jié)果并反饋給用戶。2.根據(jù)權(quán)利要求1所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:步驟S1中所述文本相似性計(jì)算模型的數(shù)據(jù)處理方式包括以下子步驟:S11.基于漢字屬性將短文本消息向量化;S12.提取向量化后短文本消息的特征語(yǔ)義向量;S13.依據(jù)短文本的語(yǔ)義特征向量,計(jì)算短文本消息的相似性。3.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S11包括以下子步驟:S111.對(duì)于短文本消息中的每個(gè)字,基于漢字筆畫(huà)庫(kù)和拼音庫(kù)構(gòu)建其字向量表示,獲得該短文本消息中的各個(gè)字向量ci,其中ci表示該短文本中第i個(gè)字的字向量;S112.將構(gòu)建的字向量按其在短文本中出現(xiàn)的順序進(jìn)行拼接獲得該短文本消息的向量表示。4.根據(jù)權(quán)利要求3所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的字向量ci的維度為32位,1-5位分別為該字中包含的橫、豎、撇、捺、折的個(gè)數(shù),6-31位為漢字對(duì)應(yīng)的26個(gè)拼音,第32位為漢字拼音的聲調(diào)。5.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S12包括以下子步驟:S121.設(shè)置滑動(dòng)窗口d,將滑動(dòng)窗口內(nèi)字的字向量按順序拼接形成上下文拼接向量:第i個(gè)滑動(dòng)窗口內(nèi)的字向量由第i-d,i-d+1,...i,i+1,i+2,...i+d個(gè)字的字向量拼接而成,記為L(zhǎng)i:S122.定義卷積矩陣為WL,用卷積矩陣WL和激活函數(shù)tanh作用于上下文拼接向量Li,獲得局部特征向量Fi:Fi=tanh(WL*Li);S123.將獲得的所有局部特征向量Fi每一個(gè)維度的最大值提取出來(lái)形成表征向量R;S124.定義語(yǔ)義矩陣為WS,將語(yǔ)義矩陣WS和激活函數(shù)tanh作用于表征向量R獲得最終的語(yǔ)義特征向量y:y=tanh(WS*R)。6.根據(jù)權(quán)利要求2所述的一種基于漢字屬性向量表示的文本相似性計(jì)算方法,其特征在于:所述的步驟S13包括:基于距離度量方法func計(jì)算兩個(gè)短文本消息構(gòu)成的文本對(duì)之間語(yǔ)義特征向量(y1,y2)的相似性:

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李平朱婷婷陳凱琪胡棟陳雁朱鵬軍彭欣宇代臻文敏汪麗娟
    申請(qǐng)(專利權(quán))人:西南石油大學(xué)
    類型:發(fā)明
    國(guó)別省市:四川,51

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲?V无码?V男人的天堂 | 国产嫖妓一区二区三区无码| 国产a级理论片无码老男人| 亚洲v国产v天堂a无码久久| 真人无码作爱免费视频| 免费无码AV电影在线观看| 亚洲欧洲日产国码无码久久99 | 亚洲一区二区三区无码中文字幕| 无码成人一区二区| 深夜a级毛片免费无码| 69ZXX少妇内射无码| 国产做无码视频在线观看浪潮| 亚洲精品av无码喷奶水糖心| 亚洲AV无码码潮喷在线观看| 无码毛片一区二区三区中文字幕| 精品无码一区二区三区爱欲九九 | 欧洲黑大粗无码免费| 亚洲AV无码成人专区片在线观看| 无码精品人妻一区二区三区AV| 亚洲av永久无码嘿嘿嘿| 亚洲精品无码专区在线在线播放| 特级无码毛片免费视频| 成人免费无遮挡无码黄漫视频| 亚洲国产成人精品无码一区二区| 亚洲VA中文字幕不卡无码| 久久无码一区二区三区少妇| 亚洲AV无码AV日韩AV网站| 久久久久久亚洲AV无码专区| 亚洲成AV人片在线观看无码| 一本加勒比HEZYO无码人妻| 久久av高潮av无码av喷吹| 国产啪亚洲国产精品无码| 国产免费午夜a无码v视频| 无码中文字幕色专区| 色综合久久久无码中文字幕 | 日韩精品久久无码人妻中文字幕| 国产精品视频一区二区三区无码 | 亚洲av无码国产精品色在线看不卡| 久久久国产精品无码一区二区三区 | 亚洲乱亚洲乱妇无码麻豆| 亚洲AV无码专区亚洲AV伊甸园|