• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>清華大學專利>正文

    基于卷積神經網絡的中文微博文本情緒分類方法及其系統技術方案

    技術編號:15691003 閱讀:411 留言:0更新日期:2017-06-24 03:51
    本發明專利技術公開了一種基于卷積神經網絡的中文微博文本情緒分類方法及其系統,該方法包括:獲取微博數據;對微博數據進行預處理;對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;將特征圖堆積后進行池化;使用Softmax回歸模型對池化后的特征圖進行情緒分類。本發明專利技術具有如下優點:采用卷積神經網絡算法來進行特征提取和降維,采用有監督的方法對模型進行調整,利用上述算法來抽取詞與詞、語句與語句之間關系中來實現無監督觀點挖掘,按照事件結果、主體行為和實體對象劃分形成情感分類體系對微博文本進行情感分類,提升了分類的效率和正確率。

    Chinese micro-blog text sentiment classification method and system based on convolutional neural network

    The invention discloses a classification method Chinese micro-blog text emotion based on convolutional neural network and a system thereof, the method includes: acquiring micro-blog micro-blog data; data preprocessing; data preprocessing of micro-blog after the use of Word2vec model for real value to the word representation; combination of different sizes of the filter corresponding to the size on the propagation characteristics of two-dimensional map generation, feature maps; accumulation of pool; using Softmax regression model for sentiment classification of feature map of the pool. The invention has the following advantages: the algorithm of convolutional neural network for feature extraction and dimensionality reduction using supervised method to adjust the model to relation between word and word, sentence and sentence to realize unsupervised opinion mining using the above algorithm, according to the classification results, the main event of behavior and physical objects form emotion classification the system of sentiment classification for micro-blog text, improve the classification efficiency and accuracy.

    【技術實現步驟摘要】
    基于卷積神經網絡的中文微博文本情緒分類方法及其系統
    本專利技術涉及計算機應用機器學習領域,具體涉及一種基于卷積神經網絡的中文微博文本情緒分類方法及其系統。
    技術介紹
    微博信息,尤其是某些熱門話題的評論信息,對業界和科研人員來說都是極其寶貴的參考材料,在觀點挖掘、未來預測等方面都有著極大的參考價值。觀點挖掘,也稱為情緒分析,是對于人們關于某一實體的特征、組件、屬性等所產生的觀點、態度和情緒進行挖掘和分析的一種技術,是自然語言處理學科中重要的一個領域,得到了學術界和業界的重視。結合產品評論,觀點挖掘能十分有效地反應用戶的對于某具體事物的具體觀點,具有實時性、話題敏感性和多變性的特點。自然語言處理的重要組成部分,也是機器學習中的一個重要研究領域。同時,由于微博數據的多變性和數據規模的龐大,基于在線數據的觀點挖掘一直是研究的熱點和難點。特征抽取是觀點挖掘中的重要環節,提取結果的好壞將直接影響觀點挖掘的結果好壞。大多數模型往往對產品評論利用監督學習或半監督學習來進行特征提取,這需要大量的人力。
    技術實現思路
    本專利技術旨在至少解決上述技術問題之一。為此,本專利技術的一個目的在于提出一種基于卷積神經網絡的中文微博文本情緒分類方法,提升了微博文本分類的效率和正確率。為了實現上述目的,本專利技術的實施例公開了一種基于卷積神經網絡的中文微博文本情緒分類方法,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;S5:將所述特征圖堆積后進行池化,以實現特征降維;S6:使用Softmax回歸模型對池化后的特征圖進行情緒分類。進一步地,所述預處理包括:刪除網頁鏈接、位置信息和重復的子句;將網絡流行語及網絡縮寫在遍歷用語詞典獲取對應的文字信息,在遍歷用語詞典后找不著對應含義的網絡流行語及網絡縮寫進行人工標注;將表情符號用對應的文字代替。進一步地,在步驟S4中,通過以下公式生成所述特征圖:mi=W*xi,i+h-1+b,b∈RMi=[m1,m2,...,mi-h+1]Ni=ReLU(Mi)=max(0,Mi)其中,x為輸入到卷積層的語句的向量表示,b是偏置項,mi為一個濾波器輸出函數,Mi為原始特征,濾波器W∈Rhk,R表示向量空間,h表示窗口大小,k表示維度為k維,Relu為非線性函數。進一步地,在步驟S5中,使用1-max策略進行所述池化。進一步地,在步驟S6中,使用基于OCC模型的ECOCC模型進行所述情緒分類。根據本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類方法,用卷積神經網絡算法來進行特征提取和降維,利用上述算法來抽取詞與詞、語句與語句之間關系中來實現無監督觀點挖掘,提升了微博文本分類的效率和正確率,通過將微博文本按照事件結果、主體行為和實體對象三大部分,并通過設定的事件狀態與事件標準、行為主體與行為規范、對象實體和實體標準將微博文本的情緒進行分類,形成多層次的情感分類體系可將情緒分為22種,實現與微博文本進行良好的結合,可以滿足常見的情感類型分類。為此,本專利技術的另一個目的在于提出一種基于卷積神經網絡的中文微博文本情緒分類系統,提升了微博文本分類的效率和正確率。為了實現上述目的,本專利技術的實施例公開了一種基于卷積神經網絡的中文微博文本情緒分類系統,包括:信息獲取模塊,用于獲取微博數據;數據預處理模塊,用于對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;語句嵌入模塊,用于對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;卷積模塊,用于將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;池化模塊,用于將所述特征圖堆積后進行池化,以實現特征降維;分類模塊,用于使用Softmax回歸模型對池化后的特征圖進行情緒分類。進一步地,所述數據預處理模塊進一步用于:刪除網頁鏈接、位置信息和重復的子句;將網絡流行語及網絡縮寫在遍歷用語詞典獲取對應的文字信息,在遍歷用語詞典后找不著對應含義的網絡流行語及網絡縮寫進行人工標注;將表情符號用對應的文字代替。進一步地,所述卷積模塊通過以下公式生成所述特征圖:mi=W*xi,i+h-1+b,b∈RMi=[m1,m2,...,mi-h+1]Ni=ReLU(Mi)=max(0,Mi)其中,x為輸入到卷積層的語句的向量表示,b是偏置項,mi為一個濾波器輸出函數,Mi為原始特征,濾波器W∈Rhk,R表示向量空間,h表示窗口大小,k表示維度為k維,Relu為非線性函數。進一步地,所述池化模塊使用1-max策略進行所述池化。進一步地,所述分類模塊使用基于OCC模型的ECOCC模型進行所述情緒分類。本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類系統與本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類方法相對于現有技術的優勢相同。本專利技術的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本專利技術的實踐了解到。附圖說明本專利技術的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:圖1是本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類方法的流程圖;圖2是本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類系統的結構框圖。具體實施方式下面詳細描述本專利技術的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本專利技術,而不能理解為對本專利技術的限制。參照下面的描述和附圖,將清楚本專利技術的實施例的這些和其他方面。在這些描述和附圖中,具體公開了本專利技術的實施例中的一些特定實施方式,來表示實施本專利技術的實施例的原理的一些方式,但是應當理解,本專利技術的實施例的范圍不受此限制。相反,本專利技術的實施例包括落入所附加權利要求書的精神和內涵范圍內的所有變化、修改和等同物。以下結合附圖描述本專利技術。圖1是本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類方法的流程圖。如圖1所示,根據本專利技術實施例的基于卷積神經網絡的中文微博文本情緒分類方法,包括以下步驟:S1:獲取微博數據。具體地,使用網絡爬蟲方法,自動定向爬取微博數據,即可以實現針對用戶的信息獲取,也可以實現話題(即tag)進行話題即相關評論抽取。S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據。在本專利技術的一個實施例中,預處理包括:刪除網頁鏈接、位置信息和重復的子句;將網絡流行語及網絡縮寫在遍歷用語詞典獲取對應的文字信息,在遍歷用語詞典后找不著對應含義的網絡流行語及網絡縮寫進行人工標注;將表情符號用對應的文字代替。具體地,由于獲取的微博數據均直接由評論原始數據直接導出,因此包含大量無用噪聲。如許多相互重復的信息以及和預測目標無關的無用信息,這些信息會造成最后模型參數的激增,使得模型訓練變得更加困難。另一方面,微博文本是一個糅合了多種語言形式的文本,例如網絡流行語、網絡用語縮寫、網頁鏈接和表情符號等。有些數據類型明顯與情緒情感本身無關,因此需要對數據進本文檔來自技高網...
    基于卷積神經網絡的中文微博文本情緒分類方法及其系統

    【技術保護點】
    一種基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;S5:將所述特征圖堆積后進行池化,以實現特征降維;S6:使用Softmax回歸模型對池化后的特征圖進行情緒分類。

    【技術特征摘要】
    1.一種基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;S5:將所述特征圖堆積后進行池化,以實現特征降維;S6:使用Softmax回歸模型對池化后的特征圖進行情緒分類。2.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,所述預處理包括:刪除網頁鏈接、位置信息和重復的子句;將網絡流行語及網絡縮寫在遍歷用語詞典獲取對應的文字信息,在遍歷用語詞典后找不著對應含義的網絡流行語及網絡縮寫進行人工標注;將表情符號用對應的文字代替。3.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S4中,通過以下公式生成所述特征圖:mi=W*xi,i+h-1+b,b∈RMi=[m1,m2,...,mi-h+1]Ni=ReLU(Mi)=max(0,Mi)其中,x為輸入到卷積層的語句的向量表示,b是偏置項,mi為一個濾波器輸出函數,Mi為原始特征,濾波器W∈Rhk,R表示向量空間,h表示窗口大小,k表示維度為k維,Relu為非線性函數。4.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S5中,使用1-max策略進行所述池化。5.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S6中,使用基于OCC模型的ECOCC模型進行所述情緒分類。6.一種基于卷積神經網絡的中文微...

    【專利技術屬性】
    技術研發人員:徐華,賈霏,孫曉民,鄧俊輝
    申請(專利權)人:清華大學
    類型:發明
    國別省市:北京,11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码精品一区在线观看 | 人妻少妇精品无码专区| 无码人妻久久一区二区三区免费 | 日韩av无码久久精品免费| 一本一道VS无码中文字幕| 亚洲成A∨人片在线观看无码| 亚洲AV无码专区在线观看成人 | 亚洲AV人无码激艳猛片| 亚洲AV无码一区二区三区在线| 国产仑乱无码内谢| 西西大胆无码视频免费| 精品日韩亚洲AV无码一区二区三区| 人妻少妇无码视频在线| 精品无码一区二区三区在线| 中文字幕无码久久久| 最新亚洲人成无码网站| 中文字幕av无码一二三区电影| 夜夜添无码试看一区二区三区| 亚洲AV无码一区二区三区鸳鸯影院| 久久久久久久无码高潮| 亚洲成AV人在线观看天堂无码| 国产麻豆天美果冻无码视频| 亚洲精品无码你懂的网站| 精品久久久无码人妻字幂 | 亚洲国产精品无码久久九九| 亚洲AV无码专区亚洲AV桃| 亚洲天然素人无码专区| 久久久久亚洲AV无码观看| 无码国产69精品久久久久网站| 成人无码区免费A∨直播| heyzo专区无码综合| 国产成人无码av在线播放不卡| 国产午夜av无码无片久久96| 亚洲AV无码AV男人的天堂不卡| 亚洲AV成人无码网天堂| 人妻系列无码专区久久五月天| 日韩精品无码免费视频| 国产精品无码v在线观看| 成人无码A区在线观看视频| 无码137片内射在线影院 | MM1313亚洲精品无码久久|