The invention discloses a classification method Chinese micro-blog text emotion based on convolutional neural network and a system thereof, the method includes: acquiring micro-blog micro-blog data; data preprocessing; data preprocessing of micro-blog after the use of Word2vec model for real value to the word representation; combination of different sizes of the filter corresponding to the size on the propagation characteristics of two-dimensional map generation, feature maps; accumulation of pool; using Softmax regression model for sentiment classification of feature map of the pool. The invention has the following advantages: the algorithm of convolutional neural network for feature extraction and dimensionality reduction using supervised method to adjust the model to relation between word and word, sentence and sentence to realize unsupervised opinion mining using the above algorithm, according to the classification results, the main event of behavior and physical objects form emotion classification the system of sentiment classification for micro-blog text, improve the classification efficiency and accuracy.
【技術實現步驟摘要】
基于卷積神經網絡的中文微博文本情緒分類方法及其系統
本專利技術涉及計算機應用機器學習領域,具體涉及一種基于卷積神經網絡的中文微博文本情緒分類方法及其系統。
技術介紹
微博信息,尤其是某些熱門話題的評論信息,對業界和科研人員來說都是極其寶貴的參考材料,在觀點挖掘、未來預測等方面都有著極大的參考價值。觀點挖掘,也稱為情緒分析,是對于人們關于某一實體的特征、組件、屬性等所產生的觀點、態度和情緒進行挖掘和分析的一種技術,是自然語言處理學科中重要的一個領域,得到了學術界和業界的重視。結合產品評論,觀點挖掘能十分有效地反應用戶的對于某具體事物的具體觀點,具有實時性、話題敏感性和多變性的特點。自然語言處理的重要組成部分,也是機器學習中的一個重要研究領域。同時,由于微博數據的多變性和數據規模的龐大,基于在線數據的觀點挖掘一直是研究的熱點和難點。特征抽取是觀點挖掘中的重要環節,提取結果的好壞將直接影響觀點挖掘的結果好壞。大多數模型往往對產品評論利用監督學習或半監督學習來進行特征提取,這需要大量的人力。
技術實現思路
本專利技術旨在至少解決上述技術問題之一。為此,本專利技術的一個目的在于提出一種基于卷積神經網絡的中文微博文本情緒分類方法,提升了微博文本分類的效率和正確率。為了實現上述目的,本專利技術的實施例公開了一種基于卷積神經網絡的中文微博文本情緒分類方法,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器 ...
【技術保護點】
一種基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;S5:將所述特征圖堆積后進行池化,以實現特征降維;S6:使用Softmax回歸模型對池化后的特征圖進行情緒分類。
【技術特征摘要】
1.一種基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,包括以下步驟:S1:獲取微博數據;S2:對所述微博數據進行預處理,以去除所述微博數據中的無關噪聲和重復數據;S3:對預處理后的微博數據使用Word2vec模型將詞表征為實數值向;S4:將不同大小的詞的組合通過對應大小的濾波器上,通過前向傳播,生成二維的特征圖;S5:將所述特征圖堆積后進行池化,以實現特征降維;S6:使用Softmax回歸模型對池化后的特征圖進行情緒分類。2.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,所述預處理包括:刪除網頁鏈接、位置信息和重復的子句;將網絡流行語及網絡縮寫在遍歷用語詞典獲取對應的文字信息,在遍歷用語詞典后找不著對應含義的網絡流行語及網絡縮寫進行人工標注;將表情符號用對應的文字代替。3.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S4中,通過以下公式生成所述特征圖:mi=W*xi,i+h-1+b,b∈RMi=[m1,m2,...,mi-h+1]Ni=ReLU(Mi)=max(0,Mi)其中,x為輸入到卷積層的語句的向量表示,b是偏置項,mi為一個濾波器輸出函數,Mi為原始特征,濾波器W∈Rhk,R表示向量空間,h表示窗口大小,k表示維度為k維,Relu為非線性函數。4.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S5中,使用1-max策略進行所述池化。5.根據權利要求1所述的基于卷積神經網絡的中文微博文本情緒分類方法,其特征在于,在步驟S6中,使用基于OCC模型的ECOCC模型進行所述情緒分類。6.一種基于卷積神經網絡的中文微...
【專利技術屬性】
技術研發人員:徐華,賈霏,孫曉民,鄧俊輝,
申請(專利權)人:清華大學,
類型:發明
國別省市:北京,11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。