本發明專利技術公開了一種細粒度文本情感分析方法,步驟一:構建細粒度情感詞典;步驟二:語句結構關系判斷;步驟三:簡單句的情感值評定。本發明專利技術可以提取出文本所包含的更多的用戶情感相關信息,能更好的刻畫用戶內心的感受,用于支撐相關的應用研究,例如基于健康的用戶情緒狀態及變化情況分析。
【技術實現步驟摘要】
一種細粒度文本情感分析方法
本專利技術屬于英文文本情感分析
,涉及一種細粒度文本情感分析方法,具體地說,涉及一種針對評論文本的細粒度情感分析方法。
技術介紹
人類的情感是復雜而又多方面的。由于情感的復雜性和與其他外部事物的關系,它屬于心理學中最具挑戰性的現象。了解一個人的當前的情緒的傳統方式有多種:如可以咨詢其主觀感受,觀察其臉部表情或行為上的變化,以及其生理變化。事實上,一個人的情緒是復雜的,并不能被直接測量,僅能通過它們的外在表現形式來識別,如此就催生出各種用于識別人類情感的方法。在一般情況下,最常見的識別一個人的情緒反應的方法大致可以分為三類:(1)自我報告,(2)生理學方法,(3)行為觀察。基于傳統方法監測個人的情緒狀態需要大量的人力和物力,難以獲得大量用戶長時間的情緒相關數據。隨著在線社交網絡的不斷發展,其擁有的用戶數量不斷增大,人們開始習慣經常將自己的所見所感分享給線上好友,由此研究者可以通過社交網站的API獲取大量用戶情緒相關數據,基于文本情感分析技術抽取出用戶的情緒狀態。文本情感分析是一個新興的研究課題,具有很大的研究價值和應用價值。專利200910219161.9根據不同主題文本的語言表達方式估計主題語言模型,計算待處理文本的語言模型與正負情感模型的距離,選取距離最近的情感模型的情感傾向賦予該文本。專利200910083522.1根據訓練文本的標簽確定測試文本的初始情感分,基于圖排序算法利用所述測試文本的初始情感分迭代計算所述測試文本的情感分并進行歸一化,以解決跨領域的文本情感傾向性分析問題。專利201210088366.X基于正負情感詞典判斷所有包含主題詞的句子的極性,計算結果集合中正面句子極性之和及負面句子極性之和,從而得出整條微博的情感傾向性。專利201310000734.5通過構造一種具有Two-Level(雙層)結構的DCRF模型實現了實體級別的情感傾向性判斷,專利201310036034.1利用對象屬性與情感詞之間的關聯信息以及情感詞與修飾詞之間的關系實現細粒度情感強度量化的統計和計算。目前已有的情感分析技術主要將文本包含的用戶情感分為兩類:正向和負向,在情感類別的劃分方面屬于粗粒度的文本情感分析,丟失了大量用戶情感相關信息。為了充分獲得用戶評論所含信息,更好的刻畫用戶的感受,本專利技術對評論文本做進一步的細粒度情感分析,即將正負面傾向分別進一步劃分,例如負面情緒可以是生氣,也可以是悲傷等。
技術實現思路
本專利技術的目的在于克服上述技術存在的缺陷,提供一種細粒度文本情感分析方法,該方法可以更加充分獲得用戶評論所含情感信息,可更好的支撐相關的應用研究,例如基于健康的用戶情緒狀態及變化情況分析。其具體技術方案為:步驟一:構建細粒度情感詞典選取國際級公認的基準情感分類作為細粒度情感分類,并將基準情感詞作為各類別的種子情感詞,通過wordNet(由Princeton大學的心理學家,語言學家和計算機工程師聯合設計的一種基于認知語言學的英語詞典)查找其同義詞集合,并放入對應的類別,完成細粒度情感詞典的第一步擴建;wordNet將單詞分為四類:名詞、動詞、副詞和形容詞;由基準情感詞擴展得到的名詞性情感集合,并按照相同的方式根據基準情感詞的形容詞、動詞和副詞形式,分別構建成其形容詞、動詞和副詞形式的情感集合;同類別的情感集合,除了詞性的差異之外,并不影響情感值的計算,則將一個類別下的情感集合視為一個大類,從而完成細粒度情感詞典的第二步擴建;至此,構建的細粒度情感詞典還無法覆蓋大部分的情感詞匯;將其余情感詞如何歸類到細粒度情感類別的問題,轉換為分析其與基準情感詞在概念層次上基于常識的相似性,并將其分配到相似性最高的基準情感詞所代表的情感類別中;最后分析歸類結果,并完善可能存在的缺陷;至此完成細粒度情感詞典的擴建;步驟二:語句結構關系判斷判斷語句中是否有連詞,如果有,則表示該句為復合句,根據句間關系規則獲得該連詞表示的語句結構關系及語句情感值的計算規則;如果沒有,則該語句是簡單句;步驟三:簡單句的情感值評定如果是復合句,則拆分為兩個分句進行處理;如果為簡單句,則直接計算其情感值;現在,考慮簡單句的情感值評定方法,評論情感計算要考慮主題詞相關性,與主題詞無關的情感詞會給情感計算帶來干擾;而主題主要通過語句的主題(主語和賓語)體現,則只需考慮與主題相關的名詞性和形容詞性情感特征詞;根據句子結構、依賴關系、情感詞褒貶度及相關副詞修飾強度,計算出簡單句的情感值;對于評論文本經常出現的不完整短句,利用單詞詞性,提高依賴關系判斷的準確性;當情感詞前的修飾短語過長時,將句子結構、單詞詞性及依賴關系結合起來,具體算法如下:先探測依賴關系,找出主題詞,進而找出依附于主題詞的修飾關系,根據句子結構分析的結果得到主題詞與其修飾短語構成的名詞性短語,然后分析此名詞性短語的結構和修飾短語所包含的詞的詞性,得出正確的修飾關系;步驟四:評論文本細粒度情感計算結合句型和句間關系獲得語句情感值;所有語句的情感之和為評論文本的整體情感值。與現有技術相比,本專利技術的有益效果是:可以提取出文本所包含的更多的用戶情感相關信息,能更好的刻畫用戶內心的感受,用于支撐相關的應用研究,例如基于健康的用戶情緒狀態及變化情況分析。附圖說明圖1為本專利技術的細粒度情感詞典構建方法流程圖;圖2為本專利技術的文本細粒度情感分析方法流程圖;圖3為本專利技術實例中的例句句子結構圖。具體實施方式下面結合附圖和具體實施例對本專利技術的技術方案作進一步詳細地說明。本專利技術的細粒度情感詞典構建方法實現流程如圖1所示,詳細步驟如下:步驟101:設定基準情感類別及種子情感詞。迄今為止,心理學界對情感的劃分還沒有一個公認的標準,本專利技術以學者Ekman的著名6基準情感為例,具體包括:happiness(高興),sadness(悲傷),anger(生氣),fear(恐懼),surprise(驚喜)anddisgust(厭惡)。首先根據將6基準情感詞作為各類別的種子情感詞,通過wordNet查找其同義詞集合,并放入對應的類別,完成細粒度情感詞典的第一步擴建。步驟102:根據同義詞擴展情感詞典。wordNet將單詞分為四類:名詞、動詞、副詞和形容詞。我們已經得到由6基準情感詞擴展得到的名詞性情感集合,將按照相同的方式根據6基準情感詞的形容詞、動詞和副詞形式,分別構建成其形容詞、動詞和副詞形式的情感集合。例如,“joy(歡樂)”和“joyful(快樂)”都屬于“happiness(高興)”情感類別,但分屬于兩個情感集合,joy屬于名詞性集合,joyful屬于形容詞性集合。同類別的情感集合,除了詞性的差異之外,并不影響情感值的計算,則本專利技術將一個類別下的情感集合視為一個大類,從而完成細粒度情感詞典的第二步擴建。步驟103:基于通用常識庫擴展情感詞典。至此細粒度情感詞典總共包含1000多個單詞,這對于分析文本情感傾向來說明顯不足,還有大量的表達人們情感的詞未被覆蓋。例如表達出明顯情感的動詞cry(哭),它無法通過前面的情感集合種子詞語同義詞擴展的方式,加入到情感詞典。基于常識我們通常會認為cry(哭)與sad(悲傷)和angry(生氣)的關聯較大,它經常表達出主體悲傷或憤怒的情緒。在對于cry進本文檔來自技高網...

【技術保護點】
一種細粒度文本情感分析方法,其特征在于,包括以下步驟:步驟一:構建細粒度情感詞典選取國際級公認的基準情感分類作為細粒度情感分類,并將基準情感詞作為各類別的種子情感詞,通過wordNet查找其同義詞集合,并放入對應的類別,完成細粒度情感詞典的第一步擴建;wordNet將單詞分為四類:名詞、動詞、副詞和形容詞;由基準情感詞擴展得到的名詞性情感集合,并按照相同的方式根據基準情感詞的形容詞、動詞和副詞形式,分別構建成其形容詞、動詞和副詞形式的情感集合;同類別的情感集合,除了詞性的差異之外,并不影響情感值的計算,則將一個類別下的情感集合視為一個大類,從而完成細粒度情感詞典的第二步擴建;至此,構建的細粒度情感詞典還無法覆蓋大部分的情感詞匯;將其余情感詞如何歸類到細粒度情感類別的問題,轉換為分析其與基準情感詞在概念層次上基于常識的相似性,并將其分配到相似性最高的基準情感詞所代表的情感類別中;最后分析歸類結果,并完善可能存在的缺陷;至此完成細粒度情感詞典的擴建;步驟二:語句結構關系判斷判斷語句中是否有連詞,如果有,則表示該句為復合句,根據句間關系規則獲得該連詞表示的語句結構關系及語句情感值的計算規則;如果沒有,則該語句是簡單句;步驟三:簡單句的情感值評定如果是復合句,則拆分為兩個分句進行處理;如果為簡單句,則直接計算其情感值;現在,考慮簡單句的情感值評定方法,評論情感計算要考慮主題詞相關性,與主題詞無關的情感詞會給情感計算帶來干擾;而主題主要通過語句的主語和賓語體現,則只需考慮與主語和賓語相關的名詞性和形容詞性情感特征詞;根據句子結構、依賴關系、情感詞褒貶度及相關副詞修飾強度,計算出簡單句的情感值;對于評論文本經常出現的不完整短句,利用單詞詞性,提高依賴關系判斷的準確性;當情感詞前的修飾短語過長時,將句子結構、單詞詞性及依賴關系結合起來,具體算法如下:先探測依賴關系,找出主題詞,進而找出依附于主題詞的修飾關系,根據句子結構分析的結果得到主題詞與其修飾短語構成的名詞性短語,然后分析此名詞性短語的結構和修飾短語所包含的詞的詞性,得出正確的修飾關系;步驟四:評論文本細粒度情感計算結合句型和句間關系獲得語句情感值;所有語句的情感之和為評論文本的整體情感值。...
【技術特征摘要】
1.一種細粒度文本情感分析方法,其特征在于,包括以下步驟:步驟一:構建細粒度情感詞典選取國際級公認的基準情感分類作為細粒度情感分類,并將基準情感詞作為各類別的種子情感詞,通過wordNet查找其同義詞集合,并放入對應的類別,完成細粒度情感詞典的第一步擴建;wordNet將單詞分為四類:名詞、動詞、副詞和形容詞;由基準情感詞擴展得到了名詞性情感集合,按照相同的方式根據基準情感詞的形容詞、動詞和副詞形式,分別構建成其形容詞、動詞和副詞形式的情感集合;同類別的情感集合,除了詞性的差異之外,并不影響情感值的計算,則將一個類別下的情感集合視為一個大類,從而完成細粒度情感詞典的第二步擴建;至此,構建的細粒度情感詞典還有大部分的情感詞匯無法覆蓋;將其余情感詞如何歸類到細粒度情感類別的問題,轉換為分析其與基準情感詞在概念層次上基于常識的相似性,并將其分配到相似性最高的基準情感詞所代表的情感類別中;最后分析歸類結果,并完善可能存在的缺陷;至此完成細粒度情感詞典的擴建;步驟二:語句結構關系判斷判斷語句中是否有連詞,如果有,...
【專利技術屬性】
技術研發人員:於志文,夏云云,郭斌,周興社,王柱,
申請(專利權)人:西北工業大學,
類型:發明
國別省市:陜西;61
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。