本發(fā)明專利技術(shù)公開了一種基于詞語依存關(guān)系的觀點抽取方法,包括如下步驟:采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫;采用基于詞語依存關(guān)系鏈的匹配算法抽取評價對象和情感特征;通過評價對象和情感特征之間的詞語依存關(guān)系判斷觀點極性。該方法能夠在不同領(lǐng)域中抽取觀點,并且能夠?qū)崿F(xiàn)較高的觀點抽取準確率。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種觀點抽取方法,尤其涉及一種,屬于計算機信息數(shù)據(jù)處理
技術(shù)介紹
互聯(lián)網(wǎng)的迅速發(fā)展和廣泛普及,在很大程度上改變了人們的生活方式,人們不僅能夠被動的接受信息,還能與外界進行交互,越來越多的用戶在互聯(lián)網(wǎng)上分享自己的觀點或者體驗。互聯(lián)網(wǎng)逐漸成為一種交互式媒體,人們可以通過BBS、Blogs等網(wǎng)絡(luò)媒介發(fā)表對各種事物的評論。這些信息數(shù)量龐大,具有強烈的主觀性,表達方式相當自由,且不規(guī)范。網(wǎng)絡(luò)上這些主觀性的評論包含著大量的情感傾向的信息,這些信息,無論對于普通的網(wǎng)絡(luò)用戶,還是對于生產(chǎn)商以及其他機構(gòu)組織都有很重要的價值。例如,普通用戶可以根據(jù)網(wǎng)絡(luò)上其他用戶對某一產(chǎn)品的評價,而得知該產(chǎn)品的優(yōu)點和缺點;生產(chǎn)商可以通過網(wǎng) 絡(luò)上產(chǎn)品的評價可以得知自己產(chǎn)品的客戶滿意度。但是,在海量的網(wǎng)絡(luò)信息中,如果依靠人工瀏覽網(wǎng)頁,搜集評論,分析觀點,將是一項費時費力,效率低下的工作。例如,一個人氣旺盛的論壇中,每天都可能產(chǎn)生幾百個甚至上千個主題貼;此外,許多情況下,在這些長篇累牘的評論中,大部分內(nèi)容都是客觀描述,而只有幾句話是用戶感興趣的主觀評論。如何從互聯(lián)網(wǎng)的海量數(shù)據(jù)中高效快捷的出針對某一主題的主觀評論性信息至關(guān)重要。識別和抽取在互聯(lián)網(wǎng)的評論中用戶針對某一具體的主題主觀性評論稱為觀點抽取。觀點抽取用于抽取情感評論文本中包含觀點的信息,并將無結(jié)構(gòu)化的情感文本轉(zhuǎn)化為計算機容易識別和處理的結(jié)構(gòu)化文本,從而為情感分析的其他研究和應(yīng)用服務(wù)。觀點的抽取也叫意見的抽取,它主要包括評價對象(也稱主題特征)的抽取,如價格、質(zhì)量等;情感特征(也稱極性特征)的抽取,如好、壞等等。觀點的極性往往表達了用戶對主題的主觀性評論。觀點的兩個最基本要素分別是主題特征和情感特征,主題特征和情感特征通常對應(yīng)了句子中的評價對象和評價詞語。Bloom等人將主題特征和情感特征定義為情感評價單元。早期的研究者將觀點抽取這項任務(wù)分為兩個步驟首先獲取主觀句中的評價對象,及主題特征;繼而選擇距離評價對象窗口為k的評價詞語(情感特征),從而構(gòu)成一條觀點。但是這種方法經(jīng)驗性太強,導(dǎo)致系統(tǒng)的性能有限,準確率難以保證。近期的一部分研究者將主題特征抽取和情感特征抽取合并為一個獨立的任務(wù),通過發(fā)掘二者之間的關(guān)系,提出了基于模版的方法來識別主觀句中的情感評價單兀。Kobayashi 等人定義了一個評價三兀組〈evaluated subject, focused attribute,value〉,其中,“focused attribute”對應(yīng)情感評價單元中的評價對象,“value”對應(yīng)情感特征。他們將情感特征和評價對象之間的修飾關(guān)系用8個共現(xiàn)模板(如<Attribute>of<Subject>is<Value>等)來描述。然而,由于模板過于簡單而且修飾關(guān)系僅僅停留在詞表面,在模板匹配過程中,該方法產(chǎn)生了大量的候選評價對象和候選情感特征,需要人工篩選來完成情感評價單元的抽取。顯然,這種方法大大提高了識別的準確率,但是對于模版的構(gòu)建需要大量的人工工作。哈爾濱工業(yè)大學的趙妍妍等人在《軟件學報》2011年第5期刊載的《基于句法路徑的情感評價單元識別》論文中提出了一種基于句法路徑的方法。該方法能自動識別主觀句中的情感評價單元。將鏈接評價對象和情感特征的句法結(jié)構(gòu)視為一條句法路徑,如圖I所示。該方法通過大量語料的訓練構(gòu)建了句法路徑庫,并基于句法路徑的匹配來自動獲取主觀句中的情感評價單元。這種方法可以有效的匹配評價對象和情感特征。但是,在很多情況下,某些句法成分的標簽表達了相似的含義,而且多條不同的句法路徑描述了相同的句法功能(例如圖1),而且。因此,對于句法路徑庫的構(gòu)建需要大量的泛化和人工篩選工作。在申請?zhí)枮?00910082342. I的中國專利技術(shù)專利申請中,公開了一種獲取評價單元、建立句法路徑詞典的方法、裝置及系統(tǒng)。其中,獲取評價單元的方法包括如下步驟識別情感句的極性詞和目標詞;創(chuàng)建句法路徑,所述句法路徑用于連接所述極性詞與所述目標詞;根據(jù)句法路徑詞典獲取所述句法路徑對應(yīng)的目標詞,其中,所述句法路徑用于存儲標準句法路徑;將所述極性詞與所述獲取的目標詞組成評價單元
技術(shù)實現(xiàn)思路
針對現(xiàn)有技術(shù)所存在的不足,本專利技術(shù)所要解決的技術(shù)問題在于提供。該方法能夠在不同領(lǐng)域中抽取觀點,并且能夠取得較高的觀點抽取準確率。為實現(xiàn)上述的專利技術(shù)目的,本專利技術(shù)采用下述的技術(shù)方案一種,包括如下步驟采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫;采用基于詞語依存關(guān)系鏈的匹配算法抽取評價對象和情感特征;通過評價對象和情感特征之間的詞語依存關(guān)系判斷觀點極性。其中較優(yōu)地,所述構(gòu)建詞語依存關(guān)系庫的步驟包括I)對于語料庫中的文本進行預(yù)處理,獲得詞語及其詞性;2)將處理后的文本以標點符號劃分為不同的分句;3)對每個分句進行句法解析,分析句法結(jié)構(gòu),獲得句子成分;4)根據(jù)句子中標注好的句子成分,以存在于情感詞詞典中的詞語作為候選評價詞語,名詞性短語中的名詞或代詞作為候選評價對象,計算候選評價詞語與候選評價對象的最短路徑;5)重復(fù)步驟3)至4),對訓練集合中的所有分句進行處理,并對所獲得的詞語依存關(guān)系路徑進行統(tǒng)計,將出現(xiàn)較多的詞語依存關(guān)系路徑加入到詞語依存關(guān)系庫中。其中較優(yōu)地,所述對評論文本進行預(yù)處理是使用ICTCLAS詞法分析器對文本進行預(yù)處理。其中較優(yōu)地,所述分析句法關(guān)系是使用Stanford Parser分析器對語料進行句法解析。其中較優(yōu)地,所述候選評價詞語與候選評價對象的最短路徑由評價詞語和評價對象之間的詞語依存關(guān)系路徑構(gòu)成。其中較優(yōu)地,所述采用基于詞語依存關(guān)系鏈的匹配算法抽取評價對象和情感特征的步驟包括a.通過句法解析,得到主觀句的句法成分和詞語依存關(guān)系集合;b.選取句中的名詞性短語作為候選評價對象;c.計算候選評價對象與句中形容詞短語、副詞短語以及動詞短語的最短路徑作為候選詞語依存關(guān)系路徑;d.將候選的詞語依存關(guān)系路徑與詞語依存關(guān)系庫中的標準詞語依存關(guān)系路徑進行匹配,匹配優(yōu)先級高的詞語依存路徑鏈所連接的兩個詞語作為最終的評價對象和情感特征。 其中較優(yōu)地,所述通過評價對象和情感特征之間的詞語依存關(guān)系判斷觀點極性的步驟包括(I)采用基于通用知識網(wǎng)絡(luò)的詞語傾向性預(yù)測方法計算評價詞語的語義傾向性;(2)若詞語的語義傾向性不為中性,采用如下式對觀點的情感特征進行量化 Poiarityi wot'd) mod ifier = NI JLLI PolarityiSentiGram) = ■■ Polarity{\rord) ■ 1.4 mod ifier =強化Polarityi word) ■ 0.7 mod ifier =弱化 J(3)根據(jù)是否存在否定副詞,采用如下式對觀點的情感特征量化 pohrity(Se"fiGmm).(-i)neg = NW,qPoianiviSeiitiGram) = {} '其中,Polarty (sentiword)為評價詞語的語義傾向性。其中較優(yōu)地,所述基于通用知識網(wǎng)絡(luò)的詞語傾向性預(yù)測方法包括a.判斷未知詞語是否存在于情感詞詞典中,如果存在返回極性,如果不存在,則進入步驟b ;b.選取褒義基準詞集和貶義詞基準詞集,褒義詞集和基準詞集的基準詞數(shù)量相同;c.計本文檔來自技高網(wǎng)...
【技術(shù)保護點】
一種基于詞語依存關(guān)系的觀點抽取方法,其特征在于包括如下步驟:采集詞語依存關(guān)系路徑并構(gòu)建詞語依存關(guān)系庫;采用基于詞語依存關(guān)系鏈的匹配算法抽取評價對象和情感特征;通過評價對象和情感特征之間的詞語依存關(guān)系判斷觀點極性。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉瑞,安翼,陳君龍,宋浪,
申請(專利權(quán))人:北京航空航天大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。