本發(fā)明專利技術(shù)公開了一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng),包括:獲取預(yù)設(shè)量的訓(xùn)練文本,所述訓(xùn)練文本為已提供其情緒原因事件的文本;將所述訓(xùn)練文本進(jìn)行分詞處理,得到分別與每個(gè)所述訓(xùn)練文本對應(yīng)的訓(xùn)練詞組;確定所述訓(xùn)練詞組中每個(gè)詞語的結(jié)構(gòu)句法特征;利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法特征訓(xùn)練CRF模型;利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因事件。本發(fā)明專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng)獲取待測文本的情緒原因事件的準(zhǔn)確率較高,即對于情緒原因事件的識別性能較好。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)設(shè)及信息抽取
,更具體地說,設(shè)及一種基于結(jié)構(gòu)句法的情緒原因 事件識別方法及系統(tǒng)。
技術(shù)介紹
隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)信息數(shù)據(jù)不斷增加,大量信息W電子文本的形式呈 現(xiàn)在人們面前。而如何從運(yùn)些大量的信息中迅速、準(zhǔn)確地提取出人們所需求的重要信息就 越發(fā)重要。 信息抽取是從文本信息中自動(dòng)獲取所需信息的一種主要手段。信息抽取是將無結(jié) 構(gòu)的文本信息,按照人們的需求識別和抽取出來,轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并采用 數(shù)據(jù)庫的形式存儲(chǔ),W便人們查詢和進(jìn)一步的分析、利用。其中,由文本信息中獲取其情緒 原因事件是信息抽取中的一個(gè)重要方面,情緒原因事件是指文本信息(可W是某段語句) 中情緒的觸發(fā)事件。例如,對于文本信息:1amh曰ppybee曰useIh曰vep曰ssedthetest。 該句中情緒對應(yīng)的情緒詞為happy,與之對應(yīng)的情緒原因事件為Ihavepassedthetest。 目前,情緒原因事件識別方法大多是基于機(jī)器學(xué)習(xí)的方法,即使用統(tǒng)計(jì)的方法進(jìn) 行研究。主要還是基于全監(jiān)督的學(xué)習(xí)方法,運(yùn)種方法把情緒原因事件識別看成分類問題,選 擇合適的特征并使用合適的分類器來完成。但是,運(yùn)種方法獲取待測文本的情緒原因事件 的準(zhǔn)確率較低。 綜上所述,現(xiàn)有技術(shù)中的情緒原因事件識別方法存在獲取待測文本的情緒原因事 件的準(zhǔn)確率較低的問題。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的是提供一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng),W解決 現(xiàn)有技術(shù)中存在的獲取待測文本的情緒原因事件的準(zhǔn)確率較低的問題。 為了實(shí)現(xiàn)上述目的,本專利技術(shù)提供如下技術(shù)方案: 一種基于結(jié)構(gòu)句法的情緒原因事件識別方法,包括: 獲取預(yù)設(shè)量的訓(xùn)練文本,所述訓(xùn)練文本為已提供其情緒原因事件的文本; 將所述訓(xùn)練文本進(jìn)行分詞處理,得到分別與每個(gè)所述訓(xùn)練文本對應(yīng)的訓(xùn)練詞組; 確定所述訓(xùn)練詞組中每個(gè)詞語的結(jié)構(gòu)句法特征; 利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法特征訓(xùn)練CRF 模型; 利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因事件。 優(yōu)選的,所述利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法 特征訓(xùn)練CRF模型,包括: 確定每個(gè)所述訓(xùn)練詞組中與該訓(xùn)練詞組的情緒原因事件對應(yīng)的訓(xùn)練情緒詞;其 中,所述訓(xùn)練詞組的情緒原因事件為與所述訓(xùn)練詞組對應(yīng)的訓(xùn)練文本的情緒原因事件; 確定每個(gè)所述訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征及詞距離;其中,每個(gè)所述 訓(xùn)練詞組中每個(gè)詞語的詞距離為該訓(xùn)練詞組中每個(gè)詞語與該訓(xùn)練詞組中的訓(xùn)練情緒詞之 間的距離; 利用每個(gè)所述訓(xùn)練詞組及該訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征、詞距離及 結(jié)構(gòu)句法特征訓(xùn)練CRF模型。 優(yōu)選的,確定每個(gè)所述訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征及結(jié)構(gòu)句法特征, 包括: 利用Stan化rd工具確定所述訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征及結(jié)構(gòu)句 法特征。 優(yōu)選的,所述確定每個(gè)所述訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征及詞距離,包 括: 確定每個(gè)所述訓(xùn)練詞組中每個(gè)詞語的詞特征、詞性特征及詞距離;其中,每個(gè)所述 訓(xùn)練詞組中位于該訓(xùn)練詞組中的訓(xùn)練情緒詞左邊的詞語的詞距離為負(fù)數(shù),位于該訓(xùn)練詞組 中的訓(xùn)練情緒詞右邊的詞語的詞距離為正數(shù)。 優(yōu)選的,所述利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因事件, 包括: 獲取待測文本,所述待測文本為未提供其情緒原因事件的文本; 將所述待測文本進(jìn)行分詞處理,得到待測詞組;確定所述待測詞組中包括的待測情緒詞; 確定所述待測詞組中每個(gè)詞語的詞特征、詞性特征、詞距離及結(jié)構(gòu)句法特征;其 中,所述待測詞組中每個(gè)詞語的詞距離為該待測詞組中每個(gè)詞語與待測情緒詞之間的距 離; 利用所述待測詞組中每個(gè)詞語的詞特征、詞性特征、詞距離及結(jié)構(gòu)句法特征,通過 所述CRF模型,得到所述待測文本的情緒原因事件。 一種基于結(jié)構(gòu)句法的情緒原因事件識別系統(tǒng),包括: 獲取模塊,用于獲取預(yù)設(shè)量的訓(xùn)練文本,所述訓(xùn)練文本為已提供其情緒原因事件 的文本; 分詞模塊,用于將所述訓(xùn)練文本進(jìn)行分詞處理,得到分別與每個(gè)所述訓(xùn)練文本對 應(yīng)的訓(xùn)練詞組; 第一確定模塊,用于確定所述訓(xùn)練詞組中每個(gè)詞語的結(jié)構(gòu)句法特征; 訓(xùn)練模塊,用于利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句 法特征訓(xùn)練CRF模型; 第二確定模塊,用于利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因 事件。 本專利技術(shù)提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng),包括:獲取預(yù) 設(shè)量的訓(xùn)練文本,所述訓(xùn)練文本為已提供其情緒原因事件的文本;將所述訓(xùn)練文本進(jìn)行分 詞處理,得到分別與每個(gè)所述訓(xùn)練文本對應(yīng)的訓(xùn)練詞組;確定所述訓(xùn)練詞組中每個(gè)詞語的 結(jié)構(gòu)句法特征;利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法特征訓(xùn) 練CRF模型;利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因事件。與現(xiàn)有技 術(shù)相比,本申請中利用訓(xùn)練文本進(jìn)行分詞后的詞組及詞組中每個(gè)詞語的結(jié)構(gòu)句法特征構(gòu)建CRFkonditionalrandomfieldalgorithm,條件隨機(jī)場算法)模型,即建立一個(gè)統(tǒng)一的概 率模型,進(jìn)一步利用上述CRF模型確定待測文本的情緒原因事件,實(shí)驗(yàn)證明,本專利技術(shù)實(shí)施例 提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法及系統(tǒng)獲取待測文本的情緒原因事件 的準(zhǔn)確率較高,即對于情緒原因事件的識別性能較好?!靖綀D說明】 為了更清楚地說明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 專利技術(shù)的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。圖1為本專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法的流程 圖;圖2為本專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法中結(jié)構(gòu) 句法特征中各節(jié)點(diǎn)的示意圖;圖3為本專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別方法中步驟 S16的流程圖;圖4為本專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識別系統(tǒng)的結(jié)構(gòu) 不意圖?!揪唧w實(shí)施方式】 下面將結(jié)合本專利技術(shù)實(shí)施例中的附圖,對本專利技術(shù)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本專利技術(shù)一部分實(shí)施例,而不是全部的實(shí)施例?;?本專利技術(shù)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本專利技術(shù)保護(hù)的范圍。 請參閱圖1,其示出了本專利技術(shù)實(shí)施例提供的一種基于結(jié)構(gòu)句法的情緒原因事件識 別方法的流程圖,可W包括W下步驟: S11:獲取預(yù)設(shè)量的訓(xùn)練文本,訓(xùn)練文本為已提供其情緒原因事件的文本。 其中,預(yù)設(shè)量可根據(jù)實(shí)際需要進(jìn)行確定。 W44] S12:將訓(xùn)練文本進(jìn)行分詞處理,得到分別與每個(gè)訓(xùn)練文本對應(yīng)的訓(xùn)練詞組。 其中,分詞處理即為將一段文本分割成詞語的組合,如將語句"我很高興",分割成 "我""很""高興"。另外,本專利技術(shù)實(shí)施例中訓(xùn)練文本及下文中的待測文本可W是英文文本, 也可W是中文文本。 S13:確定訓(xùn)練詞組中每個(gè)詞語的結(jié)構(gòu)句法特征。S14 :利用訓(xùn)練詞組及每個(gè)訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法特征訓(xùn)練CRF模 型。 W48] S15 :利用CRF模型確定待測詞組對應(yīng)的待測文本的本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于結(jié)構(gòu)句法的情緒原因事件識別方法,其特征在于,包括:獲取預(yù)設(shè)量的訓(xùn)練文本,所述訓(xùn)練文本為已提供其情緒原因事件的文本;將所述訓(xùn)練文本進(jìn)行分詞處理,得到分別與每個(gè)所述訓(xùn)練文本對應(yīng)的訓(xùn)練詞組;確定所述訓(xùn)練詞組中每個(gè)詞語的結(jié)構(gòu)句法特征;利用所述訓(xùn)練詞組及每個(gè)所述訓(xùn)練詞組包括的每個(gè)詞語的結(jié)構(gòu)句法特征訓(xùn)練CRF模型;利用所述CRF模型確定待測詞組對應(yīng)的待測文本的情緒原因事件。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李壽山,徐健,周國棟,
申請(專利權(quán))人:蘇州大學(xué)張家港工業(yè)技術(shù)研究院,
類型:發(fā)明
國別省市:江蘇;32
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。