• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種漢語新動詞識別方法技術(shù)

    技術(shù)編號:15616615 閱讀:111 留言:0更新日期:2017-06-14 03:30
    本發(fā)明專利技術(shù)一種漢語新動詞識別方法,包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb;驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult;輸出新動詞集合VerbResult.本發(fā)明專利技術(shù)提出了一種利用漢語種子詞典中的詞語的信息,對從漢語語料中獲得新動詞進(jìn)行識別。在經(jīng)過160GB的純文本語料的測試驗證后,本發(fā)明專利技術(shù)的系統(tǒng)獲得了41012個新的漢語動詞。經(jīng)過準(zhǔn)確性分析,結(jié)果顯示96.9%的新動詞為正確的漢語動詞。

    【技術(shù)實現(xiàn)步驟摘要】
    一種漢語新動詞識別系統(tǒng)和方法
    本專利技術(shù)涉及漢語自然語言處理、漢語動詞自動識別領(lǐng)域,特別是涉及一種漢語新動詞自動識別系統(tǒng)和方法。
    技術(shù)介紹
    隨著互聯(lián)網(wǎng)的發(fā)展,尤其是移動互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民在使用漢語時常常不滿足于傳統(tǒng)的漢語詞典,而是自己專利技術(shù)一些新的詞語。這給漢語方面的應(yīng)用系統(tǒng)的開發(fā)帶來新的挑戰(zhàn)。另一方面,幾乎所有的漢語應(yīng)用系統(tǒng)都涉及動詞,即動詞是語言應(yīng)用中的關(guān)鍵。事實上,自從格文法(casegrammar)提出以來,以動詞為中心的各種方法和系統(tǒng)不斷涌現(xiàn)。例如,我國的中文樹庫的研制、美國的UPenn樹庫的研制,均離不開動詞的識別。同時,在漢語詞典增補(bǔ)過程中,經(jīng)常會手工收集新的詞語,包括新的動詞。如果有好的新詞語收集工具,那么無疑會對漢語詞典修訂具有很大的益處。張春霞等人已經(jīng)對主動詞(mainverb)進(jìn)行了研究,但是在現(xiàn)有的動詞基礎(chǔ)上展開的,不涉及新的動詞識別問題。周丹等人也研究了從Web漢語語料中獲取新的動詞。但是,他們方法基于純粹的統(tǒng)計計算,因此識別精度和召回率都不能支撐實際的應(yīng)用。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)所要解決的技術(shù)問題:通過對大語料處理和分析,快速而又準(zhǔn)確地從中識別出新的動詞,為漢語應(yīng)用系統(tǒng)、漢語詞典修訂增補(bǔ)等任務(wù)提供重要支撐。其中的關(guān)鍵問題是從大量的可能的新動詞中,通過嚴(yán)格的驗證計算過程,挑選出準(zhǔn)確性高的新動詞。為了解決以上問題,本專利技術(shù)采用了如下技術(shù)方案:一種漢語新動詞識別系統(tǒng),其特征在于:包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus的模塊A;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb的模塊B;驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult的模塊C;輸出新動詞集合VerbResult的模塊D.一種漢語新動詞識別系統(tǒng)和方法,其特征在于:包括以下步驟:步驟A,對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus:對CNCorpus中的每篇輸入文本D進(jìn)行分詞,分詞的工具采用開源的ICTCLAS系統(tǒng);為了便于處理,分詞后,將每篇文本按照句子標(biāo)點符號進(jìn)行分拆,形成不含有句子標(biāo)點符號的簡單句;因此,TCNCorpus每個句子的形式為Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、阿拉伯?dāng)?shù)字、英文單詞或字母;posi是其對應(yīng)的詞性;步驟B,識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb:對TCNCorpus中的每條語句Si,對Si中的情形分別按照以下子步驟處理:步驟B1:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/vWi,3/vWi,4/posi,4”的子串,并且posi,1≠v,即posi,4不是v、f、a或d任何之一,那么將“Wi,2/vWi,3/v”放入Tmp_Verb中;所述“Wi,2/vWi,3/v”,表示將來自于Si的“Wi,2Wi,3”視著一個可能的新動詞;步驟B2:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/vWi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么將“Wi,2/vWi,3/posi,3”放入Tmp_Verb中;步驟C:驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult。步驟B輸出的新動詞集合Tmp_Verb中的動詞具有一定的正確性,但是仍然需要進(jìn)一步地驗證。為了確保所獲取的新動詞是準(zhǔn)確的,我們將種子詞典規(guī)定為由多個二元對<詞語,詞性組>構(gòu)成的資源,其中詞性組是多個詞性符號的序列,也即一個詞語可以有多個詞性;為了便于下文描述,我們將Tmp_Verb中的元素統(tǒng)一地表示為“Wi,2/vWi,3/posi,3”,其中posi,3∈{v,f,a,d};這種形式概括步驟B1和步驟B2的輸出結(jié)果;驗證的方式為:要確認(rèn)“Wi,2/vWi,3/posi,3”構(gòu)成的新動詞“Wi,2Wi,3”是一個正確的新動詞,首先針對Wi,2進(jìn)行確認(rèn),即在漢語種子詞典中確認(rèn)兩個條件:(1)Wi,2是否具有動詞的詞性?(2)是否有以Wi,2做詞頭的詞語;如果上述條件的答案是肯定的;在針對Wi,3采用類似的方式進(jìn)行分析,即在漢語種子詞典中確認(rèn)兩個條件:(1)Wi,3是否具有posi,3的詞性?(2)是否有以Wi,3做詞尾的詞語;如果上述條件的答案是肯定的,將驗證過的新動詞放置在集合VerbResult中;步驟D:輸出新動詞集合VerbResult。所述的步驟C具體包括以下內(nèi)容:步驟C1:VerbResult={};步驟C2:Tmp_Verb為空,則驗證結(jié)束,并且調(diào)用模塊D,輸出VerbResult。否則,從Tmp_Verb中任意取出一個元素“Wi,2/vWi,3/posi,3”;步驟C3:W2Support=0;步驟C4:如果在漢語種子詞典中Wi,2具有動詞的詞性,那么W2Support=在漢語種子詞典中存在以Wi,2做詞頭的詞語的個數(shù);步驟C5:W3Support=0;步驟C6:如果在漢語種子詞典中Wi,3具有posi,3的詞性,那么W3Support=在漢語種子詞典中存在以Wi,3做詞尾的詞語的個數(shù);步驟C7:如果W2Support=0或者W3Support=0,則轉(zhuǎn)步驟C2;所述條件“W2Support=0或者W3Support=0”表明,在漢語種子詞典中沒有找到“Wi,2Wi,3”是正確的新動詞的證據(jù),從而放棄“Wi,2Wi,3”;步驟C8:計算步驟C9:如果Score(Wi,2Wi,3)≥4,則將“Wi,2Wi,3”放入VerbResult中。有益效果:本專利技術(shù)提出了一種利用漢語種子詞典中的詞語的信息,對從漢語語料中獲得新動詞進(jìn)行識別。漢語種子詞典中的詞語的信息包括詞性、詞頭、詞尾、統(tǒng)計信息等。在經(jīng)過160GB的純文本語料的測試驗證后,本專利技術(shù)的系統(tǒng)獲得了41012個新的漢語動詞。經(jīng)過準(zhǔn)確性分析,結(jié)果顯示96.9%的新動詞為正確的漢語動詞。因此,本專利技術(shù)的系統(tǒng)取得了優(yōu)異的識別性能,解決了漢語新動詞識別問題,并為其它的漢語應(yīng)用系統(tǒng)的開發(fā)提供了基礎(chǔ)。附圖說明圖1是一種漢語新動詞識別系統(tǒng)和方法工作流程圖。圖2是新動詞識別系統(tǒng)和方法中的步驟B1的示例。圖3是新動詞識別系統(tǒng)和方法中的步驟B2的示例之一。圖4是新動詞識別系統(tǒng)和方法中的步驟B2的示例之二。具體實施方式為了能夠更清楚的說明本專利技術(shù),以下定義并解釋如下的術(shù)語:(1)ICTCLAS系統(tǒng):一個免費的、開源的分詞系統(tǒng),本專利技術(shù)采用的是2012年版本的ICTCLAS。ICTCLAS系統(tǒng)以文本為輸入,輸出為該文本的分詞序列。ICTCLAS系統(tǒng)下載網(wǎng)址為:http://ictclas.nlpir.org。分詞后,每個分詞標(biāo)有詞性,其中a表示形容詞、b表示區(qū)別詞、c表示連詞、d表示副詞、h表示前綴詞、j表示簡稱詞、k表示后綴詞、m表示數(shù)詞、n表示名詞、p表示介詞、q表示量詞、r表示代詞、u表示助詞、z表示狀態(tài)詞,等等。(2)漢語種子詞典:由一組人們?nèi)粘I钍褂玫脑~語構(gòu)成的詞典。例如,《新華詞典》、金山詞霸就是很好的例子。為了便于下面的描述,我們將種子詞典規(guī)定為由多個二元本文檔來自技高網(wǎng)...
    一種<a  title="一種漢語新動詞識別方法原文來自X技術(shù)">漢語新動詞識別方法</a>

    【技術(shù)保護(hù)點】
    一種漢語新動詞識別系統(tǒng),其特征在于:包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus的模塊A;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb的模塊B;驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult的模塊C;輸出新動詞集合VerbResult的模塊D。

    【技術(shù)特征摘要】
    1.一種漢語新動詞識別系統(tǒng),其特征在于:包括對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus的模塊A;識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb的模塊B;驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult的模塊C;輸出新動詞集合VerbResult的模塊D。2.一種漢語新動詞識別系統(tǒng)和方法,其特征在于:包括以下步驟步驟A,對原始訓(xùn)練語料庫CNCorpus進(jìn)行分詞,形成分詞語料庫TCNCorpus:對CNCorpus中的每篇輸入文本D進(jìn)行分詞,分詞的工具采用開源的ICTCLAS系統(tǒng);為了便于處理,分詞后,將每篇文本按照句子標(biāo)點符號進(jìn)行分拆,形成不含有句子標(biāo)點符號的簡單句;因此,TCNCorpus每個句子的形式為Si=“W1/pos1W2/pos2…Wi/posi…Wn/posn”,其中每個Wi是一個漢語詞、漢字、阿拉伯?dāng)?shù)字、英文單詞或字母;posi是其對應(yīng)的詞性;步驟B,識別分詞語料庫TCNCorpus中的可能的新動詞,形成結(jié)果集合Tmp_Verb:對TCNCorpus中的每條語句Si,對Si中的情形分別按照以下子步驟處理:步驟B1:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/vWi,3/vWi,4/posi,4”的子串,并且posi,1≠v,即posi,4不是v、f、a或d任何之一,那么將“Wi,2/vWi,3/v”放入Tmp_Verb中;所述“Wi,2/vWi,3/v”,表示將來自于Si的“Wi,2Wi,3”視著一個可能的新動詞;步驟B2:如果Si中出現(xiàn)“Wi,1/posi,1Wi,2/vWi,3/posi,3”的子串,并且posi,1≠v,posi,3∈{f,a,d},即posi,3是f、a或者d之一,那么將“Wi,2/vWi,3/posi,3”放入Tmp_Verb中;步驟C:驗證集合Tmp_Verb中的新動詞,形成結(jié)果集合VerbResult。步驟B輸出的新動詞集合Tmp_Verb中的動詞具有一定的正確性,但是仍然需要進(jìn)一步地驗證。為了確保所獲取的新動詞是準(zhǔn)確的,我們將種子詞典規(guī)定為由多個二...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王衛(wèi)明符建輝
    申請(專利權(quán))人:鎮(zhèn)江諾尼基智能技術(shù)有限公司
    類型:發(fā)明
    國別省市:江蘇,32

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产AV无码专区亚洲Av| 波多野结衣AV无码久久一区 | 亚洲精品~无码抽插| 国产乱子伦精品无码码专区| 国产乱妇无码大片在线观看| 国产激情无码一区二区三区| 中文字幕人成无码人妻| 成年无码av片在线| 日韩av无码中文字幕| 国产成人无码精品久久久久免费| 性无码专区无码片| 在线a亚洲v天堂网2019无码| 国产精品无码2021在线观看| 无码国产伦一区二区三区视频| 免费人成无码大片在线观看| 久久人妻无码中文字幕| 亚洲精品无码精品mV在线观看| 亚洲AV无码成人精品区大在线| 色欲AV永久无码精品无码| 久久久久av无码免费网| 久久午夜夜伦鲁鲁片免费无码影视 | 国产成人精品无码免费看| 国产精品99无码一区二区| 精品久久久久久无码中文字幕漫画| 久久亚洲AV成人无码软件| 无码丰满少妇2在线观看| 国产在线无码不卡影视影院 | 岛国无码av不卡一区二区| 少妇无码?V无码专区在线观看| 2019亚洲午夜无码天堂| 亚洲另类无码一区二区三区| 人妻无码一区二区不卡无码av| 日韩爆乳一区二区无码| 中文AV人妻AV无码中文视频 | 亚洲中文字幕在线无码一区二区| 亚洲AV综合色区无码一区爱AV| 亚洲精品无码MV在线观看| 亚洲精品无码久久一线| 久久久无码精品亚洲日韩蜜臀浪潮| 亚洲AV无码成人精品区在线观看| 亚洲AV无码第一区二区三区|