• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于詞綴的用于對未知詞進行語義分類的系統技術方案

    技術編號:8271390 閱讀:188 留言:0更新日期:2013-01-31 03:36
    本發明專利技術公開了一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊、未知詞詞綴分析模塊、相似詞選擇模塊、內容部分相似度計算模塊、存儲字典、相似度排列模塊、輸出模塊。本發明專利技術所述系統對其他系統輸出的結果進行分析,提高原有系統的分析精度。本發明專利技術尤其適用于對漢語未知詞的分析,根據本發明專利技術實現的未知詞語義分類系統獲得了良好的分析效果。

    【技術實現步驟摘要】
    本專利技術屬于自然語言處理
    ,涉及一種基于詞綴的用于對未知詞進行語義分類的系統。
    技術介紹
    通常,用戶能夠先獲得描述單詞的某些字典。這些字典可以描述單詞的出處(例如,通常在哪一段話中出現的等等)、語義類(例如人、事件、情感等等)、含義和例句等。對于那些沒有出現在字典中的詞我們稱為“未知詞”。一般而言,未知詞可以來源于某些新詞。在文本信息處理中,未知詞的出現常常會給用戶帶來麻煩,由于它的信息(例如例句、語義類等)的不足?!榻鉀Q上述麻煩,一種做法是用戶在未知詞出現時更新字典。但是這一做法在一般情況下很困難,原因如下(I)由于存在著很多的信息源(報紙、網絡等等),因此無法保證用戶在一未知詞首次出現時就捕捉到該詞;(2)由于字典是標準化的,對于任一未知詞都需要經過許多專家的審核、同意后才能寫入字典,因此這需要一段時間。鑒于此,對未知詞進行語義類別的猜測就成了一項很有必要的工作。本專利技術將關注語義類別信息。也就是,我們將試圖猜測未知詞的語義類別。
    技術實現思路
    本專利技術的目的在于克服上述技術缺陷,提供一種基于詞綴的用于對未知詞進行語義分類的系統。其技術方案為一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊該模塊主要用于接收來自系統外部由用戶輸入的未知詞;未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴;相似詞選擇模塊對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同詞綴部分的詞;內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度;相似詞分析模塊分析各個相似詞的構詞方式,針對其內容部分與其整體部分語義類的關系;存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合;相似度排列模塊根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類;輸出模塊用于輸出該未知詞的語義類。該系統完全基于未知詞的內容部分與相似詞內容部分的相似度,其詞綴部分對其語義類別沒有影響的情況。所述未知詞語義類的分類是完全基于同義詞詞林字典。該系統完全基于相似詞與未知詞是由其內容部分擴展而來的情況。本專利技術所述系統針對某一未知詞和其相似詞內容部分相似度的計算完全基于同義詞詞林相似度的計算。與現有技術相比,本專利技術的有益效果為本專利技術的方法基于詞綴研究未知詞的構詞規律,進而分析它的語義類別。也可以作為一個獨立的語法或語義成分識別系統對中文或其他基于字符的未知詞的語義分類,同時也可以與其他語言成分識別系統相結合,對其他系統輸出的結果進行分析,提高原有系 統的分析精度。本專利技術尤其適用于對漢語未知詞的分析,根據本專利技術實現的未知詞語義分類系統獲得了良好的分析效果。附圖說明圖I是本專利技術基于詞綴的用于對未知詞進行語義分類的系統結構框圖;圖2是示出本專利技術實施例I基于詞綴的未知詞語義分類的操作流程圖;圖3是示出本專利技術實施例2基于詞綴的未知詞語義分類的操作流程圖;圖4是示出本專利技術實施例3基于詞綴的未知詞語義分類的操作流出圖。具體實施例方式下面結合附圖與具體實施方式對本專利技術的技術方案作進一步詳細地說明。參照圖1,一種基于詞綴的用于對未知詞進行語義分類的系統,包括輸入模塊該模塊主要用于接收來自系統外部由用戶輸入的未知詞;未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴;相似詞選擇模塊對于所輸入的未知同,在同義詞詞林中查找與未知詞具有相同部分的詞;內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度;存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合;相似度排列模塊根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類;輸出模塊用于輸出該未知詞的語義類。實施例I圖2的過程開始于步驟201,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本專利技術實施例,將各相似詞的內容部分取出,并查找它們的語義類以滿足本專利技術的需要。在步驟204中,輸入一未知詞w = XY,步驟205中,從所收集的相似詞集合中選擇詞根A滿足A = X或A = Y的相似詞集合,然后經206裝置計算其內容部分的相似度,最后得到未知詞的語義類。舉例來說,對于一未知詞“攝像機”,在201裝置中選擇出其相似詞集合,如“照相機”、“飛機”等。在不同部分識別單元中將他們相同的詞綴部分“機”移除,并在不同部分存儲模塊中,以[wr, parti, part2] (wr表示未知詞w的相似詞,parti表示未知詞w的內容部分,part2表示相似詞wr的內容部分)。如[照相機,攝像,照相],[飛機,攝像,飛],等等。假定在同義詞林中,C(攝像)=Hg03, C(照相)=Hg03, C(飛)=IalO,C(照相機)=Bpl5,C(飛機)=Bo22,其中Hg03, I10,Bpl5為詞林中所定義的語義類。在相似度計算模塊206中計算未知詞和各相似詞內容部分的相似度,對于wr = “照相機”,S (攝像,照相)=I (其中S O表示計算兩個語義類的相似度),相似度存儲單元中以[Bpl5,1]的形式存儲其計算結果;對于wr = “飛機”,其內容部分相似度S(攝像,飛)=O. 1,將[Bo22,0. I]存儲相似度存儲模塊中。假設未知詞“攝像機”只有“照相機”和“飛機”這兩個相似詞,由于詞綴對其語義有很大影響的,因此語義類指定模塊將Bpl5作為未知詞“攝像機”的語義類。實施例2圖3的過程開始于步驟301,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本專利技術實施例,判斷它們是否是由內容部分擴展而來,若不是則按第一方法確 定未知詞的語義類,若是,則根據同義詞詞林查找它們內容部分的語義類,進而確定該未知詞的語義類。舉例來說,對于一未知詞“椅子”,從相似詞集合301中查找具有相同詞綴的詞(例如,帶子,鏡子等)存儲在相似詞存儲模塊中,由不同部分識別模塊移除他們的相同部分“子”,并在內容存儲模塊中以[帶子,椅,帶],[鏡子,椅,鏡]的形式存儲。假定在同義詞林字典中,C(椅)=8 26,((帶子)=C(帶)=8 25,((鏡子)=C(鏡)=BpOl,其中,Bp26,Bp25, BpOl為詞林中所定義的語義類。對于相似詞wr = “帶子”,由于C(帶子)=C(帶),詞綴“子”被認為是詞綴而存儲在詞綴存儲單元中。同時,將未知詞“椅子”的相同詞綴“子”移除,并將“椅”存儲在內容模塊中,由于C(椅)=Bp26,在加分模塊中為Bp26的分值加I。對于相似詞wr = “鏡子”,也將其詞綴“子”去掉,由加分模塊為Bp26的分值加I。假設未知詞“椅子”只有相似詞“帶子”和“鏡子”,由上述分析可將Bp26作為“椅子”的語義類。實施例3圖4的過程開始于步驟401,針對字典中的每個詞根A,收集其所有包含A的相似詞,這里根據本專利技術實施例,判斷其是否由內容部分擴展而來,若是則按第二方法計算它們內容部分的相似度;若否,則由相似度計算模塊405計算它們內容部分的相似度,并由語義類判別模塊406、407判斷該未知詞的語義類。舉例來說,對于一未知詞“廚子”,從存儲字典中查找具有相同詞綴的詞(例如,帶子,廚師等)存儲在相似詞存儲模塊中,由本文檔來自技高網...

    【技術保護點】
    一種基于詞綴的用于對未知詞進行語義分類的系統,其特征在于,包括:輸入模塊:用于接收來自系統外部由用戶輸入的未知詞;未知詞詞綴分析模塊:對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴;相似詞選擇模塊:對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同部分的詞;內容部分相似度計算模塊:根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度;存儲字典:用于存儲所輸入的未知詞和查找到的各個相似詞集合;相似度排列模塊:根據各相似詞的構詞方式基于同義詞詞林字典篩選出未知詞的語義類;輸出模塊:用于輸出該位置詞的語義類。

    【技術特征摘要】
    1.一種基于詞綴的用于對未知詞進行語義分類的系統,其特征在于,包括 輸入模塊用于接收來自系統外部由用戶輸入的未知詞; 未知詞詞綴分析模塊對于系統接收到的任何一個未知詞,將其按構詞規則分別拆分成兩個部分,每個部分都可作為詞綴; 相似詞選擇模塊對于所輸入的未知詞,在同義詞詞林中查找與未知詞具有相同部分的詞; 內容部分相似度計算模塊根據相似詞詞林字典中的語義分類,計算各個相似詞與該未知詞內容部分的語義的相似度; 存儲字典用于存儲所輸入的未知詞和查找到的各個相似詞集合; 相似度排列模塊根據各相似詞的構...

    【專利技術屬性】
    技術研發人員:趙涓涓,強彥,裴博楊建峰,
    申請(專利權)人:太原理工大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 麻豆亚洲AV成人无码久久精品| 久久久久久亚洲av成人无码国产| 曰韩精品无码一区二区三区 | 韩国精品一区二区三区无码视频 | 亚洲日韩精品无码专区加勒比☆| 精品无码一区二区三区爱欲| 无码人妻精品一区二区三区在线 | AV无码精品一区二区三区| 亚洲中文久久精品无码1| 午夜寂寞视频无码专区| 亚洲人成无码www久久久| 中文午夜乱理片无码| 人妻精品久久无码区| 久久精品无码一区二区三区| 无码av高潮喷水无码专区线| 亚洲精品97久久中文字幕无码| 亚洲中文字幕久久精品无码喷水| 18禁免费无码无遮挡不卡网站| 无码人妻少妇伦在线电影| 亚洲AV无码成人精品区天堂| 丰满爆乳无码一区二区三区| 日韩精品无码一区二区中文字幕 | 国产av无码专区亚洲av毛片搜| 亚洲av中文无码乱人伦在线咪咕 | 国产精品无码久久久久久久久久| 日韩人妻无码一区二区三区久久99| 白嫩少妇激情无码| 国产成人精品无码一区二区| 亚洲av无码不卡私人影院| 亚洲国产成人精品无码一区二区| YW尤物AV无码国产在线观看| 亚洲综合无码一区二区痴汉| 国产午夜精华无码网站| 国产成人精品无码专区| 日韩精品无码区免费专区 | 伊人久久精品无码麻豆一区| 国产成人午夜无码电影在线观看 | 人妻中文字系列无码专区| 宅男在线国产精品无码| 日韩精品无码Av一区二区| 人妻中文字幕AV无码专区|