• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種實現領域自適應的統計機器翻譯方法技術

    技術編號:15690855 閱讀:87 留言:0更新日期:2017-06-24 03:35
    本發明專利技術公開了一種實現領域自適應的統計機器翻譯方法,本翻譯方法將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,通過得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;計算每個領域位置點的領域影響權重之和;比較后得出最高領域影響權重之和的領域位置點,在該知識領域內,根據名詞詞典,確定對應的翻譯詞匯。本統計機器翻譯方法通過模擬人腦知識架構體系,讓計算機可以學習人類閱讀文字分析相關領域的方法,從而實現計算機對文字知識進行領域識別,從而實現機器翻譯的領域自適應功能,從而提高翻譯準確性。

    A statistical Machine Translation method for domain adaptation

    The invention discloses a method for realizing domain adaptive statistical Machine Translation method, this translation method in English noun and noun phrase all in accordance with the existing knowledge system, knowledge system tree structure diagram to establish computer identification, obtained by English noun and noun phrase all has its corresponding knowledge hierarchy tree; calculating points of each field and field effect weight; compared the highest point of the field of field effect and weight, in the field of knowledge, according to the dictionary, to determine the corresponding vocabulary translation. The statistical method of Machine Translation is to simulate the human brain architecture knowledge, let the computer can learn human reading text analysis methods in the related fields, so as to realize the recognition of the text field of computer knowledge, so as to realize the adaptive function of Machine Translation field, so as to improve the accuracy of translation.

    【技術實現步驟摘要】
    一種實現領域自適應的統計機器翻譯方法
    本專利技術屬于的統計機器翻譯
    ,具體地說,涉及一種實現領域自適應的統計機器翻譯方法。
    技術介紹
    統計機器翻譯是當今使用的最流行的機器翻譯。它的工作方式是使用非常龐大的平行文本以及單語語料庫訓練翻譯引擎。系統會尋找源文本和譯文之間的統計相關性。然后對源語言句子,去查找概率最大的譯文。翻譯引擎本身沒有規則或語法概念。統計機器翻譯的主要缺點是,如果在翻譯訓練語料庫中沒有相似的資料的文本時,得出的譯文不行。例如,一個使用技術文本訓練的翻譯引擎,在翻譯口語化的文本時效果會很差。因此,需要持續使用與待翻譯材料相似的文本來訓練引擎。但即使有龐大合適的訓練語料,統計機器翻譯通常也不能生成出版質量的文本。統計機器翻譯經常是在不管上下文的情況下翻譯原文,缺乏對上下文語境及專業領域的相關性。統計機器翻譯的難點在于領域遷移和自適應。訓練機器翻譯系統的原始數據可能來自寬泛的各個領域,遇見某個具體領域生僻的詞語、句型時,如何快速遷移,以得到高水平的翻譯頗為不易,因為這些領域的語料庫掌握得少,遷移時知識不足。目前幾家著名的在線翻譯系統,新聞翻譯尚可勝任(因為新聞語料最多),但對銀行、法律這些語料稀缺的領域,自適應能力則薄弱許多。
    技術實現思路
    針對現有技術中上述的不足,本專利技術提供一種實現領域自適應的統計機器翻譯方法,本翻譯方法通過上下文知識樹計算出相關的領域,從而為每個名詞選擇相應領域的對應譯法,增強翻譯方法的自適應能力,提高翻譯準確性。為了達到上述目的,本專利技術采用的解決方案是:一種實現領域自適應的統計機器翻譯方法,包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:中文英文知識樹層級(level)領域影響權重(weight):nn+k由此得到所有的中英對照的名詞及名詞短語具有它對應的領域影響權重;c、計算每個領域位置點的領域影響權重之和;d、比較各個領域位置點的領域影響權重之和,得出最高領域影響權重之和的領域位置點,即該段文字所相關的知識領域;e、在該知識領域內,根據名詞詞典,確定對應的翻譯詞匯。優選地,在步驟b中,針對一詞多義的名詞,則將該名詞分布在不同意義所針對的領域位置點上,且該名詞在每個領域位置點的領域影響權重為(n+k)/x,x為該名詞涉及的領域數量。優選地,k=-0.5。本專利技術的有益效果是,本統計機器翻譯方法通過模擬人腦知識架構體系,讓計算機可以學習人類閱讀文字分析相關領域的方法,從而實現計算機對文字知識進行領域識別,從而實現機器翻譯的領域自適應功能,從而提高翻譯準確性。具體實施方式以下對本專利技術作進一步描述:本專利技術提供一種實現領域自適應的統計機器翻譯方法,包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;通用性名詞通常不影響上下文領域,而細分的行業名詞對領域有較高影響,更加細分的行業領域的詞匯,對上下文領域有更高的影響度;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:中文英文知識樹層級(level)領域影響權重(weight):nn+k由此得到所有的中英對照的名詞及名詞短語具有它對應的領域影響權重;針對一詞多義的名詞,則將該名詞分布在不同意義所針對的領域位置點上,且該名詞在每個領域位置點的領域影響權重為(n+k)/x,x為該名詞涉及的領域數量,k=-0.5;c、計算每個領域位置點的領域影響權重之和;d、比較各個領域位置點的領域影響權重之和,得出最高領域影響權重之和的領域位置點,即該段文字所相關的知識領域;e、在該知識領域內,根據名詞詞典,確定對應的翻譯詞匯。本統計機器翻譯方法通過模擬人腦知識架構體系,讓計算機可以學習人類閱讀文字分析相關領域的方法,從而實現計算機對文字知識進行領域識別,從而實現機器翻譯的領域自適應功能,從而提高翻譯準確性。本文檔來自技高網...

    【技術保護點】
    一種實現領域自適應的統計機器翻譯方法,其特征是:包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:

    【技術特征摘要】
    1.一種實現領域自適應的統計機器翻譯方法,其特征是:包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:中文英文...

    【專利技術屬性】
    技術研發人員:梁如昕
    申請(專利權)人:成都佳音多語信息技術有限公司
    類型:發明
    國別省市:四川,51

    相關技術
      暫無相關專利
    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 67194成是人免费无码| 亚洲桃色AV无码| 中文无码字幕中文有码字幕| 无码一区二区三区| 一本色道无码道DVD在线观看| 曰产无码久久久久久精品| 国产成人无码精品久久久免费| 成人A片产无码免费视频在线观看| 成人无码A区在线观看视频| 婷婷四虎东京热无码群交双飞视频| 亚洲伊人成无码综合网| 日韩人妻无码一区二区三区99| 成人免费无码大片A毛片抽搐| 久久久久久AV无码免费网站下载| 在线无码视频观看草草视频| 亚洲av无码片在线播放| 国产精品毛片无码| 人妻少妇精品无码专区漫画| 久久人妻少妇嫩草AV无码专区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 亚洲的天堂av无码| 国产羞羞的视频在线观看 国产一级无码视频在线 | 色综合AV综合无码综合网站| 小泽玛丽无码视频一区| 爆乳无码AV一区二区三区| 久久Av无码精品人妻系列| 国产50部艳色禁片无码| 中文字幕无码免费久久| 无码人妻少妇久久中文字幕 | 人妻在线无码一区二区三区| 久久亚洲AV成人无码软件| 亚洲AV无码第一区二区三区| 狠狠躁天天躁中文字幕无码| 无码人妻丰满熟妇啪啪| 下载天堂国产AV成人无码精品网站 | 亚洲成a人在线看天堂无码| 无码视频一区二区三区| 国产怡春院无码一区二区| 国产成人无码精品久久久小说| 人妻丰满熟妇AV无码区| 精品无码成人久久久久久|