The invention discloses a method for realizing domain adaptive statistical Machine Translation method, this translation method in English noun and noun phrase all in accordance with the existing knowledge system, knowledge system tree structure diagram to establish computer identification, obtained by English noun and noun phrase all has its corresponding knowledge hierarchy tree; calculating points of each field and field effect weight; compared the highest point of the field of field effect and weight, in the field of knowledge, according to the dictionary, to determine the corresponding vocabulary translation. The statistical method of Machine Translation is to simulate the human brain architecture knowledge, let the computer can learn human reading text analysis methods in the related fields, so as to realize the recognition of the text field of computer knowledge, so as to realize the adaptive function of Machine Translation field, so as to improve the accuracy of translation.
【技術實現步驟摘要】
一種實現領域自適應的統計機器翻譯方法
本專利技術屬于的統計機器翻譯
,具體地說,涉及一種實現領域自適應的統計機器翻譯方法。
技術介紹
統計機器翻譯是當今使用的最流行的機器翻譯。它的工作方式是使用非常龐大的平行文本以及單語語料庫訓練翻譯引擎。系統會尋找源文本和譯文之間的統計相關性。然后對源語言句子,去查找概率最大的譯文。翻譯引擎本身沒有規則或語法概念。統計機器翻譯的主要缺點是,如果在翻譯訓練語料庫中沒有相似的資料的文本時,得出的譯文不行。例如,一個使用技術文本訓練的翻譯引擎,在翻譯口語化的文本時效果會很差。因此,需要持續使用與待翻譯材料相似的文本來訓練引擎。但即使有龐大合適的訓練語料,統計機器翻譯通常也不能生成出版質量的文本。統計機器翻譯經常是在不管上下文的情況下翻譯原文,缺乏對上下文語境及專業領域的相關性。統計機器翻譯的難點在于領域遷移和自適應。訓練機器翻譯系統的原始數據可能來自寬泛的各個領域,遇見某個具體領域生僻的詞語、句型時,如何快速遷移,以得到高水平的翻譯頗為不易,因為這些領域的語料庫掌握得少,遷移時知識不足。目前幾家著名的在線翻譯系統,新聞翻譯尚可勝任(因為新聞語料最多),但對銀行、法律這些語料稀缺的領域,自適應能力則薄弱許多。
技術實現思路
針對現有技術中上述的不足,本專利技術提供一種實現領域自適應的統計機器翻譯方法,本翻譯方法通過上下文知識樹計算出相關的領域,從而為每個名詞選擇相應領域的對應譯法,增強翻譯方法的自適應能力,提高翻譯準確性。為了達到上述目的,本專利技術采用的解決方案是:一種實現領域自適應的統計機器翻譯方法,包括以下步驟,a、將所 ...
【技術保護點】
一種實現領域自適應的統計機器翻譯方法,其特征是:包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:
【技術特征摘要】
1.一種實現領域自適應的統計機器翻譯方法,其特征是:包括以下步驟,a、將所有的中英對照的名詞及名詞短語依照現有的知識體系,建立電腦可識別的知識體系樹狀結構圖,所述的知識體系樹狀結構圖包括若干依次排列且逐層細分的層級,層級的標號從1開始直至n;所述的中英對照的名詞及名詞短語分為通用名詞和行業名詞,通用名詞屬于第1層,行業名詞從第2層開始按領域逐層細分;所述的知識體系樹狀結構圖包括所有的由大及小的領域名稱以及該領域內的名詞及名詞短語,該領域內的名詞及名詞短語設置在該領域名稱的下屬層級內,領域名稱形成領域位置點;由此得到所有的中英對照的名詞及名詞短語具有它對應的知識樹層級;b、建立電腦可識別的中英對照的名詞及名詞短語數據庫,數據庫如下:中文英文...
【專利技術屬性】
技術研發人員:梁如昕,
申請(專利權)人:成都佳音多語信息技術有限公司,
類型:發明
國別省市:四川,51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。