• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    機器翻譯中抽取調序模板的方法及系統技術方案

    技術編號:4251567 閱讀:296 留言:0更新日期:2012-04-11 18:40
    本發明專利技術涉及機器翻譯中抽取調序模板的方法及系統,方法包括:步驟1,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性標注;步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例;步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所述變量部分替換為變量。本發明專利技術能夠消除現有技術中對抽取翻譯模板的限制,并能夠提取出多種調序模板以增加調序模板對于翻譯中調序現象的覆蓋率。

    【技術實現步驟摘要】

    本專利技術涉及機器翻譯領域,尤其涉及機器翻譯中抽取調序模板的方法及系統。
    技術介紹
    翻譯模板是機器翻譯中常用的指導翻譯的知識表示形式,描述從源語言翻譯到目 標語言時所需遵循的對應關系。翻譯模板為源語言端和目標語言端的常量和變量組成的字 符串,而且源語言和目標語言字符串的各部分一一對應。 —個漢語_英語的簡單翻譯模板舉例 今天X。 X today. 模板中的常量即指語言片段,也稱終結符,如上例中的今天,對應today;。 對應.。變量即指用X代表的部分,也稱非終結符。非終結符為在抽取過程中對終結符 序列進行替換得到。 由于源語言和目標語言的順序通常不一致,翻譯模板又分為順序模板和調序模板 兩類。順序模板中的所有對應部分在源語言和目標語言中順序一致,而調序模板則描述了 源語言和目標語言翻譯對順序不一致的情況。 翻譯模板可以由手工構建,也可以從雙語語料中自動抽取。由于手工構建的模板 成本較高,而且匹配時容易發生沖突,在現有技術的機器翻譯系統中一般使用從雙語語料 中自動抽取方法抽取翻譯模板。 盡管自動抽取翻譯模板成本低,容易在機器翻譯系統中使用,但是由于翻譯模板的非終結符通過替換多種終結符序列得到,造成自動抽取模板的數量巨大,現有技術中為了保證機器翻譯系統的效率,通常對抽取翻譯模板具有多種限制,例如,對抽取翻譯模板的句子部分的長度限制,對翻譯模板源語言端和目標語言端長度的限制等。 在機器翻譯中,調序問題是指由于源語言和目標語言詞序通常不一致,需要在翻譯過程中對目標語言進行重排序的問題。它是機器翻譯的核心問題之一,因為好的機器翻譯結果必須具有正確的目標語言順序。在使用自動抽取模板的統計機器翻譯系統中,調序通常通過匹配調序模板實現。但是,現有技術中機器翻譯系統中使用的翻譯模板由于抽取過程的種種限制,不能準確,完整地描述重排序現象;在機器翻譯過程中,由于計算翻譯模板調序代價巨大,在沒有合適的翻譯模板使用時,默認按照順序方式翻譯,從而造成錯誤調序。 所以,現有的調序模板自動抽取方法存在調序模板對于翻譯中調序現象覆蓋低的 問題。
    技術實現思路
    為解決上述問題,本專利技術提供了機器翻譯中抽取調序模板的方法及系統,能夠消 除現有技術中對抽取翻譯模板的限制,并能夠提取出多種調序模板以增加調序模板對于翻譯中調序現象的覆蓋率。 本專利技術公開了一種機器翻譯中抽取調序模板的方法,包括 步驟l,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性 標注; 步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例; 步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言 中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所 述變量部分替換為變量。 所述步驟2進一步為, 步驟21,對每一個雙語句對,將所述雙語句對中滿足條件的句塊對抽取為調序實 例; 所述條件為所述句塊對滿足詞語對齊一致性,所述句塊對包括兩個相鄰的子句塊對,并且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反,且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。 所述步驟3進一步為, 步驟31,對于每個所述調序實例,根據調序實例中詞對在源語言和目標語言中的 位置確定調序的分界,從所述分界處將所述調序實例劃分為兩部分; 步驟32,對于每個部分,根據詞性標注在所述部分的源語言部分中查找滿足條件的句段,選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分,以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分,將源語言部分和目標語言部分的變量部分替換為變量,以形成調序模板; 所述條件為句段的第一個詞和最后一個詞為實詞,并且所述句段和所述句段在所述部分的目標語言部分中的對應句段滿足詞語對齊一致性。 所述步驟21還包括, 步驟41,對每一個雙語句對,根據雙語句對的調序實例間的包含關系,將所述調序實例組成樹狀結構。 所述步驟3后還包括, 步驟51,如果變量部分包含調序實例,將所述變量部分替換為所述變量實例對應 的調序模板。 所述步驟3后還包括 步驟61 ,對雙語對齊語料應用最大似然估計法,計算每個詞對的翻譯概率,根據所述詞對的翻譯概率計算所述調序模板的詞匯化概率。所述步驟3后還包括 步驟71,對每個所述調序模板,在所述雙語對齊語料中匹配所述調序模板的源語 言部分和目標語言部分,獲得匹配次數和完全匹配次數; 步驟72,根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語 言的翻譯概率和從源語言到目標語言的翻譯概率。 本專利技術還公開了一種機器翻譯中抽取調序模板的系統,包括 語料處理模塊,用于輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進 行分詞和詞性標注; 調序實例抽取模塊,用于對雙語對齊語料中每一個雙語句對,進行調序分析,抽取 出調序實例; 調序模板生成模塊,用于對于每個所述調序實例,根據所述調序實例中的詞對在 源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確 定變量部分,將所述變量部分替換為變量。 所述調序實例抽取模塊進一步用于對每一個雙語句對,將所述雙語句對中滿足條 件的句塊對抽取為調序實例; 所述條件為所述句塊對滿足詞語對齊一致性,所述句塊對包括兩個相鄰的子句塊對,并且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反,且不能通過延伸所述兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。 所述調序模板生成模塊進一步用于對于每個所述調序實例,根據調序實例中詞對在源語言和目標語言中的位置確定調序的分界,從所述分界處將所述調序實例劃分為兩部分;對于每個部分,根據詞性標注在所述部分的源語言部分中查找滿足條件的句段,選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分,以所述句段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部分,將源語言部分和目標語言部分的變量部分替換為變量,以形成調序模板; 所述條件為句段的第一個詞和最后一個詞為實詞,并且所述句段和所述句段在所 述部分的目標語言部分中的對應句段滿足詞語對齊一致性。 所述調序實例抽取模塊還用于對每一個雙語句對,根據雙語句對的調序實例間的 包含關系,將所述調序實例組成樹狀結構。 所述調序模板生成模塊還用于在變量部分包含調序實例時,將所述變量部分替換為所述變量實例對應的調序模板。 所述系統還包括 概率生成模塊,用于對雙語對齊語料應用最大似然估計法,計算每個詞對的翻譯 概率,根據所述詞對的翻譯概率計算所述調序模板的詞匯化概率。 所述系統還包括 概率生成模塊,用于對每個所述調序模板,在所述雙語對齊語料中匹配所述調序 模板的源語言部分和目標語言部分,獲得匹配次數和完全匹配次數;根據所述匹配次數和 完全匹配次數計算所述調序模板從目標語言到源語言的翻譯概率和從源語言到目標語言 的翻譯概率。 本專利技術的有益效果在于,在調序模板抽取時沒有長度限制,本文檔來自技高網
    ...

    【技術保護點】
    一種機器翻譯中抽取調序模板的方法,其特征在于,包括:    步驟1,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性標注;    步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例;    步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所述變量部分替換為變量。

    【技術特征摘要】
    一種機器翻譯中抽取調序模板的方法,其特征在于,包括步驟1,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性標注;步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例;步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所述變量部分替換為變量。2. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟2進一 步為,步驟21,對每一個雙語句對,將所述雙語句對中滿足條件的句塊對抽取為調序實例;所述條件為所述句塊對滿足詞語對齊一致性,所述句塊對包括兩個相鄰的子句塊對, 并且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個 子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反,且不能通過延伸所述 兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。3. 如權利要求2所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3進一 步為,步驟31,對于每個所述調序實例,根據調序實例中詞對在源語言和目標語言中的位置 確定調序的分界,從所述分界處將所述調序實例劃分為兩部分;步驟32,對于每個部分,根據詞性標注在所述部分的源語言部分中查找滿足條件的句 段,選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分,以所述句 段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部 分,將源語言部分和目標語言部分的變量部分替換為變量,以形成調序模板;所述條件為句段的第一個詞和最后一個詞為實詞,并且所述句段和所述句段在所述部 分的目標語言部分中的對應句段滿足詞語對齊一致性。4. 如權利要求2所述的機器翻譯中抽取調序模板的方法,其特征在于, 所述步驟21還包括,步驟41,對每一個雙語句對,根據雙語句對的調序實例間的包含關系,將所述調序實例 組成樹狀結構。5. 如權利要求4所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括,步驟51,如果變量部分包含調序實例,將所述變量部分替換為所述變量實例對應的調 序模板。6. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括步驟61 ,對雙語對齊語料應用最大似然估計法,計算每個詞對的翻譯概率,根據所述詞 對的翻譯概率計算所述調序模板的詞匯化概率。7. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括步驟71,對每個所述調序模板,在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分,獲得匹配次數和完全匹配次數;步驟72,根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的 翻譯概率和從源語言到目標語言的翻譯概率。8. —種機器翻譯中...

    【專利技術屬性】
    技術研發人員:蔡舒,
    申請(專利權)人:中國科學院計算技術研究所,
    類型:發明
    國別省市:11[中國|北京]

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 精品无码久久久久国产动漫3d| 人妻无码αv中文字幕久久 | 亚洲中文字幕无码一久久区| 精品无码三级在线观看视频| 人妻中文字幕无码专区| 亚洲另类无码专区首页| 亚洲欧洲日产国码无码网站| 久久亚洲AV成人无码软件| 午夜无码中文字幕在线播放| 久久精品中文字幕无码绿巨人| 亚洲午夜无码片在线观看影院猛| 在线观看亚洲AV每日更新无码 | 久久精品无码一区二区三区免费| 久久中文字幕无码专区| 亚洲av无码日韩av无码网站冲| 国产精品无码a∨精品| 亚洲精品无码专区久久同性男| 亚洲av无码兔费综合| 精品亚洲AV无码一区二区| 亚洲av激情无码专区在线播放| 久久无码AV中文出轨人妻| 无码人妻丰满熟妇区五十路| 亚洲中文字幕久久精品无码2021| 亚洲AV无码国产丝袜在线观看| 久久久久久无码国产精品中文字幕| 性色av无码免费一区二区三区 | 久久精品中文无码资源站| 亚洲欧洲日产国码无码久久99| 国产精品亚洲αv天堂无码 | 亚洲AV日韩AV永久无码下载| 国产在线拍揄自揄拍无码 | 久久中文精品无码中文字幕| 无码国模国产在线无码精品国产自在久国产| 中文字幕无码乱码人妻系列蜜桃| 久久久久亚洲AV无码专区首JN | 国产产无码乱码精品久久鸭| 精品无码一级毛片免费视频观看| 亚洲自偷自偷偷色无码中文| 亚洲av无码专区在线播放| 国产V亚洲V天堂无码久久久| 无码H肉动漫在线观看|