【技術實現步驟摘要】
本專利技術涉及機器翻譯領域,尤其涉及機器翻譯中抽取調序模板的方法及系統。
技術介紹
翻譯模板是機器翻譯中常用的指導翻譯的知識表示形式,描述從源語言翻譯到目 標語言時所需遵循的對應關系。翻譯模板為源語言端和目標語言端的常量和變量組成的字 符串,而且源語言和目標語言字符串的各部分一一對應。 —個漢語_英語的簡單翻譯模板舉例 今天X。 X today. 模板中的常量即指語言片段,也稱終結符,如上例中的今天,對應today;。 對應.。變量即指用X代表的部分,也稱非終結符。非終結符為在抽取過程中對終結符 序列進行替換得到。 由于源語言和目標語言的順序通常不一致,翻譯模板又分為順序模板和調序模板 兩類。順序模板中的所有對應部分在源語言和目標語言中順序一致,而調序模板則描述了 源語言和目標語言翻譯對順序不一致的情況。 翻譯模板可以由手工構建,也可以從雙語語料中自動抽取。由于手工構建的模板 成本較高,而且匹配時容易發生沖突,在現有技術的機器翻譯系統中一般使用從雙語語料 中自動抽取方法抽取翻譯模板。 盡管自動抽取翻譯模板成本低,容易在機器翻譯系統中使用,但是由于翻譯模板的非終結符通過替換多種終結符序列得到,造成自動抽取模板的數量巨大,現有技術中為了保證機器翻譯系統的效率,通常對抽取翻譯模板具有多種限制,例如,對抽取翻譯模板的句子部分的長度限制,對翻譯模板源語言端和目標語言端長度的限制等。 在機器翻譯中,調序問題是指由于源語言和目標語言詞序通常不一致,需要在翻譯過程中對目標語言進行重排序的問題。它是機器翻譯的核心問題之一,因為好的機器翻譯結果必須具有正確的目標語言順 ...
【技術保護點】
一種機器翻譯中抽取調序模板的方法,其特征在于,包括: 步驟1,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性標注; 步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例; 步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所述變量部分替換為變量。
【技術特征摘要】
一種機器翻譯中抽取調序模板的方法,其特征在于,包括步驟1,輸入雙語對齊語料,對所述雙語對齊語料中的源語言部分進行分詞和詞性標注;步驟2,對雙語對齊語料中每一個雙語句對,進行調序分析,抽取出調序實例;步驟3,對于每個所述調序實例,根據所述調序實例中的詞對在源語言和目標語言中位置,將所述調序實例劃分為兩部分,對于每個部分,根據詞性標注確定變量部分,將所述變量部分替換為變量。2. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟2進一 步為,步驟21,對每一個雙語句對,將所述雙語句對中滿足條件的句塊對抽取為調序實例;所述條件為所述句塊對滿足詞語對齊一致性,所述句塊對包括兩個相鄰的子句塊對, 并且所述兩個子句塊對的源語言部分在所述句塊對的源語言語言部分的順序與所述兩個 子句塊對的目標語言部分在所述句塊對的目標語言部分的順序相反,且不能通過延伸所述 兩個子句塊對中的任一子句塊對得到滿足詞語對齊一致性的新子句塊對。3. 如權利要求2所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3進一 步為,步驟31,對于每個所述調序實例,根據調序實例中詞對在源語言和目標語言中的位置 確定調序的分界,從所述分界處將所述調序實例劃分為兩部分;步驟32,對于每個部分,根據詞性標注在所述部分的源語言部分中查找滿足條件的句 段,選擇滿足條件的句段中最長的句段作為所述部分的源語言部分的變量部分,以所述句 段根據詞對齊確定的在目標語言部分中對應的句段為所述部分的目標語言部分的變量部 分,將源語言部分和目標語言部分的變量部分替換為變量,以形成調序模板;所述條件為句段的第一個詞和最后一個詞為實詞,并且所述句段和所述句段在所述部 分的目標語言部分中的對應句段滿足詞語對齊一致性。4. 如權利要求2所述的機器翻譯中抽取調序模板的方法,其特征在于, 所述步驟21還包括,步驟41,對每一個雙語句對,根據雙語句對的調序實例間的包含關系,將所述調序實例 組成樹狀結構。5. 如權利要求4所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括,步驟51,如果變量部分包含調序實例,將所述變量部分替換為所述變量實例對應的調 序模板。6. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括步驟61 ,對雙語對齊語料應用最大似然估計法,計算每個詞對的翻譯概率,根據所述詞 對的翻譯概率計算所述調序模板的詞匯化概率。7. 如權利要求1所述的機器翻譯中抽取調序模板的方法,其特征在于,所述步驟3后還 包括步驟71,對每個所述調序模板,在所述雙語對齊語料中匹配所述調序模板的源語言部分和目標語言部分,獲得匹配次數和完全匹配次數;步驟72,根據所述匹配次數和完全匹配次數計算所述調序模板從目標語言到源語言的 翻譯概率和從源語言到目標語言的翻譯概率。8. —種機器翻譯中...
【專利技術屬性】
技術研發人員:蔡舒,
申請(專利權)人:中國科學院計算技術研究所,
類型:發明
國別省市:11[中國|北京]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。