根據一個實施例,一種裝置將第一語言的源句翻譯成第二語言的目標句。該裝置包括:源句轉換單元、翻譯單元、和命題轉換單元。源句轉換單元配置為從所述源句提取語法特征,以及將所述源句轉換成不包括語法特征的源命題。翻譯單元配置為將所述源命題翻譯成第二語言的目標命題。命題轉換單元配置為基于語法特征將所述目標命題轉換成目標句。
【技術實現步驟摘要】
相關專利申請的交叉引用本申請基于日本申請專利2011-207824(申請日2011年9月22),并要求其優先 權權益;其全部內容通過引用合并于此。
本專利技術的實施方式總體上涉及機器翻譯裝置及其方法。
技術介紹
近幾年,由于自然語言處理技術的發展,開發出將第一語言的源句翻譯成第二語 言的目標句的裝置。該裝置中,使用數據驅動類型和基于規則的類型,在數據驅動類型中基 于含有源語言句和目標語言句(彼此具有翻譯關系)的翻譯對的實例來翻譯,在基于規則 的類型中基于例如語法規則或翻譯規則來翻譯。特別地,這兩個規則廣泛用于實踐中。數 據驅動類型具有自然地表現翻譯結果的優點,基于規則的類型具有翻譯句的一致性高的優 點。然而,為了通過這些方法處理多種源語言句,對于數據驅動類型需要大量翻譯對 的實例,對于基于規則類型需要各種規則的完整配備。結果,開發成本變高。
技術實現思路
實施例提供一種機器翻譯裝置及其方法,用于以低開發成本處理源語言句的變 體。根據一個實施例,一種裝置將第一語言的源句翻譯成第二語言的目標句。該裝置 包括源句轉換單元、翻譯單元、和命題(proposition)轉換單元。源句轉換單元配置為從 源句提取語法特征,以及將所述源句轉換成不包括語法特征的源命題。翻譯單元配置為將 所述源命題翻譯成第二語言的目標命題。命題轉換單元配置為基于語法特征將所述目標命 題轉換成目標句。根據實施例,以低開發成本提供一種機器翻譯裝置及其方法,用于處理源語言句 的變體。附圖說明圖1是根據第一實施例的機器翻譯裝置的框圖。圖2是圖1中的機器翻譯裝置的硬件構成。圖3A和3B是根據第一實施例的源句的一個實例及其分析候選集合。圖4A和4B是根據第一實施例的語素詞典的一個實例。圖5是根據第一實施例的翻譯候選集合的一個實例。圖6是根據第一實施例的機器翻譯裝置的處理的流程圖。圖7A和7B是根據第一實施例的翻譯句和修改的表示信息的一個實例。圖8是根據第一實施例的第一修改的機器翻譯裝置的框圖。圖9是根據第一實施例的第二修改的機器翻譯裝置的框圖。具體實施方式以下,將參照附圖說明本專利技術的各個實施例。(第I實施例)關于第I實施方式,機器翻譯裝置將第一語言的源句翻譯成第二語言的目標句。 在以下說明中,第一語言是英語,第二語言是日語。然而,其對象語言不限于這兩個語言。圖1是根據第一實施例的機器翻譯裝置100的框圖。如圖1所示,機器翻譯裝置 100包括獲取單元101、源句轉換單元102、翻譯單元103、最似然候選選擇單元104、特征 編輯單元105、命題轉換單元106、表示單元107。獲取單元101獲取英語表示的源句。源句轉換單元102從源句提取語法特征,并將 源句轉換成不包括語法特征的源命題。翻譯單元103將源命題翻譯成目標命題。最似然候 選選擇單元104選擇具有最高分(由翻譯單元103計算)的一個目標命題及其語法特征。 特征編輯單元105編輯由最似然候選選擇單元104選擇的語法特征。命題轉換單元106基 于由特征編輯單元105編輯的語法特征將(由最似然候選選擇單元104選擇的)目標命題 轉換成日語表示的目標句。表示單元107表示日語的目標句。語法特征是源句中用于說話人的命題的主格識別或說話態度。第一實施例中,將 時態、體、形態、或語態用作語法特征。此外,命題是表示不包括語法特征的對象事物的句 子。源命題是相比于源句排除了變體的英語命題。目標命題是通過翻譯英語的命題獲取的 日語的命題。第一實施例的機器翻譯裝置中,從要翻譯的源句提取語法特征,并將源句翻譯成 不包括語法特征的源命題。然后,通過翻譯單元將源命題翻譯成目標命題。這個情況下,源 命題不具有變體。由此,可降低翻譯單元翻譯源命題的開發成本。此外,第一實施例的機器翻譯裝置中,基于編輯的語法特征,將目標命題轉換成目 標句。結果,可生成具有源句的變體的目標句和用戶期望的表示。(硬件組成)第一實施例的機器翻譯裝置包括利用圖2所示的常規計算機的硬件。例如CPU (中 央處理單元)的控制單元201控制所有裝置。例如R0M(只讀存儲器)或RAM(隨機存取存 儲器)的存儲單元202存儲各種數據和程序。例如HDD (硬盤驅動器)或CD (壓縮盤)驅 動設備的外部存儲單元203存儲各種數據和程序。例如鍵盤或鼠標的操作單元204接受來 自用戶的指示輸入。通信單元205控制與外部設備的通信。麥克風206獲取用戶的說話。 揚聲器207通過再現先語音波形輸出聲音。顯示器209顯示視頻??偩€連接上述單元。在這樣的硬件組件中,控制單元21執行存儲單元202 (例如ROM)或外部存儲單元 203中存儲的各種程序。結果,實現以下功能。(輸入單元)獲取單元101獲取英語的源句。用戶可經由操作單元204的鍵盤輸入源句。此外, 源句可通過識別經由麥克風206獲取的用戶語音來獲取。除此之外,可通過識別手寫字符 或來自與通信單元205連接的外部設備來獲取源句。(源句轉換單元)源句轉換單元102從(由獲取單元101獲取的)源句提取語法特征,并將源句轉換成不包括語法特征的源命題。通過使用形態分析技術、語法分析技術和指代解析技術,源句轉換單元102分析源句。然后,使用這個分析技術,源句轉換單元102從源句提取多個語法特征,并將源句轉換成多個源命題。這個情況下,作為形態分析技術,使用基于連接成本的分析方法和基于統計語言模型的分析方法。作為語法分析技術,使用CYK方法和一般LR 方法。第一實施例中,提取時態、體、形態、和語態作為語法特征,并且將排除語法特征的源句設置為源命題。這個情況下,相比于源句,源命題是排除了變體的表示。結果,可降低翻譯單元103翻譯源命題的開發成本。圖3A和3B是通過源句轉換單元102獲得的語法特征和源命題的一個實例。第一實施例中,源句轉換單元102輸出語法特征及其相關信息(表示信息)的多個組合,以及不包括語法特征的源命題,作為分析候選的集合。圖3A和3B中,從“Shall I have him call you back when returns ”(圖3A)的源句309,生成3個組合301 303。組合301包括源命題304和表示信息305。表示信息305包括語法特征308、標識符306以使得語法特征 308對應于源命題304的任何語素、以及由標識符306標識的源命題的語素307。在頭語素的標識符為“I”時,標識符306表示語素的位置。在這個例子中,語法特征308 “(現在時) (使役詞(主語he))(建議(主語I))(疑問)”對應于語素307 “calls”。源句轉換單元102基于圖4A和4B所示的語素詞典和語法詞典提取語法特征。例如,通過參照圖4A和4B的詞典,將源句“KAISEKISARETA”分析為 “KAISEKI · SURU · RERU · TA”。從這個句子,生成命題 “KAISEKISURU”和語法特征“(被動式)(過去時)”。此外,英語的源句“Shall I have him call you back when returns ” 中,“Shall I”分析為對應于“Shall N”,“have him call”分析為對應于“have N V”。由此,分別提取語法特征“(建議(主語I)) ”和“(本文檔來自技高網...
【技術保護點】
一種將第一語言的源句翻譯成第二語言的目標句的裝置,包括:源句轉換單元,配置為從所述源句提取語法特征,以及將所述源句轉換成不包括語法特征的源命題;翻譯單元,配置為將所述源命題翻譯成第二語言的目標命題;以及命題轉換單元,配置為基于語法特征將所述目標命題轉換成目標句。
【技術特征摘要】
2011.09.22 JP 207824/20111.一種將第一語言的源句翻譯成第二語言的目標句的裝置,包括 源句轉換單元,配置為從所述源句提取語法特征,以及將所述源句轉換成不包括語法特征的源命題; 翻譯單元,配置為將所述源命題翻譯成第二語言的目標命題;以及 命題轉換單元,配置為基于語法特征將所述目標命題轉換成目標句。2.如權利要求1所述的裝置,還包括 特征編輯單元,配置為編輯所述語法特征; 其中所述命題轉換單元基于編輯后的語法特征將所述目標命題轉換成目標句。3.如權利要求1所述的裝置,其中 所述源句轉換單元將所述源句...
【專利技術屬性】
技術研發人員:釜谷聰史,
申請(專利權)人:株式會社東芝,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。