• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于兩兩對齊的多語種句對齊方法及裝置制造方法及圖紙

    技術編號:9738672 閱讀:258 留言:0更新日期:2014-03-06 16:24
    基于兩兩對齊的多語種句對齊方法及裝置,屬于信息技術領域,尤其涉及信息技術領域互聯網語言翻譯系統中的多語種句對齊方法。本發明專利技術是為了解決在利用兩兩對齊方法進行多語種句對齊時,對齊結果不一致的問題。本發明專利技術所述的基于兩兩對齊的多語種句對齊方法及裝置,首先對不同語種文本中的句子進行兩兩對齊,獲得兩兩對齊結果,然后對該結果進行沖突識別并將沖突的部分標記出來,最后對沖突部分進行評分并重新進行兩兩對齊,從而使得多語種句對齊結果具有一致性,從而可以將兩兩對齊結果中部分對齊錯誤的錯誤結果更正過來。本發明專利技術所述的基于兩兩對齊的多語種句對齊方法及裝置,適用于信息技術領域互聯網語言翻譯系統中。

    【技術實現步驟摘要】
    基于兩兩對齊的多語種句對齊方法及裝置
    本專利技術屬于信息
    ,尤其涉及信息
    互聯網語言翻譯系統中的多語種句對齊方法。
    技術介紹
    平行雙語語料,是指第一種語言的文本數據是第二種語言的文本數據的譯文的兩種語言文本構成的數據集合。平行多語語料,是指含有多種語種的文本數據的集合,其中任意兩種語種的文本數據可以構成平行雙語語料。如果用第一種語言寫出的一個文檔恰為用第二種語言寫出的文檔的譯文,則稱這兩個文檔是平行的。如果用第一種語言寫出的文檔中的句子S1恰為用第二種語言寫出的文檔中句子S2的譯文,則稱這兩個句子是對齊的。在這個對齊中,第一種語言稱為源語言,第二種語言稱為目標語言,S1稱為源語言句子,S2稱為目標語言句子。兩個句子對齊的表示方法是給兩個句子分別標上不重復的整數N1和N2作為句子標識,對于對齊的句子用這兩個整數組成數對N1-N2來表示對齊關系。但對齊關系并不限于用這種方式表示。如果有m個不同語種的文檔,其中第i個語種的文檔中標識為Ni的句子Si,與第j個語種的文檔中標識為Nj的句子Sj互為譯文,則稱Si和Sj是兩兩對齊的。其中i和j的取值均為1..m。對于平行多語語料具有廣泛的需求,例如:它能夠作為統計機器翻譯的訓練語料,用于多個語種相互之間的翻譯,也可以用于跨語言信息檢索,在不同語種的文檔中檢索相關信息等。在這些需求中,如何提高句對齊的質量是目前迫切需要解決的問題。句對齊的質量常用下面三種標準來衡量。但句對齊質量并不限于僅用這三種標準衡量。1、準確率:是已經對齊正確的句對數和所有對齊的句對數之比;2、召回率:是已經對齊的句對數和所有句對數之比;3、F值:是準確率和召回率之積的兩倍除以準確率和召回率之和。這三種標準中,最后計算得到的值越大,則說明句對齊質量越高,反之則句對齊質量越低。但是,目前現有的方法都是用兩種語言的信息來進行不同語言句子之間的兩兩對齊,對于多語種的情況,一般也按照多個兩種語言的平行語料加以處理。由于對齊錯誤的存在,這種兩兩對齊的方法都可能導致以下兩個問題:1、對齊不一致的問題:以三個語種i,j,k為例,可能出現這樣的情況,存在句子Si,Sj,Sk,其中Si與Sj對齊,Sj與Sk對齊,但是Si卻不和Sk對齊,很顯然按照一般的邏輯推理Si,Sj,Sk要么兩兩對齊要么都不對齊。2、對齊質量的問題:由前述“對齊不一致問題”可知,由于正確的對齊沒有被識別出來,往往導致上述三種標準中的某一項或多項指標下降,如果“對齊不一致問題”得到解決,則能夠緩解該問題。
    技術實現思路
    本專利技術是為了解決在利用兩兩對齊方法進行多語種句對齊時,對齊結果不一致的問題,現提供基于兩兩對齊的多語種句對齊方法及裝置。基于兩兩對齊的多語種句對齊裝置,該裝置包括:用于獲取同一文件至少三種不同語言版本的文本的裝置;用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置;用于對不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊句子的集合A的裝置;用于對集合A中每組兩兩對齊句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的裝置;用于對差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對齊結果的裝置。基于兩兩對齊的多語種句對齊方法,該方法包括以下步驟:步驟一:用于獲取同一文件至少三種不同語言版本的文本的步驟;步驟二:用于分別對步驟一獲得的每個語種的文本進行句子分割,獲得不同語種待對齊的句子的步驟;步驟三:用于對步驟二獲得的不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊句子的集合A的步驟;步驟四:用于對步驟三獲得的集合A中每組兩兩對齊句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的步驟;步驟五:用于對步驟四獲得的差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對齊結果的步驟。本專利技術所述的基于兩兩對齊的多語種句對齊方法及裝置,首先對不同語種文本中的句子進行兩兩對齊,獲得兩兩對齊結果,然后對該結果進行沖突識別并將沖突的部分標記出來,最后對沖突部分進行評分并重新進行兩兩對齊,從而使得多語種句對齊結果具有一致性,從而可以將兩兩對齊結果中部分對齊錯誤的錯誤結果更正過來。本專利技術所述的基于兩兩對齊的多語種句對齊方法及裝置,對自然語言處理、文本信息處理具有促進作用,適用于信息
    互聯網語言翻譯系統中。附圖說明圖1是具體實施方式四所述基于兩兩對齊的多語種句對齊方法的流程圖。圖2是具體實施方式六所述對兩兩對齊結果中的差異部分進行識別的方法的流程圖。圖3是具體實施方式七所述的索引表的結構示意圖。具體實施方式具體實施方式一:本實施方式所述的基于兩兩對齊的多語種句對齊裝置,該裝置包括:用于獲取同一文件至少三種不同語言版本的文本的裝置;用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置;用于對不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊句子的集合A的裝置;用于對集合A中每組兩兩對齊句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的裝置;用于對差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對齊結果的裝置。具體實施方式二:本實施方式是對具體實施方式一所述的基于兩兩對齊的多語種句對齊裝置作進一步說明,本實施方式中,用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置進一步包括:用于將每個語種的文本中所有的時間標識和換行符刪除,獲得所有句子均合并為一行的文本的裝置;用于對文本中所有字符進行掃描,掃描所有表示語句結束的符號,然后根據所述符號將文本分割成若干條句子,每條句子作為一個獨立的單語種句子的裝置。具體實施方式三:本實施方式是對具體實施方式一所述的基于兩兩對齊的多語種句對齊裝置作進一步說明,本實施方式中,用于對兩兩對齊句子進行沖突識別的裝置進一步包括:用于將所有兩兩對齊的句子放入索引表中進行索引的裝置;用于判斷所有兩兩對齊的句子是否沖突,并將沖突的兩兩對齊句子標記為沖突的裝置。具體實施方式四:參照圖1具體說明本實施方式,基于兩兩對齊的多語種句對齊方法,該方法包括以下步驟:步驟一:用于獲取同一文件至少三種不同語言版本的文本的步驟;步驟二:用于分別對步驟一獲得的每個語種的文本進行句子分割,獲得不同語種待對齊的句子的步驟;步驟三:用于對步驟二獲得的不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊句子的集合A的步驟;步驟四:用于對步驟三獲得的集合A中每組兩兩對齊句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的步驟;步驟五:用于對步驟四獲得的差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對本文檔來自技高網
    ...
    基于兩兩對齊的多語種句對齊方法及裝置

    【技術保護點】
    基于兩兩對齊的多語種句對齊裝置,其特征在于,它包括:用于獲取同一文件至少三種不同語言版本的文本的裝置;用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置;用于對不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊句子的集合A的裝置;用于對集合A中每組兩兩對齊句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的裝置;用于對差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對齊結果的裝置。

    【技術特征摘要】
    1.基于兩兩對齊的多語種句對齊裝置,其特征在于,它包括:用于獲取同一文件至少三種不同語言版本的文本的裝置;用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置;用于對不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊的句子的集合A的裝置;用于對集合A中每組兩兩對齊的句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的裝置;用于對差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊的結果集合B,將A的非差異部分與B合在一起,獲得全部句對齊結果的裝置;該裝置中對差異部分進行評分并重新進行兩兩對齊,使得多語種句對齊結果具有一致性,進而將兩兩對齊結果中部分對齊錯誤的錯誤結果更正過來。2.根據權利要求1所述基于兩兩對齊的多語種句對齊裝置,其特征在于,用于分別對每個語種的文本進行句子分割,獲得不同語種待對齊的句子的裝置進一步包括:用于將每個語種的文本中所有的時間標識和換行符刪除,獲得所有句子均合并為一行的文本的裝置;用于對文本中所有字符進行掃描,掃描所有表示語句結束的符號,然后根據所述符號將文本分割成若干條句子,每條句子作為一個獨立的單語種句子的裝置。3.根據權利要求1所述基于兩兩對齊的多語種句對齊裝置,其特征在于,用于對兩兩對齊的句子進行沖突識別的裝置進一步包括:用于將所有兩兩對齊的句子放入索引表中進行索引的裝置;用于判斷所有兩兩對齊的句子是否沖突,并將沖突的兩兩對齊的句子標記為沖突的裝置。4.基于兩兩對齊的多語種句對齊方法,其特征在于,該方法包括以下步驟:步驟一:用于獲取同一文件至少三種不同語言版本的文本的步驟;步驟二:用于分別對步驟一獲得的每個語種的文本進行句子分割,獲得不同語種待對齊的句子的步驟;步驟三:用于對步驟二獲得的不同語種待對齊的句子進行兩兩對齊,然后對每組兩兩對齊的句子進行評分,獲得所有兩兩對齊的句子的集合A的步驟;步驟四:用于對步驟三獲得的集合A中每組兩兩對齊的句子進行沖突識別,將不沖突的兩兩對齊的句子從集合A中剔除,獲得集合A中所有沖突的句子的集合,即差異部分的步驟;步驟五:用于對步驟四獲得的差異部分進行評分,然后對該差異部分進行重新對齊,獲得重新對齊...

    【專利技術屬性】
    技術研發人員:薛永增鄭德權徐冰趙鐵軍朱聰慧楊沐昀曹海龍
    申請(專利權)人:哈爾濱工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩精品无码专区网站| 蜜芽亚洲av无码一区二区三区| 中文字幕在线无码一区| YY111111少妇无码理论片| 久久伊人中文无码| 91精品国产综合久久四虎久久无码一级 | 国产精品毛片无码| 国产亚洲精品a在线无码| 无码一区二区三区免费视频| 久久国产加勒比精品无码| 夜夜精品无码一区二区三区| 久久亚洲AV成人无码| 亚洲gv猛男gv无码男同短文| 亚洲AV无码不卡在线观看下载| 精品无码久久久久久尤物| 成人A片产无码免费视频在线观看| 久久久无码精品亚洲日韩京东传媒| 日韩精品无码一区二区视频| 国产精品无码无片在线观看3D| 日韩av无码久久精品免费| 亚洲精品午夜无码专区| 久久影院午夜理论片无码| 天堂无码在线观看| 伊人蕉久中文字幕无码专区| 亚洲av无码无线在线观看| 久久久久成人精品无码中文字幕| 国产精品多人p群无码| 亚洲色偷拍另类无码专区| 中文字幕无码一区二区免费| 亚洲?V无码乱码国产精品| 无码少妇一区二区浪潮av| 乱人伦人妻中文字幕无码| 无码丰满熟妇一区二区 | 91精品久久久久久无码| 久久久久亚洲AV无码永不| 精品无码人妻夜人多侵犯18| 无码人妻一区二区三区免费手机| 亚洲人av高清无码| 国产在线拍揄自揄拍无码视频| 少妇爆乳无码专区| 精品亚洲成α人无码成α在线观看|