本發明專利技術提供了一種視聽字幕制作系統及方法,所述系統包括原始文本處理模塊、注音模塊、原始聲音處理模塊、強制切分模塊、切分可信度評估模塊、錯誤處理模塊、字幕生成模塊。本發明專利技術能自動處理原始文本,分割為限定長度的句子或短語;采用形近詞替代等方法自動處理非登錄詞,建立多發音注音網絡;將注音網絡展開為隱含馬爾科夫識別語音對齊網絡,使用強容錯隱含馬爾科夫聲學模型對文本自動對齊強制切分;通過語音識別技術對每個切分段的切分結果進行可信度評估,可很容易發現切分錯誤以便進一步處理;直接根據切分結果生成各種格式適用于各種設備的視聽字幕文件。借此,本發明專利技術可在無人工干預或很少人工干預的情況下直接得到高質量的視聽字幕文件。
【技術實現步驟摘要】
本專利技術涉及外語電化教學領域,尤其涉及。
技術介紹
語言學習主要通過獲得大量的可理解輸入來實現,而“聽”是獲得可理解語言輸入的最重要的渠道。中國的外語學習者面臨著一個“讀得懂卻聽不懂”的尷尬狀態。基于多媒體技術的視聽輸入教學法,能再現人們真實交際場景,對改進外語教學起到了積極的推動作用。在視聽輸入教學法基礎上,將話語信息以文字的形式(即視聽字幕)同時呈現給受眾,對外語視聽教學更具有顯著的積極意義。目前,有字幕加配的視聽教學內容少之又少,其主要原因是當前字幕的加配主要是手工完成。專業技術人員需花費大量的時間和精力才能制作完成長度有限的字幕,成本太高而不能大規模應用。現代語音識別
中,在給定單句文本及其聲音后,可以用基于隱含馬爾科夫模型的核心模塊將音節起止信息在音軸上顯示出來。此方法主要應用于建立音節切分語音語料庫,它要求文本與聲音高度一致,否則就會切分失敗或效果很差。而視聽字幕的制作要求切分的單位是句子或短語,制作中要求方法有很高的容錯性,要能處理文本中含未知發音的未登錄詞、多音詞、含有錯誤文本段落等情況,要能發現指出切分錯誤之處,這些要求在傳統方法中均無法滿足。
技術實現思路
針對上述的缺陷,本專利技術的目的在于提供,其能夠在無人工干預或很少人工干預的情況下直接得到高質量的用于外語電化教學的視聽字幕文件。為了實現上述目的,本專利技術提供視聽字幕制作系統,所述系統包括原始文本處理模塊,用于將輸入的原始文本分詞后按指定規則分割為合適長度的句子或短語,并將所述句子或短語發送到注音模塊;注音模塊,用于處理所述句子或短語中的非登錄詞,然后通過查注音詞典生成注音網絡,并將所述注音網絡發送到強制切分模塊;原始聲音處理模塊,用于將輸入的原始聲音處理成預定要求的聲音流,并將所述聲音流發送到強制切分模塊;強制切分模塊,用于將所述注音網絡切分為隱含馬爾科夫識別語音的對齊網絡,然后將所述聲音流提取為特征流并在所述對齊網絡對齊,并將切分結果輸入到切分可信度評估模塊;切分可信度評估模塊,用于通過語音識別對所述切分結果中每個切分段進行可信度評估得到切分可信度評估結果,若所述切分可信度評估結果達到預定值,則將所述切分結果直接發送到字幕生成模塊,否則將所述切分可信度評估結果發送到錯誤處理模塊;錯誤處理模塊,用于顯示所述切分可信度評估結果,判斷是所述原始文本有誤還是所述切分結果需要人工微調,若所述切分結果需要人工微調則人工微調所述切分結果并發送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;字幕生成模塊,用于結合預定的字幕文件格式,將所述切分結果輸出字幕文件。根據本專利技術所述的視聽字幕制作系統,所述原始文本處理模塊還包括分詞子模塊,用于將所述原始文本用雙數組Trie樹分詞算法分成含有若干個詞的詞語流;文本切分子模塊,用于將所述詞語流自動切分成長度合適的句子或短語,具體切分方法為從前向后遍歷所述詞語流,依據句子邊界符號將所述詞語流切分成句子流;從前向后遍歷每個句子,若所述句子的長度大于預定值,則依次嘗試從逗號、從句、連接詞或任意詞處分開所述句子,直到所述句子的長度小于或等于所述預定值。根據本專利技術所述的視聽字幕制作系統,所述注音模塊還包括非登錄詞處理子模塊,用于將切分好的所述句子或短語中含有的不在所述注音詞典中的詞,通過形近詞替換、直接刪除或人工注音方法轉換為已知的讀音的詞;注音網絡生成子模塊,首先將切分處理非登錄詞后的詞語流中每個詞語首尾相連,建立詞語網絡,再查得每個詞語所有可能的發音展開為注音網絡。根據本專利技術所述的視聽字幕制作系統,所述形近詞替換,用于自動選中詞庫中一個最相近的詞w*替換原詞;其中替換詞w*通過以下方法得到w* = arg min c e c D (w, c),公式中w為原詞,w*為替換詞,C為注音詞典集合,D為兩詞間的編輯距離函數。根據本專利技術所述的視聽字幕制作系統,所述原始聲音處理模塊,用于根據所述原始聲音的格式,采用對應的算法進行解碼,根據聲學模型的要求重新采樣為指定的采樣頻率,再經過去噪聲處理轉換為預定要求的聲音流。根據本專利技術所述的視聽字幕制作系統,所述強制切分模塊還包括聲學網絡生成子模塊,用于將所述注音網絡展開,并在詞語間加入啞音,擴充為隱馬爾科夫聲學模型的聲學網絡,發送到隱藏狀態序列搜索模塊中;特征提取子模塊,用于將從所述聲音流中逐幀提取音頻,經過加窗處理后提取符合隱馬爾科夫聲學模型的聲學參數,生成逐幀的所述特征流,發送到隱藏狀態序列搜索模塊中;隱藏狀態序列搜索子模塊,用于將所述特征流與所述聲學網絡通過維特比算法進行對齊,并選取所述特征流所經過的聲學網絡節點為所搜索的隱藏狀態序列,將隱藏狀態序列搜索結果發送到切分結果生成模塊;切分結果生成子模塊,用于從所述隱藏狀態序列搜索結果中求出每個切分好的句子的起止位置Sn和En。根據本專利技術所述的視聽字幕制作系統,所述句子的起止位置S1^P En通過以下公式得到Sn= (A^1)/2* FD, En= (Bn+An+1) /2*FD ;其中,所述3 和En的計算公式中An、Bn為分別表示第η個切分后的句子的一個隱藏狀態序列的序號和最后一個隱藏狀態序列的序號,并令Btl =Ai、AN+1=BN (N為切分后的句子個數),FD為特征提取子模塊所用音頻幀的時長。根據本專利技術所述的視聽字幕制作系統,所述切分可信度評估模塊還包括特征段切分子模塊,用于將每個所述句子依據得到的起止位置S1^P EnW所述特征流中獨立提取出來;音節識別子模塊,用于將所述特征流識別為音節流,所述音節識別子模塊包括識別網絡建立單元和對齊解碼單元;所述識別網絡建立單元,用于將語料中計算得到的一元二元音節語法模型,建立音節轉移概率網絡,再將每個音節擴充為隱馬爾科夫聲學模型中的狀態序列,組成最后的語音識別網絡;所述對齊解碼單元,用于通過維特比算法,根據所述特征流和所述語音識別網絡求出具有最大概率的路徑,并將其對應的音節序列,即語音識別出的音節序列發送到可信度分數計算子模塊;可信度分數計算子模塊,用于計算得到識別出的所述音節序列和文本中的音節序列的相似度分數F,將F作為切分可信度評估結果。根據本專利技術所述的視聽字幕制作系統,所述相似度分數F使用以下公式計算得到F= ( Le- LD (Ss, Se) ) / Ls *100 ;其中,所述LK、Ls分別為識別出的所述音節序列、文本中的音節序列音節個數,Ss, Se分別為識別出的音節序列、文本中的音節序列,LD為計算兩序列最小編輯距離的函數。根據本專利技術所述的視聽字幕制作系統,所述錯誤處理模塊還包括切分結果與可信度展示子模塊,用于顯示所述切分結果與所述切分可信度評估結果;人工輔助切分子模塊,用于所述切分結果需要人工微調時,將手動矯正所述切分結果,并將矯正后的所述切分結果發送到所述字幕生成模塊,以及用于在所述原始文本有誤時,則人工修改原始文本后交由所述原始文本處理模塊重新切分。本專利技術還提供一種視聽字幕制作方法,包括步驟如下原始文本處理步驟,將輸入的原始文本分詞后按指定規則分割為合適長度的句子或短語;注音步驟,處理所述句子或短語中的非登錄詞,然后通過查注音詞典生成注音網絡;原始聲音處理步驟,將輸入的原始聲音處理成預定要求的聲音流;強制本文檔來自技高網...
【技術保護點】
一種視聽字幕制作系統,其特征在于,所述系統包括:原始文本處理模塊,用于將輸入的原始文本分詞后按指定規則分割為合適長度的句子或短語,并將所述句子或短語發送到注音模塊;注音模塊,用于處理所述句子或短語中的非登錄詞,然后通過查注音詞典生成注音網絡,并將所述注音網絡發送到強制切分模塊;?原始聲音處理模塊,用于將輸入的原始聲音處理成預定要求的聲音流,并將所述聲音流發送到強制切分模塊;強制切分模塊,用于將所述注音網絡切分為隱含馬爾科夫識別語音的對齊網絡,然后將所述聲音流提取為特征流并在所述對齊網絡對齊,并將切分結果輸入到切分可信度評估模塊;?切分可信度評估模塊,用于通過語音識別對所述切分結果中每個切分段進行可信度評估得到切分可信度評估結果,若所述切分可信度評估結果達到預定值,則將所述切分結果直接發送到字幕生成模塊,否則將所述切分可信度評估結果發送到錯誤處理模塊;錯誤處理模塊,用于顯示所述切分可信度評估結果,判斷是所述原始文本有誤還是所述切分結果需要人工微調,若所述切分結果需要人工微調則人工微調所述切分結果并發送到字幕生成模塊,若是所述原始文本有誤則人工修改原始文本后重新交由所述原始文本處理模塊切分;字幕生成模塊,用于結合預定的字幕文件格式,將所述切分結果輸出字幕文件。...
【技術特征摘要】
【專利技術屬性】
技術研發人員:張云梯,莊智象,黃衛,黃河,張中良,
申請(專利權)人:上海外教社信息技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。