• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向語音識別模型的動態(tài)掩碼方法技術(shù)

    技術(shù)編號:37816110 閱讀:38 留言:0更新日期:2023-06-09 09:46
    本發(fā)明專利技術(shù)公開一種面向語音識別模型的動態(tài)掩碼方法,步驟為:對語音數(shù)據(jù)集中原始音頻輸入進(jìn)行聲學(xué)特征提取,將原始的不定長時序信號轉(zhuǎn)換成特征向量表示,使聲學(xué)信號由非平穩(wěn)參數(shù)信號變?yōu)殚撝捣秶鷥?nèi)的平穩(wěn)信號,得到音頻對應(yīng)的幀級特征序列;對幀級特征進(jìn)行編碼,使用CTC進(jìn)行序列建模,將識別為空幀所對應(yīng)的特征向量掩碼為0;定義二分函數(shù)避免神經(jīng)網(wǎng)絡(luò)的行為不穩(wěn)定和CTC計算問題;將二分函數(shù)處理后的表示傳遞給語音識別模塊,完成建模,最終實(shí)現(xiàn)動態(tài)掩碼。本發(fā)明專利技術(shù)在編碼過程中借助CTC的尖峰特性來檢測空幀,同時解決了掩碼輸入后無法計算CTC的問題,從而縮短序列的長度,減少計算資源;同時可以有效的借助CTC來幫助模型收斂。同時可以有效的借助CTC來幫助模型收斂。同時可以有效的借助CTC來幫助模型收斂。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種面向語音識別模型的動態(tài)掩碼方法


    [0001]本專利技術(shù)涉及一種編碼方法,具體為面向語音識別模型的動態(tài)掩碼方法。

    技術(shù)介紹

    [0002]當(dāng)前,語音識別技術(shù)已經(jīng)應(yīng)用到生活的方方面面,如語音搜索、語音助手、會議記錄和智能音箱等。語音識別技術(shù)大大提高了生產(chǎn)生活效率。此外,語音識別技術(shù)一直是許多大型科技公司最重要的核心發(fā)展方向之一,并且語音識別領(lǐng)域的投資也進(jìn)一步擴(kuò)大。未來語音識別仍然有著巨大的市場,并能創(chuàng)造巨大的社會價值和經(jīng)濟(jì)價值。
    [0003]盡管語音識別技術(shù)從理論研究到開發(fā)落地都取得了較好的成績,但在實(shí)際應(yīng)用過程中仍然存在一些問題,語音識別技術(shù)仍面臨著挑戰(zhàn)。在語音編碼中,如何有效地進(jìn)行語音編碼是一個有待解決的問題。語音處理首先需要分辨出一段語音序列中存在的多種頻率。宏觀來說語音信號是不平穩(wěn)的,要經(jīng)過傅立葉變換,因此語音信號要分幀處理,來保證每一幀內(nèi)的信號是平穩(wěn)的。但是語音中信號非信息單元是非常多的,與非信息信號相對應(yīng)的內(nèi)容會增加聲學(xué)編碼中輸入長度,導(dǎo)致占用過多計算資源。
    [0004]基于Transformer的模型越來越受歡迎,在各種序列到序列研究領(lǐng)域取得了最先進(jìn)的性能。端到端模型從音頻中提取高頻特征(通常每10毫秒)。平均而言,這使得所產(chǎn)生的輸入向量序列比相應(yīng)的文本長10倍,導(dǎo)致內(nèi)在的冗余(即長而重復(fù)的)表示。Transformer在輸入序列長度方面的復(fù)雜性使得它無法應(yīng)用于通常由長序列表示的音頻信號。Transformer中的高層無法訪問潛在有用的語言信息。為了解決這個問題,當(dāng)前的解決方案是基于原始音頻特征的固定采樣進(jìn)行初始次優(yōu)壓縮,但是這樣Transformer中的高層無法訪問潛在有用的語言信息。
    [0005]由于語音信號中信息傳播不均勻,由此導(dǎo)致的信息特征提取困難。與非信息信號相對應(yīng)的特征,如噪聲,暫停等,增加了輸入長度,并為各種聲學(xué)任務(wù)帶來了無法管理的噪聲,增加學(xué)習(xí)難度的同時也降低了性能。因此,需要一種方法來稀疏編碼器狀態(tài),將其應(yīng)用于端到端系統(tǒng)來處理冗余和噪聲語音信號。
    [0006]由于Transformer的自注意力機(jī)制的計算量與Token數(shù)的平方成正比,所以如果保留完整的輸入序列進(jìn)行輸入,則需要消耗巨大的計算資源,且會增加模型的建模復(fù)雜度。然而,在論文Adaptive Feature Selection for End
    ?
    to
    ?
    End Speech Translation中說明,至少85%的語音輸入是與信息無關(guān)的,模型的預(yù)測結(jié)果只與語音中的少部分的Token有關(guān)。也就是說,我們可以動態(tài)去除掉一些重要性較低的Token,而不會對模型的準(zhǔn)確率帶來較大的影響。
    [0007]連接時序分類(Connectionist Temporal Classification,CTC)是語音處理中一種多任務(wù)學(xué)習(xí)方法,可以將輸入序列的每一位置都對應(yīng)到標(biāo)注文本中,學(xué)習(xí)語音和文字之間的軟對齊關(guān)系。CTC是一個損失函數(shù),通過在輸出標(biāo)簽中增加空白符號(blank),通過最大化所有可能對應(yīng)的序列概率之和,從而無需對訓(xùn)練數(shù)據(jù)進(jìn)行劃分和對齊,很好的解決了數(shù)據(jù)對齊問題,并且能夠直接輸出目標(biāo)序列,大大簡化了模型構(gòu)建和訓(xùn)練難度。掩碼是對某些
    值進(jìn)行掩蓋,使其在參數(shù)更新時不產(chǎn)生效果。有研究人員利用CTC的基于轉(zhuǎn)錄和音素的壓縮來解決這個問題。然而,由于這些方法被應(yīng)用于由Transformer層編碼的表征,出于記憶的原因,仍然需要對輸入的初始內(nèi)容進(jìn)行不基于理解的下采樣,有可能會丟失重要信息,進(jìn)而影響模型的性能。CTC的尖峰特性又可以檢測到空幀,如果只是簡單的掩碼掉這些元素,又會影響后續(xù)CTC的計算,無法幫助模型收斂。
    [0008]因此,依據(jù)CTC的特點(diǎn),探究一種掩碼方式是非常必要的,期望可以減少計算資源,又不影響后續(xù)的CTC計算,同時可以提升模型表現(xiàn)。

    技術(shù)實(shí)現(xiàn)思路

    [0009]針對現(xiàn)有技術(shù)中聲學(xué)編碼中輸入長度過長,占用過多計算資源,CTC無法計算及存在的信息丟失問題,本專利技術(shù)要解決的技術(shù)問題是提供一種語音識別模型的動態(tài)掩碼方法,借助CTC的尖峰特性來檢測空幀,將空幀掩碼掉,減少計算資源,幫助模型收斂。
    [0010]為解決上述技術(shù)問題,本專利技術(shù)采用的技術(shù)方案是:
    [0011]本專利技術(shù)提供一種面向語音識別模型的動態(tài)掩碼方法,包括以下步驟:
    [0012]1)對語音數(shù)據(jù)集中原始音頻輸入進(jìn)行聲學(xué)特征提取,將原始的不定長時序信號轉(zhuǎn)換成特征向量表示,通過分幀使聲學(xué)信號由快速變化的非平穩(wěn)參數(shù)信號變?yōu)殚撝捣秶鷥?nèi)的平穩(wěn)信號,得到音頻對應(yīng)的幀級特征序列;
    [0013]2)對音頻對應(yīng)的幀級特征序列進(jìn)行編碼,使用CTC進(jìn)行序列建模,編碼過程中基于CTC的尖峰特性,檢測到空幀,將識別為空幀所對應(yīng)的特征向量掩碼為0;
    [0014]3)定義二分函數(shù)來避免神經(jīng)網(wǎng)絡(luò)的行為不穩(wěn)定和CTC計算問題;
    [0015]4)將二分函數(shù)處理后的表示傳遞給語音識別模塊,進(jìn)而完成整個建模過程,最終實(shí)現(xiàn)動態(tài)掩碼。
    [0016]步驟2)具體為:
    [0017]201)將音頻特征序列輸入到聲學(xué)模型中,通過一個間隔為2、核大小為5的卷積層對其進(jìn)行序列長度壓縮,使序列長度變?yōu)橹暗?/2;
    [0018]202)壓縮后的音頻特征在經(jīng)過編碼器計算之后,通過CTC引入空字符來進(jìn)行序列擴(kuò)展,從而完成輸入聲學(xué)特征到輸出預(yù)測字符的映射,得到對齊結(jié)果;
    [0019]203)將CTC預(yù)測為blank的位置所對應(yīng)的特征掩碼為0,以代表無意義元素;
    [0020]204)把blank所對應(yīng)的特征位置的值加上無窮大的負(fù)數(shù),經(jīng)過softmax函數(shù)處理后,特征位置的概率為0。
    [0021]步驟3)具體為:
    [0022]301)在CTC的softmax函數(shù)后面接入一個二分函數(shù),二分函數(shù)定義為如果輸入大于0則直接返回輸入,否則返回0;
    [0023]302)將這個二分函數(shù)設(shè)置為斜率為1的線性函數(shù),它的反向傳播梯度為1,從而實(shí)現(xiàn)反向傳播,解決CTC計算問題。
    [0024]步驟4)具體為:
    [0025]401)將聲學(xué)模型作為語音識別模型的編碼器,Transformer僅由注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)組成,在自注意力機(jī)制中,其中包含查詢(Query,Q),鍵(Key,K)和值(Value,V),其中鍵(Key,K)和值(Value,V)來自相同的內(nèi)容,對查詢矩陣、鍵矩陣以及值矩陣分別進(jìn)行
    線性變換,然后進(jìn)行縮放點(diǎn)積操作,即計算Query與Key進(jìn)行點(diǎn)積計算,除以Key的維度來達(dá)到調(diào)節(jié)作用,如下述公式所示:
    [0026][0027]其中,Q為查詢矩陣,K為鍵矩陣,V為值矩陣,為Key的維度。
    [0028]402)將動態(tài)編碼后的表示與CTC損失進(jìn)行聯(lián)合訓(xùn)練,計算聯(lián)合訓(xùn)練損失,使用CTC后驗(yàn)對解碼進(jìn)行重新排序,通過解碼器得到一個語音識別模型。
    [0029]本專利技術(shù)具有以下有益效果及優(yōu)點(diǎn):
    [0030]1.本專利技術(shù)提出一種面向語音識別模型的動本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種面向語音識別模型的動態(tài)掩碼方法,其特征在于包括以下步驟:1)對語音數(shù)據(jù)集中原始音頻輸入進(jìn)行聲學(xué)特征提取,將原始的不定長時序信號轉(zhuǎn)換成特征向量表示,通過分幀使聲學(xué)信號由快速變化的非平穩(wěn)參數(shù)信號變?yōu)殚撝捣秶鷥?nèi)的平穩(wěn)信號,得到音頻對應(yīng)的幀級特征序列;2)對音頻對應(yīng)的幀級特征序列進(jìn)行編碼,使用CTC進(jìn)行序列建模,編碼過程中基于CTC的尖峰特性,檢測到空幀,將識別為空幀所對應(yīng)的特征向量掩碼為0;3)定義二分函數(shù)來避免神經(jīng)網(wǎng)絡(luò)的行為不穩(wěn)定和CTC計算問題;4)將二分函數(shù)處理后的表示傳遞給語音識別模塊,進(jìn)而完成整個建模過程,最終實(shí)現(xiàn)動態(tài)掩碼。2.按權(quán)利要求1所述的面向語音識別模型的動態(tài)掩碼方法,其特征在于步驟2)具體為:201)將音頻特征序列輸入到聲學(xué)模型中,通過一個間隔為2、核大小為5的卷積層對其進(jìn)行序列長度壓縮,使序列長度變?yōu)橹暗?/2;202)壓縮后的音頻特征在經(jīng)過編碼器計算之后,通過CTC引入空字符來進(jìn)行序列擴(kuò)展,從而完成輸入聲學(xué)特征到輸出預(yù)測字符的映射,得到對齊結(jié)果;203)將CTC預(yù)測為blank的位置所對應(yīng)的特征掩碼為0,以代表無意義元素;204)把blank所對應(yīng)的特征位置的值加上無窮大的負(fù)數(shù),經(jīng)過soft...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李雪,周星宏
    申請(專利權(quán))人:沈陽雅譯網(wǎng)絡(luò)技術(shù)有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 狠狠躁天天躁无码中文字幕图| 成人无码Av片在线观看| 东京热无码av一区二区| 久久精品无码一区二区三区日韩 | 无码中文字幕日韩专区| 日韩国产精品无码一区二区三区 | 无码国产亚洲日韩国精品视频一区二区三区 | 曰韩人妻无码一区二区三区综合部| 亚洲日韩精品A∨片无码加勒比| 中文字幕无码av激情不卡| 最新无码专区视频在线| 免费无码又爽又刺激网站| 日韩免费a级毛片无码a∨| 国产AV无码专区亚汌A√| 精品人妻中文无码AV在线| 亚洲精品无码久久久久久久| 综合国产在线观看无码| 国产精品午夜无码av体验区| 青青草无码免费一二三区| 亚洲欧洲精品无码AV| 黑人巨大无码中文字幕无码| 久久久久亚洲精品无码蜜桃| 国产精品多人p群无码| 国产色无码精品视频国产| 日韩免费无码视频一区二区三区| 午夜精品久久久久久久无码| 亚洲av无码成人精品国产| 无码国产精品一区二区免费虚拟VR| 国产精品免费无遮挡无码永久视频 | 精品人妻系列无码人妻漫画| 无码精品A∨在线观看十八禁| 日韩乱码人妻无码中文字幕| 无码专区狠狠躁躁天天躁| 中文字字幕在线中文无码| 国产乱子伦精品免费无码专区 | AV无码免费永久在线观看| 人妻少妇乱子伦无码视频专区| 亚洲AV无码国产在丝袜线观看| 国产V亚洲V天堂无码| 国内精品无码一区二区三区| 国产品无码一区二区三区在线蜜桃 |