本發(fā)明專利技術(shù)公開一種基于GMM噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法,用一個(gè)含有較少高斯單元的GMM從含噪測(cè)試語(yǔ)音中實(shí)時(shí)估計(jì)噪聲參數(shù),并監(jiān)控噪聲的變化。噪聲參數(shù)估計(jì)按時(shí)間間隔進(jìn)行,每個(gè)時(shí)間間隔更新一次噪聲參數(shù),靜音段也當(dāng)作含噪語(yǔ)音處理。估得的噪聲參數(shù)除了用于模型組合,還存儲(chǔ)在內(nèi)部存儲(chǔ)器中,用于下一個(gè)時(shí)間間隔的噪聲變化判斷。在噪聲監(jiān)控中,首先從存儲(chǔ)器中讀取上一個(gè)時(shí)間間隔的噪聲參數(shù),然后與純凈語(yǔ)音GMM組合,得到含噪語(yǔ)音GMM,并對(duì)當(dāng)前時(shí)間間隔的含噪測(cè)試語(yǔ)音進(jìn)行概率計(jì)算,將輸出的平均對(duì)數(shù)似然值與噪聲參數(shù)估計(jì)子模塊輸出的平均對(duì)數(shù)似然值進(jìn)行比較,若似然差大于閾值,則認(rèn)為噪聲發(fā)生了變化,否則就認(rèn)為噪聲不變。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種基于GMM噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法,具體是用測(cè)試環(huán)境 下提取的噪聲參數(shù)調(diào)整語(yǔ)音識(shí)別系統(tǒng)聲學(xué)模型的參數(shù),使其與實(shí)際環(huán)境下提取的含噪語(yǔ)音 特征參數(shù)相匹配,提高系統(tǒng)噪聲魯棒性的模型組合方法;屬于語(yǔ)音識(shí)別
技術(shù)介紹
自動(dòng)語(yǔ)音識(shí)別技術(shù)可以為電子設(shè)備提供方便的輸入接口,已廣泛應(yīng)用于移動(dòng)電 話、平板電腦、導(dǎo)航儀等移動(dòng)設(shè)備。但是在實(shí)際應(yīng)用中,環(huán)境噪聲等語(yǔ)音變異性是不可避免 地,這通常會(huì)導(dǎo)致語(yǔ)音識(shí)別系統(tǒng)的性能急劇下降,因此有必要采取措施提高語(yǔ)音識(shí)別系統(tǒng) 的環(huán)境魯棒性。魯棒語(yǔ)音識(shí)別算法通常可以劃分為兩大類,即前端特征域方法和后端模型 域方法。 特征域方法的目的是提高聲學(xué)特征的噪聲魯棒性,或者對(duì)測(cè)試環(huán)境下提取的含噪 特征進(jìn)行補(bǔ)償,使其特性盡量與純凈訓(xùn)練語(yǔ)音接近。特征域方法的優(yōu)點(diǎn)是與系統(tǒng)后端的具 體識(shí)別器無(wú)關(guān),且計(jì)算量較小,因而可以用于各種實(shí)時(shí)系統(tǒng)。后端模型域方法對(duì)預(yù)先訓(xùn)練的 聲學(xué)模型的參數(shù)進(jìn)行調(diào)整,使之與當(dāng)前測(cè)試環(huán)境相匹配,用參數(shù)調(diào)整后的聲學(xué)模型對(duì)測(cè)試 語(yǔ)音直接識(shí)別,無(wú)需對(duì)提取的特征參數(shù)進(jìn)行額外處理。模型域方法主要包括模型自適應(yīng)和 模型組合,前者通過(guò)實(shí)際環(huán)境下的少量測(cè)試語(yǔ)音調(diào)整聲學(xué)模型的參數(shù),可以用于處理任意 語(yǔ)音變異性;后者對(duì)純凈語(yǔ)音聲學(xué)模型和單高斯噪聲模型進(jìn)行模型組合,生成用于聲學(xué)解 碼的含噪語(yǔ)音聲學(xué)模型,只能用于處理由環(huán)境噪聲引起的語(yǔ)音變異性。 與特征域方法相比,模型自適應(yīng)可以取得更高的補(bǔ)償精度,但會(huì)導(dǎo)致巨大的計(jì)算 量。這是因?yàn)榇笤~匯量語(yǔ)音識(shí)別系統(tǒng)的基本語(yǔ)音單元很多,通常會(huì)達(dá)到數(shù)百個(gè),而每個(gè)基 本語(yǔ)音單元對(duì)應(yīng)一個(gè)聲學(xué)模型,在模型自適應(yīng)中每個(gè)聲學(xué)模型都要參與自適應(yīng)參數(shù)估計(jì)運(yùn) 算,其計(jì)算量難以被實(shí)時(shí)系統(tǒng)所接受。傳統(tǒng)模型組合的噪聲參數(shù)來(lái)自于語(yǔ)音間隙期的噪聲 估計(jì),但是在非平穩(wěn)環(huán)境下的一段連續(xù)語(yǔ)音中,可能不存在足夠的語(yǔ)音間隙期,噪聲估計(jì)無(wú) 法進(jìn)行,模型參數(shù)就不能及時(shí)更新,因而其應(yīng)用范圍受到限制。
技術(shù)實(shí)現(xiàn)思路
專利技術(shù)目的:針對(duì)現(xiàn)有技術(shù)中存在的問題,為了兼顧計(jì)算復(fù)雜度和補(bǔ)償精度,就需 要將特征補(bǔ)償和模型自適應(yīng)結(jié)合起來(lái),在不降低識(shí)別率的前提下盡量減小算法的計(jì)算量, 提高語(yǔ)音識(shí)別系統(tǒng)的實(shí)際應(yīng)用能力。本專利技術(shù)提供一種基于高斯混合模型(GMM:GauSSian Mixture Model)噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法。該算法用一個(gè)含有較少高斯單元的 GMM從含噪測(cè)試語(yǔ)音中實(shí)時(shí)估計(jì)噪聲的參數(shù),并監(jiān)控噪聲的變化。估得的噪聲參數(shù)被用于與 純凈語(yǔ)音聲學(xué)模型進(jìn)行模型組合,得到含噪語(yǔ)音聲學(xué)模型,然后直接對(duì)測(cè)試語(yǔ)音進(jìn)行聲學(xué) 解碼,得到識(shí)別結(jié)果。 技術(shù)方案:一種基于GMM噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法,主要包括訓(xùn)練階段 和測(cè)試階段兩個(gè)部分,下面具體說(shuō)明其內(nèi)容。 (l)GMM訓(xùn)練:在訓(xùn)練階段,用所有基本語(yǔ)音單元的訓(xùn)練語(yǔ)音訓(xùn)練生成一個(gè)統(tǒng)一的 GMM,該GMM含有較少的高斯單元,可以近似表示語(yǔ)音倒譜特征的分布。 (2) HMM訓(xùn)練:在訓(xùn)練階段,用每個(gè)基本語(yǔ)音單元的訓(xùn)練語(yǔ)音訓(xùn)練生成該基本語(yǔ)音 單元的隱馬爾可夫模型(HMM:Hidden Markov Model),所有基本語(yǔ)音單元的HMM共同組成 語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型。 (3)噪聲估計(jì):在測(cè)試階段,用GMM從含噪測(cè)試語(yǔ)音中實(shí)時(shí)提取噪聲的均值和方 差,并根據(jù)平均對(duì)數(shù)似然值判斷噪聲是否發(fā)聲變化。為了保證最大似然估計(jì)的準(zhǔn)確性,噪聲 信息通常每100幀更新一次,噪聲估計(jì)的同時(shí)判斷噪聲的變化情況。噪聲估計(jì)按時(shí)間間隔 (100幀)進(jìn)行,不需要進(jìn)行語(yǔ)音活動(dòng)檢測(cè),對(duì)靜音段也當(dāng)作含噪語(yǔ)音處理。 (4)模型組合:對(duì)某個(gè)時(shí)間間隔,如果噪聲發(fā)聲變化,則對(duì)純凈語(yǔ)音聲學(xué)模型和單 高斯噪聲模型進(jìn)行模型組合,生成與當(dāng)前測(cè)試環(huán)境相匹配的含噪語(yǔ)音聲學(xué)模型,該模型不 僅用于聲學(xué)解碼,而且其參數(shù)被保存在內(nèi)存中;如果噪聲沒有變化,則該時(shí)間間隔不必進(jìn)行 模型組合,可以直接用存儲(chǔ)在內(nèi)存中的上一個(gè)時(shí)間間隔的含噪語(yǔ)音聲學(xué)模型作為當(dāng)前測(cè)試 語(yǔ)音聲學(xué)模型。根據(jù)噪聲變化情況決定是否進(jìn)行模型組合,有助于節(jié)省電能,延長(zhǎng)移動(dòng)設(shè)備 的電池使用時(shí)間。 (5)聲學(xué)解碼:用模型組合得到的含噪語(yǔ)音聲學(xué)模型直接對(duì)含噪測(cè)試語(yǔ)音進(jìn)行聲 學(xué)解碼,得到識(shí)別結(jié)果。 模型組合中涉及DCT計(jì)算的部分,用快速DCT算法實(shí)現(xiàn),以減少模型組合的計(jì)算 量。根據(jù)噪聲的變化標(biāo)識(shí)決定是否進(jìn)行模型組合運(yùn)算,有助于多數(shù)應(yīng)用環(huán)境下節(jié)省移動(dòng)設(shè) 備的電能,延長(zhǎng)電池使用時(shí)間。該方法結(jié)合了 GMM噪聲估計(jì)計(jì)算量小和模型補(bǔ)償精度高的 優(yōu)點(diǎn),在不降低識(shí)別性能的前提下,顯著降低了系統(tǒng)的計(jì)算復(fù)雜度,提高了系統(tǒng)的實(shí)際應(yīng)用 能力。【附圖說(shuō)明】 圖1為基于GMM噪聲估計(jì)的模型組合語(yǔ)音識(shí)別系統(tǒng)總體框架圖; 圖2為噪聲估計(jì)模塊的具體結(jié)構(gòu)圖。【具體實(shí)施方式】 下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本專利技術(shù),應(yīng)理解這些實(shí)施例僅用于說(shuō)明本專利技術(shù) 而不用于限制本專利技術(shù)的范圍,在閱讀了本專利技術(shù)之后,本領(lǐng)域技術(shù)人員對(duì)本專利技術(shù)的各種等價(jià) 形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。 基于高斯混合模型噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法,其總體框架如圖1所示。 本專利技術(shù)的核心內(nèi)容是噪聲估計(jì)模塊,其具體結(jié)構(gòu)如圖2所示。下面詳細(xì)說(shuō)明噪聲估計(jì)模塊 和模型組合模塊的具體實(shí)施方案。 1、噪聲估計(jì) 本專利技術(shù)只考慮加性背景噪聲,不處理信道卷積噪聲。根據(jù)美爾頻率特征參數(shù) (MFCC:Mel frequency cepstral coefficient)提取過(guò)程可知,含噪語(yǔ)音倒譜特征y與純 凈語(yǔ)音倒譜特征X的關(guān)系可以表示為: y = Clog (exp (C :x) +exp (C ) ⑴其中,n是加性噪聲的倒譜特征,C和C 1 分別表示離散余弦變換矩陣及其逆矩陣。將式(1)在定點(diǎn)(μχ,μ J處用一階矢量泰勒級(jí) 數(shù)(VTS:Vector Taylor Series)展開,可以得到如下的線性近似式: y = (I-U) (χ- μ x) +U (η- μ η0) +Clog (exp (C 1 μ χ) +exp (C 1 μ η〇)) (2) 其中,μ,μ η。分別是χ的均值和η的初始均值,I是單位矩陣,U的表達(dá)式如 下: 式(3)中diag()表示以括號(hào)中向量的元素為對(duì)角元素生成對(duì)角矩陣。 對(duì)式⑵分別取均值和方差,即可得到含噪語(yǔ)音y的均值μ y和方差Σ y: 其中,μ^Ρ Σ n分別是噪聲n的均值和方差,也就是待估計(jì)的噪聲參數(shù)。 假設(shè)GMM有Μ個(gè)高斯單元,其輸出概率表達(dá)式為: 其中,xt是第t幀純凈語(yǔ)音倒譜特征向量;Cni、μ ΧιΠ1、Σχ ηι分別是GMM第m個(gè)高斯單 元的混合系數(shù)、均值向量和協(xié)方差矩陣;D是特征向量的維數(shù)。為了從含噪語(yǔ)音中估計(jì)μη和Ση,構(gòu)建如下輔助函數(shù): 其中,是在給定含噪語(yǔ)音yJPGMM先驗(yàn)參數(shù)λ條件下, 第t幀含噪語(yǔ)音yt屬于GMM第m個(gè)高斯單元的后驗(yàn)概率;?是待估計(jì)的GMM參數(shù)集。 對(duì)GMM的第m個(gè)高斯單元,式(4)和(5)可以分別表示為: 式(9)中,V"= I-Um; 〇 σ χ ηι、〇 "是分別用Σ y ni、Σχ ηι、Ση的對(duì)角元素生成的 方差向量;操作符·*表示矩陣的點(diǎn)乘,即兩個(gè)相同維數(shù)的矩陣的對(duì)應(yīng)元素相乘。 將式⑶和(9)分別代入輔助函數(shù)式(7),并分別令輔助函數(shù)關(guān)于μ η和。η的導(dǎo) 數(shù)等本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于GMM噪聲估計(jì)的模型組合語(yǔ)音識(shí)別方法,其特征在于,主要包括如下內(nèi)容:(1)GMM訓(xùn)練:在訓(xùn)練階段,用所有基本語(yǔ)音單元的訓(xùn)練語(yǔ)音訓(xùn)練生成一個(gè)統(tǒng)一的GMM,該GMM近似表示語(yǔ)音倒譜特征的分布;(2)HMM訓(xùn)練:在訓(xùn)練階段,用每個(gè)基本語(yǔ)音單元的訓(xùn)練語(yǔ)音訓(xùn)練生成該基本語(yǔ)音單元的隱馬爾可夫模型,所有基本語(yǔ)音單元的HMM共同組成語(yǔ)音識(shí)別系統(tǒng)的聲學(xué)模型;(3)噪聲估計(jì):在測(cè)試階段,用GMM從含噪測(cè)試語(yǔ)音中實(shí)時(shí)提取噪聲的均值和方差,并根據(jù)平均對(duì)數(shù)似然值判斷噪聲是否發(fā)聲變化;噪聲信息按照時(shí)間間隔更新,噪聲估計(jì)的同時(shí)判斷噪聲的變化情況;噪聲估計(jì)按時(shí)間間隔進(jìn)行,不需要進(jìn)行語(yǔ)音活動(dòng)檢測(cè),對(duì)靜音段也當(dāng)作含噪語(yǔ)音處理;(4)模型組合:對(duì)某個(gè)時(shí)間間隔,如果噪聲發(fā)聲變化,則對(duì)純凈語(yǔ)音聲學(xué)模型和單高斯噪聲模型進(jìn)行模型組合,生成與當(dāng)前測(cè)試環(huán)境相匹配的含噪語(yǔ)音聲學(xué)模型,該模型不僅用于聲學(xué)解碼,而且其參數(shù)被保存在內(nèi)存中;如果噪聲沒有變化,則該時(shí)間間隔不必進(jìn)行模型組合,可以直接用存儲(chǔ)在內(nèi)存中的上一個(gè)時(shí)間間隔的含噪語(yǔ)音聲學(xué)模型作為當(dāng)前測(cè)試語(yǔ)音聲學(xué)模型;(5)聲學(xué)解碼:用模型組合得到的含噪語(yǔ)音聲學(xué)模型直接對(duì)含噪測(cè)試語(yǔ)音進(jìn)行聲學(xué)解碼,得到識(shí)別結(jié)果。...
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:呂勇,
申請(qǐng)(專利權(quán))人:河海大學(xué),
類型:發(fā)明
國(guó)別省市:江蘇;32
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。