本發(fā)明專利技術公開了一種基于語音增強算法主觀評估的客觀評估方法,該方法是在現(xiàn)有的5種語音增強客觀評估方法PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基礎上利用多元線性回歸分析提出的一種新的客觀組合方法。通過不同權重系數(shù)和5種客觀方法的組合,得到本發(fā)明專利技術中評價語音信號質(zhì)量的客觀評分、評價背景噪聲質(zhì)量的客觀評分和評價整體質(zhì)量的客觀評分。本發(fā)明專利技術的主客觀相關系數(shù)優(yōu)于很多其他傳統(tǒng)客觀算法,誤差的標準差更低,更易評估語音增強算法性能的優(yōu)劣,具有極大的實用價值。
【技術實現(xiàn)步驟摘要】
本專利技術涉及一種測量語音增強的客觀評估方法,尤其是涉及一種利用多元線性回歸分析 提出的客觀組合方法。該方法主客觀相關系數(shù)較高、誤差的標準差更低,能更準確評估語音 增強算法性能優(yōu)劣。二
技術介紹
語音增強是從噪聲背景中提取有用的語音信號,抑制或降低噪聲干擾的技術。由于人是 語音的最終接受者,所以主觀評價才是語音質(zhì)量的真實反映,也是最可靠的評價語音增強效 果的方法。但在低信噪比的情況下,語音增強算法在抑制背景噪聲的過程中可能對語音信號 產(chǎn)生劣化作用。ITU-T P.835引導試聽者單獨對語音信號評分(SIG)、單獨對背景噪聲評分 (BAK)和整體效果評分(OVL),三方面共同作為語音增強效果的主觀評估。但主觀評測方法耗 費大量人力、物力和時間,因此采用客觀測試方法來評價語音增強效果。通常采用主客觀相 關系數(shù)和主客觀評分誤差的標準差兩個統(tǒng)計參數(shù)評估客觀方法的性能。現(xiàn)有的幾種常用客觀測試方法為感知評估通話質(zhì)量(PESQ), ITU-T P.862中詳細描述 了 PESQ這種窄帶電話網(wǎng)絡和語音編解碼器端到端語音質(zhì)量客觀評價方法,用數(shù)字信號處理 的方式比較參考信號和劣化信號,估算得到的語音質(zhì)量評分范圍為[-0.5,4.5]。對數(shù)似然率 (LLR)是一種增益歸一化的度量參考語音和劣化語音之間距離的方法,度量所得兩種譜之間的 失真大小只與譜的形狀有關,而與其能量大小無關,估算得到的LLR值范圍為。倒譜(CEP) 是語音信號的又一特征,這里采用基于線性預測分析的倒譜系數(shù)作為語音的特征參數(shù),語音 信號所攜帶的語義信息主要體現(xiàn)在聲道傳輸函數(shù)上,通過參考語音和劣化語音的倒譜距離可 以估算語音質(zhì)量,CEP值為[O,IO]。分段信噪比(SNRseg)建立在度量均方誤差基礎上,SNRseg 是基于幀的信噪比,是每一幀語音信號信噪比的均值。頻率分段信噪比(ftvSNRseg)是將 SNRseg擴展到頻域上得到的,取值范圍為[-10 dB,35 dB]。通過回歸分析得到每個頻段的權重 確保主客觀相關系數(shù)最大,組成了變頻率分段信噪比(fHvSNRsegVar)方法,取值范圍[-10 dB,35 犯]。這些常用客觀測試方法的主客觀相關系數(shù)和誤差的標準差見表1,表中括號內(nèi)的數(shù)為誤 差的標準差(P. C, Loizou, Seec/j五w/iawce/wef: 777eo7朋c Pracrice, CRC Press, 2007)。從表1 可以看出,目前傳統(tǒng)的客觀測試方法在單獨對背景噪聲評分方面主客觀相關系數(shù)普遍較低, 誤差的標準差在單獨對語音信號評分、單獨對背景噪聲評分和整體效果評分三方面都過髙, 同時并沒有給出如何使用客觀測試方法對各語音增強算法性能優(yōu)劣的評估。表1幾種客觀測量方法主客觀相關系數(shù)和誤差的標準差(括號內(nèi)的數(shù))<table>table see original document page 4</column></row><table>中國專利公開CN03156510.7 —種測試語音質(zhì)量的方法及裝置(華為技術有限公司),提供 了一種測試語音質(zhì)量的方法,該方法在IP網(wǎng)絡被測試網(wǎng)段的主叫端利用包括本端和被叫端IP 地址的參數(shù)向被叫端發(fā)送參考語音文件,被叫端利用包括主叫端和被叫端IP地址的參數(shù)接收 通過被測試網(wǎng)段傳輸?shù)奖径撕笮纬傻慕导壵Z音文件,最后,利用所述參考語音文件和所述降 級語音文件進行語音質(zhì)量的評估計算,獲得被測試網(wǎng)段的承載語音質(zhì)量。所述語音質(zhì)量的評 估計算為語音質(zhì)量的感知評估(PESQ)計算或感知的語音質(zhì)量測試(PSQM)計算或感知分析測 量系統(tǒng)(PAMS)計算。CN200680024568.0語音質(zhì)量評估方法和系統(tǒng)(朗訊科技公司),在一個實施例中,通過使 用基于主觀質(zhì)量評估數(shù)據(jù)被訓練的至少一個模型來評估在接收的語音信號中的失真。然后, 根據(jù)估計的失真來確定接收的語音信號的語音質(zhì)量評估。通過使用基于所述主觀質(zhì)量評估數(shù) 據(jù)被訓練的第一模型來評估在所述接收的語音信號中的語音失真和背景噪聲失真,把估計的 失真映射到主觀質(zhì)量評估度量值。目前尚未見到類似本專利技術的,采用PESQ, LLR, CEP, fWSNRseg和fWSNRsegVar組合 的針對語音增強算法的客觀評估方法。
技術實現(xiàn)思路
1、 專利技術目的本專利技術的目的在于利用現(xiàn)有的語音增強客觀評估方法提出的一種新的客 觀評估方法。該方法性能好,能準確地評價語音增強算法性能的優(yōu)劣。2、 技術方案為實現(xiàn)上述專利技術目的,本專利技術所述的基于語音增強算法主觀評估的客觀 組合方法是通過以下技術方案來實現(xiàn)的(1) 計算以下5種客觀測量方法的分值感知評估通話質(zhì)量(PESQ),對數(shù)似然率(LLR), 倒譜(CEP)分段信噪比(SNRseg),頻率分段信噪比(ftvSNRseg),變頻率分段信噪比 (fwSNRsegVar)。具體計算方法參見P. C. Loizou, Speech Ewtoce附e敗-7T^o 7朋d戶racrice, CRC Press, 2007, pp 589-597。(2) 計算以下本專利技術提出的分值Cs = 1.856 + 0.135. P£SQS -1.569. + 0.338. C£PS + 0.044 _/WSV/isegs + 0.224. >SA segFa>s (1) Cw = -0.343 + 0.484.尸£5£^ - 2.548. + 0.646 C£PW - 0.049. >57\ 5化 + 0.520. >5A7iwgKo^ (2) C。 = -0.835 + 0.610.尸£秘-3.229.+ 0.804.,。 + 0.313. >fflVfoeg。 - O篇.yivS飾egPV。 (3)式中,c,表示本專利技術中評價語音信號質(zhì)量的客觀評分,C^表示本專利技術中評價背景噪聲質(zhì)量的客觀評分,C。表示本專利技術中評價整體質(zhì)量的客觀評分。其中的PESQ, LLR, CEP, fwSNRseg和fwSNRsegVar分別表示5種客觀測量方法得到的評分,下標S表示單獨對語音 信號評分,下標N表示單獨對背景噪聲評分,下標O表示對整體效果評分。式中的權重系數(shù)是由5組客觀測試評分(每組120個)分別與單獨評價語音信號的主觀評 分、單獨評價背景噪聲的主觀評分和整體評分使用EXCEL中LINEST函數(shù)進行多元線性回 歸分析得到的。具體如下選取標準語音庫NOISEUS中信噪比為10 dB的babble和train噪聲各30組語音,分別 使用logMMSE和RDC算法對語音進行降噪處理,請14位主觀試聽者對處理后的共120組 語音分別從語音信號質(zhì)量、背景噪聲質(zhì)量和整體質(zhì)量三方面進行評分。評分標準由P.835規(guī) 定。表2 P.835定義的主觀評分標31<table>table see original document page 5</column></row><table>本專利技術的主客觀相關系數(shù)和誤差的標準差見表3,表中括號內(nèi)的數(shù)為誤差的標準差。 表3本專利技術的主客觀相關系數(shù)和誤差的標準差<table>table see original 本文檔來自技高網(wǎng)...
【技術保護點】
一種基于語音增強算法主觀評估的客觀評估方法,其特征在于:在現(xiàn)有的5種語音增強客觀評估方法PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基礎上利用下式計算得出。 C↓[S]=1.856+0.135.PESQ↓[S]-1. 569.LLR↓[S]+0.338.CEP↓[S]+0.044.fwSNRseg↓[S]+0.224.fwSNRsegVar↓[S] (1) C↓[N]=-0.343+0.484PESQ↓[N]-2.548.LLR↓[N]+0.646.C EP↓[N]-0.049.fwSNRseg↓[N]+0.520.fwSNRsegVar↓[N] (2) C↓[O]=-0.835+0.610.PESQ↓[O]-3.229.LLR↓[O]+0.804.CEP↓[O]+0.313.fwSN Rseg↓[O]-0.008.fwSNRsegVar↓[O] (3) 其中下標S表示單獨對語音信號評分,下標N表示單獨對背景噪聲評分,下標O表示對整體效果評分。
【技術特征摘要】
1、一種基于語音增強算法主觀評估的客觀評估方法,其特征在于在現(xiàn)有的5種語音增強客觀評估方法PESQ,LLR,CEP,fwSNRseg和fwSNRsegVar基礎上利用下式計算得出。CS=1.856+0.135·PESQS-1.569·LLRS+0.338·CEPS+0.044·fwSNRsegS+0.224·fwSNRsegVarS(1)CN=-0.343+0.484PESQN-2.548·LLRN+0.646·CEPN-0.049·fwSNRsegN+0.520·fwSNRsegVarN(2)CO=-0.835+0.610·PESQO-3.229·LLRO+0.804·CEPO+0.313·fwSNR...
【專利技術屬性】
技術研發(fā)人員:周璐,邱小軍,林志斌,
申請(專利權)人:南京大學,
類型:發(fā)明
國別省市:84[中國|南京]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。