The present invention in a speech recognition method based on the characteristics of the depth of the neural network training, the main contents include: Gabor filter characteristics, Gabor filter sub group, the depth of the neural network (DNN), to achieve recognition, the process for automatic speech recognition Gabor filter to extract the features from the speech signal, according to the standards for distributed speech recognition extracted from speech signal log Mel spectrum, then each 2D filter spectrum and Gabor filter convolution; choose specific modulation frequency, the filter transfer function in the frequency modulation domain showed constant overlap; automatic speech recognition system based on the test set and the word error rate evaluation, finally get recognition results. The invention of Gabor filter group can decrease the word recognition error rate, showing anti channel distortion, characteristics of low SNR; speech recognizer using high time modulation filter, the error rate is low, enhances the target class between distinguishabilty.
【技術實現步驟摘要】
一種基于深度神經網絡特征訓練的語音識別方法
本專利技術涉及語音識別領域,尤其是涉及了一種基于深度神經網絡特征訓練的語音識別方法。
技術介紹
語音識別以語音為研究對象,涉及生理學、心理學、語言學、計算機科學以及信號處理等多個領域,其最終目的是實現人與機器進行自然語言通信,用語言操縱計算機。在過去十年中,自動語音識別中已經取得了重大進展,其在我們日常生活中的應用也越來越廣泛,如一些電話機、手機已經包含了語音識別撥號功能,一些語音記事本、語音智能玩具等產品也包括了語音識別與語音合成功能。人們已經可以通過電話網絡使用語音查詢機票、旅游、酒店等的信息,大大方便了人們的生活。然而,語音識別還存在識別不精準,字詞的錯誤率較高的問題。本專利技術提出了一種基于深度神經網絡特征訓練的語音識別方法,Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,接著頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊;自動語音識別系統根據測試集上的字錯誤率進行評估,最終獲得識別結果。本專利技術應用的Gabor濾波器組中的濾波器子組能減少字詞識別錯誤率,表現出抗信道失真、低信噪比的特點;使用Gabor特征訓練的基于DNN的語音識別器,特別是高時間調制濾波器的語音識別器,誤差率較低,增強了目標類之間的可辨別性。
技術實現思路
針對字詞的錯誤率較高的問題,本專利技術的目的在于提供一種基于深度神經網絡特征訓練的語音識別方法,Gabor濾波器從語音信號提取自動語音識別特征,先根 ...
【技術保護點】
一種基于深度神經網絡特征訓練的語音識別方法,其特征在于,主要包括Gabor濾波器組特性(一);Gabor濾波器子組(二);深度神經網絡(DNN)實現(三);識別(四)。
【技術特征摘要】
1.一種基于深度神經網絡特征訓練的語音識別方法,其特征在于,主要包括Gabor濾波器組特性(一);Gabor濾波器子組(二);深度神經網絡(DNN)實現(三);識別(四)。2.基于權利要求書1所述的Gabor濾波器組特性(一),其特征在于,使用濾波器組中的一組二維Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,使用31個頻率信道;選擇Log-Mel頻譜圖作為起點;接著,頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;Gabor濾波器是復正弦函數和傳統的高斯窗的乘積;用漢寧窗口代替高斯窗,能獲得更好的識別分數;載波正弦波的周期性由弧度頻率wn和wk(n和k分別表示時間和頻率指數)定義,允許Gabor濾波器調諧到特定的光譜時間方向,純時間(wk=0)或純光譜(wn=0)調制。3.基于權利要求書2所述的濾波器,其特征在于,對于所有濾波器,局部濾波器的振蕩數目保持恒定,值為3.5;所有濾波器被限制為69個頻率信道和99個時間幀;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包絡寬度由窗長度Wn、Wk、中心頻率信道k0和中心時間幀n0參數化。4.基于權利要求書2所述的Gabor濾波器組,其特征在于,Gabor濾波器組包含一組時間、頻譜和頻譜時間濾波器,覆蓋寬度范圍的調制頻率;頻譜調制頻率以每個信道2的周期表示;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊。5.基于權利要求書4所述的信道,其特征在于,從特征矩陣中去除較大濾波器的頻道,對于具有最小頻譜范圍的濾波器,所有信道都保留;通過選擇以1kHz為中心的信道,將當前濾波器移動其頻譜大小的四分之一并保留其中心頻率信道來實現;由于Mel譜圖譜尺寸小于最大Gabor濾波器,匹配2D卷積的頻譜內容,并且保持每幀相同數目的特征而不引入顯著的邊界效應,初始和最后幀列分別填充在兩個時間端;基于根據奈奎斯特-香農定理的頻譜圖完美重建所需的最小窗口重疊來選擇偏移值;臨界采樣僅去除冗余信息。6.基于權利要求書1所述的Gabor濾波器子組(二),其特征在于,將原始濾波器劃分為具有低、中和高時間調制頻率的集合,其結果特征被稱為低時間調制頻率(從具有2.4和3.9Hz的時間調制的濾波器導出),中時間調制頻率(6.2和9.9Hz)和高時間調制頻率(15.7和25Hz);因為臨界采樣僅去除光譜通道,三個子組都留有...
【專利技術屬性】
技術研發人員:夏春秋,
申請(專利權)人:深圳市唯特視科技有限公司,
類型:發明
國別省市:廣東,44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。