• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于深度神經網絡特征訓練的語音識別方法技術

    技術編號:15765087 閱讀:282 留言:0更新日期:2017-07-06 07:03
    本發明專利技術中提出的一種基于深度神經網絡特征訓練的語音識別方法,其主要內容包括:Gabor濾波器組特性、Gabor濾波器子組、深度神經網絡(DNN)實現、識別,其過程為,Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,接著,頻譜圖與Gabor濾波器組的每個2D濾波器進行卷積;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定重疊;自動語音識別系統根據測試集上的字錯誤率進行評估,最終獲得識別結果。本發明專利技術Gabor濾波器子組能減少字詞識別錯誤率,表現出抗信道失真、低信噪比的特點;使用高時間調制濾波器的語音識別器,誤差率較低,增強了目標類之間的可辨別性。

    A speech recognition method based on feature training of depth neural network

    The present invention in a speech recognition method based on the characteristics of the depth of the neural network training, the main contents include: Gabor filter characteristics, Gabor filter sub group, the depth of the neural network (DNN), to achieve recognition, the process for automatic speech recognition Gabor filter to extract the features from the speech signal, according to the standards for distributed speech recognition extracted from speech signal log Mel spectrum, then each 2D filter spectrum and Gabor filter convolution; choose specific modulation frequency, the filter transfer function in the frequency modulation domain showed constant overlap; automatic speech recognition system based on the test set and the word error rate evaluation, finally get recognition results. The invention of Gabor filter group can decrease the word recognition error rate, showing anti channel distortion, characteristics of low SNR; speech recognizer using high time modulation filter, the error rate is low, enhances the target class between distinguishabilty.

    【技術實現步驟摘要】
    一種基于深度神經網絡特征訓練的語音識別方法
    本專利技術涉及語音識別領域,尤其是涉及了一種基于深度神經網絡特征訓練的語音識別方法。
    技術介紹
    語音識別以語音為研究對象,涉及生理學、心理學、語言學、計算機科學以及信號處理等多個領域,其最終目的是實現人與機器進行自然語言通信,用語言操縱計算機。在過去十年中,自動語音識別中已經取得了重大進展,其在我們日常生活中的應用也越來越廣泛,如一些電話機、手機已經包含了語音識別撥號功能,一些語音記事本、語音智能玩具等產品也包括了語音識別與語音合成功能。人們已經可以通過電話網絡使用語音查詢機票、旅游、酒店等的信息,大大方便了人們的生活。然而,語音識別還存在識別不精準,字詞的錯誤率較高的問題。本專利技術提出了一種基于深度神經網絡特征訓練的語音識別方法,Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,接著頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊;自動語音識別系統根據測試集上的字錯誤率進行評估,最終獲得識別結果。本專利技術應用的Gabor濾波器組中的濾波器子組能減少字詞識別錯誤率,表現出抗信道失真、低信噪比的特點;使用Gabor特征訓練的基于DNN的語音識別器,特別是高時間調制濾波器的語音識別器,誤差率較低,增強了目標類之間的可辨別性。
    技術實現思路
    針對字詞的錯誤率較高的問題,本專利技術的目的在于提供一種基于深度神經網絡特征訓練的語音識別方法,Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,接著,頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊;自動語音識別系統根據測試集上的字錯誤率進行評估,最終獲得識別結果。為解決上述問題,本專利技術提供一種基于深度神經網絡特征訓練的語音識別方法,其主要內容包括:(一)Gabor濾波器組特性;(二)Gabor濾波器子組;(三)深度神經網絡(DNN)實現;(四)識別。其中,所述的Gabor濾波器組特性,使用濾波器組中的一組二維Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,使用31個頻率信道;選擇Log-Mel頻譜圖作為起點;接著,頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;Gabor濾波器是復正弦函數和傳統的高斯窗的乘積;用漢寧窗口代替高斯窗,能獲得更好的識別分數;載波正弦波的周期性由弧度頻率wn和wk(n和k分別表示時間和頻率指數)定義,允許Gabor濾波器調諧到特定的光譜時間方向,純時間(wk=0)或純光譜(wn=0)調制。進一步地,所述的濾波器,對于所有濾波器,局部濾波器的振蕩數目保持恒定,值為3.5;所有濾波器被限制為69個頻率信道和99個時間幀;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包絡寬度由窗長度Wn、Wk、中心頻率信道k0和中心時間幀n0參數化。進一步地,所述的Gabor濾波器組,Gabor濾波器組包含一組時間、頻譜和頻譜時間濾波器,覆蓋寬度范圍的調制頻率;頻譜調制頻率以每個信道2的周期表示;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊。進一步地,所述的信道,從特征矩陣中去除較大濾波器的頻道,對于具有最小頻譜范圍的濾波器,所有信道都保留;通過選擇以1kHz為中心的信道,將當前濾波器移動其頻譜大小的四分之一并保留其中心頻率信道來實現;由于Mel譜圖譜尺寸小于最大Gabor濾波器,匹配2D卷積的頻譜內容,并且保持每幀相同數目的特征而不引入顯著的邊界效應,初始和最后幀列分別填充在兩個時間端;基于根據奈奎斯特-香農定理的頻譜圖完美重建所需的最小窗口重疊來選擇偏移值;臨界采樣僅去除冗余信息。其中,所述的Gabor濾波器子組,將原始濾波器劃分為具有低、中和高時間調制頻率的集合,其結果特征被稱為低時間調制頻率(從具有2.4和3.9Hz的時間調制的濾波器導出),中時間調制頻率(6.2和9.9Hz)和高時間調制頻率(15.7和25Hz);因為臨界采樣僅去除光譜通道,三個子組都留有完全相同的通道;當使用高斯混合模型-隱馬爾可夫模型(GMM-HMM)識別器和Gabor濾波器組時,每個單獨的2D濾波器能觀察到的噪聲魯棒性;最有用的語言信息來自2~16Hz(以4Hz為主要分量)的調制頻率分量,高于或低于該范圍的分量可能降低識別精度;建立在4Hz和16Hz之間的調制頻譜分量的間隔對于語音識別度很重要;當存在較低分量時,顯示了高于16Hz的調制頻率的邊際貢獻;特征提取程序在6Hz附近對時間調制執行最佳。其中,所述的深度神經網絡(DNN)實現,該實現可分為兩個階段:預訓練和交叉熵調諧;在前一階段,使用對比發散,以貪婪的方式一次一層地訓練限制波爾茲曼機(RBM)的堆疊,也稱為深信任網絡(DBN);在后一階段,作為最終網絡的骨干,微調DBN,使用獨立開發集合、網絡輸出和標簽之間的交叉熵作為成本函數將幀分類為三元組;對于每個特征,訓練GMM系統而不改變任何基線配置(除了特征本身),提供上下文相關狀態到幀的對齊;執行預訓練初始化DNN,使用由GMM系統提供的類標簽;微調之后,使用由DNN產生的標簽重新訓練DNN。其中,所述的識別,Gabor濾波器組中的濾波器子組能夠進一步減少識別任務中字詞的錯誤率。進一步地,所述的識別標準,通常,自動語音識別系統根據測試集上的字錯誤率進行評估;作為評估特定特征,將輸入分離為可區分類別的程度的標準,選擇余弦相似性;基于L2,該度量不隨坐標系旋轉,因此可以比較不同特征之間的可辨性;余弦相似性定義為:其中,每個向量是給定音素類的所有收集的示例的質心(均值和方差歸一化),分子是相應音素類之間的內積,分母是其范數的乘積;余弦相似性測量由0和1之間的值表示的兩個向量之間的關系;該值越接近0,由這兩個向量形成的角度越寬。進一步地,所述的音素分離,通常,相似性表示音素分離在超空間中投影的接近程度,因此較高的值增加了由DNN執行的音素分離的難度;具有較大距離的類基本不會被混淆,相反地,較小的角度(相似性值接近1)導致較高的誤分類;通過計算列表中每個音素之間的相似性獲得相似性矩陣;這些矩陣是單位矩陣,相似性矩陣越像單位矩陣,系統的分類能力越好;對于每個語料庫,計算相似性矩陣能更好地理解由基于聽覺的特征編碼的信息與用于識別任務的DNN的組合的相關性。附圖說明圖1是本專利技術一種基于深度神經網絡特征訓練的語音識別方法的系統框架圖。圖2是本專利技術一種基于深度神經網絡特征訓練的語音識別方法的Gabor濾波器提取自動語音識別特征。圖3是本專利技術一種基于深度神經網絡特征訓練的語音識別方法的低、中和高時間調制的光譜-時間關系。具體實施方式需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結合,下面結合附圖和具體實施例對本專利技術作進一步詳細說明。圖1是本專利技術一種基于深度神經網絡特征訓練的語音識別方法的系統框架圖。主要包括Gabor濾波器組特性、Gabor濾波器子組、深度神本文檔來自技高網...
    一種基于深度神經網絡特征訓練的語音識別方法

    【技術保護點】
    一種基于深度神經網絡特征訓練的語音識別方法,其特征在于,主要包括Gabor濾波器組特性(一);Gabor濾波器子組(二);深度神經網絡(DNN)實現(三);識別(四)。

    【技術特征摘要】
    1.一種基于深度神經網絡特征訓練的語音識別方法,其特征在于,主要包括Gabor濾波器組特性(一);Gabor濾波器子組(二);深度神經網絡(DNN)實現(三);識別(四)。2.基于權利要求書1所述的Gabor濾波器組特性(一),其特征在于,使用濾波器組中的一組二維Gabor濾波器從語音信號提取自動語音識別特征,先根據分布式語音識別標準從語音信號中提取對數Mel頻譜圖,使用31個頻率信道;選擇Log-Mel頻譜圖作為起點;接著,頻譜圖與來自的Gabor濾波器組的每個2D濾波器進行卷積;Gabor濾波器是復正弦函數和傳統的高斯窗的乘積;用漢寧窗口代替高斯窗,能獲得更好的識別分數;載波正弦波的周期性由弧度頻率wn和wk(n和k分別表示時間和頻率指數)定義,允許Gabor濾波器調諧到特定的光譜時間方向,純時間(wk=0)或純光譜(wn=0)調制。3.基于權利要求書2所述的濾波器,其特征在于,對于所有濾波器,局部濾波器的振蕩數目保持恒定,值為3.5;所有濾波器被限制為69個頻率信道和99個時間幀;s(n,k)=exp(iwn(n-n0)+wk(k-k0))(1)包絡寬度由窗長度Wn、Wk、中心頻率信道k0和中心時間幀n0參數化。4.基于權利要求書2所述的Gabor濾波器組,其特征在于,Gabor濾波器組包含一組時間、頻譜和頻譜時間濾波器,覆蓋寬度范圍的調制頻率;頻譜調制頻率以每個信道2的周期表示;選擇特定的調制頻率,使得濾波器的傳遞函數在調制頻域中表現出恒定的重疊。5.基于權利要求書4所述的信道,其特征在于,從特征矩陣中去除較大濾波器的頻道,對于具有最小頻譜范圍的濾波器,所有信道都保留;通過選擇以1kHz為中心的信道,將當前濾波器移動其頻譜大小的四分之一并保留其中心頻率信道來實現;由于Mel譜圖譜尺寸小于最大Gabor濾波器,匹配2D卷積的頻譜內容,并且保持每幀相同數目的特征而不引入顯著的邊界效應,初始和最后幀列分別填充在兩個時間端;基于根據奈奎斯特-香農定理的頻譜圖完美重建所需的最小窗口重疊來選擇偏移值;臨界采樣僅去除冗余信息。6.基于權利要求書1所述的Gabor濾波器子組(二),其特征在于,將原始濾波器劃分為具有低、中和高時間調制頻率的集合,其結果特征被稱為低時間調制頻率(從具有2.4和3.9Hz的時間調制的濾波器導出),中時間調制頻率(6.2和9.9Hz)和高時間調制頻率(15.7和25Hz);因為臨界采樣僅去除光譜通道,三個子組都留有...

    【專利技術屬性】
    技術研發人員:夏春秋
    申請(專利權)人:深圳市唯特視科技有限公司
    類型:發明
    國別省市:廣東,44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码中文字| 国产高新无码在线观看| 乱色精品无码一区二区国产盗| 久久久久无码国产精品一区| 国产成人无码免费看视频软件| 日韩精品无码久久一区二区三| 亚洲AV永久无码区成人网站| 无码国产精品一区二区免费式影视| 西西4444www大胆无码| 久久亚洲精品成人av无码网站| 亚洲一本大道无码av天堂| 亚洲动漫精品无码av天堂| 全免费a级毛片免费看无码| 久久无码人妻一区二区三区午夜| 麻豆人妻少妇精品无码专区| 亚洲国产成人精品无码区在线秒播 | 国产爆乳无码一区二区麻豆| 一本大道在线无码一区| 亚洲V无码一区二区三区四区观看 亚洲爆乳精品无码一区二区三区 亚洲爆乳无码一区二区三区 | 蜜臀亚洲AV无码精品国产午夜.| 无码人妻丰满熟妇区免费 | 亚洲精品无码久久不卡| 亚洲国产精品无码久久久秋霞1 | 无码中文字幕日韩专区 | 亚洲综合无码一区二区三区| 国精品无码一区二区三区在线蜜臀| 亚洲精品无码av中文字幕| 无码超乳爆乳中文字幕久久| 红桃AV一区二区三区在线无码AV | 国产成人无码18禁午夜福利p| 色综合热无码热国产| 亚洲欧洲av综合色无码| 亚洲精品无码一区二区| 亚洲无码一区二区三区| 亚洲av极品无码专区在线观看| 日韩精品无码一区二区中文字幕| 特级无码毛片免费视频尤物| 亚洲国产精品无码久久久蜜芽| 无套内射在线无码播放| 精品无码国产自产拍在线观看| 精品少妇人妻av无码久久|