本發明專利技術一種基于BP神經網絡的說話人識別方法,其步驟是:分為語音訓練階段和語音識別階段兩個步驟。其特征在于:所述語音訓練階段的步驟是:首先對說話人語音進行語音訓練,得到語音預處理信號。采用MFCC語音參數提取法對語音預處理信號進行特征提取,然后采用PSO-BP神經網絡進行模型訓練,經過訓練后的模型,建立和優化PSO-BP神經網絡模型庫。語音識別階段時,采用和語音訓練階段時一樣的方法。在BP神經網絡中輸入上述特征參數,并由pso-BP流程算法計算輸出結果,將輸出的結果與數據庫中的期望識別身份逐一進行比較,將識別誤差最小的那個身份作為最后的識別結果。
【技術實現步驟摘要】
一種基于BP神經網絡的說話人識別方法
本專利技術涉及說話人識別技術,特別是涉及一種基于BP神經網絡的說話人識別方法。
技術介紹
說話人識別(Speaker Recognition, SR)又稱話者識別,是指通過對說話人語音信號的分析處理,自動確認說話人的技術。其綜合了生理學、語音學、數字信號處理、模式識另O、人工智能等學科知識的一個研究課題,以獨特的方便性、經濟性和準確性等優勢,在相關領域內發揮著重要作用,并有著廣闊的市場背景。說話人識別的基本原理,是利用說話人的語音為每個說話人建立一個能夠描述此說話人特點的模型,作為此說話人語音特征參數的標準模板,然后針對測試的語音信號進行比對,實現判別說話人身份的目的。說話人的個性特征一定程度上體現在說話人的發音聲道變化上,即聲道特征可以更好地對說話人進行識別。基于聲道的特征主要有:(I)美爾倒譜系數(Mel-frequencyCepstralCoefficients, MFCC),是基于聽覺系統的臨界帶效應、在Mel標度頻率域提取出來的一種倒譜參數。它能夠比較充分利用人耳這種特殊的感知特性,這種特征具有比較強的魯棒性,得到了廣泛應用。(2)線性預測倒譜系數(LinearPredictionCepstrumCoefficient, LPCC),1947年維納首次提出了線性預測這一術語,而板倉等人在1967年首先將線性預測技術應用到了語音分析和合成中。LPCC是最早被應用到語音識別中的一種倒譜參數,其主要優點是比較徹底地去掉了語音產生過程中的激勵信息,主要反映聲道響應,計算量小,并且對元音有較好地描述能力,而且往往只需要十幾個倒譜系數就能較好地描述語音的共振峰特性,因此在說話人識別中得到了良好的應用。在語音技術研究及應用領域,語音信號的識別算法有三種:基于聲道模型和語音知識的方法、模板匹配的方法以及利用人工神經網絡的方法?;诼暤滥P秃驼Z音知識方面的研究雖然起步較早,但由于其復雜性,現階段沒有取得很好的實用效果。模板匹配的方法有動態時間規整(DTW)、隱馬爾科夫(HMM)理論、矢量量化(VQ)技術,這些算法在噪聲環境下干擾能力差,不能達到良好的識別效果。人工神經網絡方法具有自適應性、并進行性、魯棒性、容錯性和學習特性,其強大的分類能力和輸入-輸出映射能力在語音識別中都極具吸引力。反向傳播(BackPropagation, BP)網絡是一種誤差逆向傳播算法訓練的多層前饋網絡,具有大規模并行處理、分布式信息存儲、良好的自組織自學習能力及原理簡單、容易實現等優點。但其也存在固有的缺陷:容易陷入局部極小,收斂速度慢,網絡泛化能力較弱。而遺傳算法作為一種全局優化算法,可以快速的搜索出解空間中的全體,而不會出現落入局部最優解的下降陷阱,同時由于遺傳算法具有分布式計算的特點,在實際求解時可以加快速度,且比傳統的BP神經網絡具有較強的預測精度。并且預測的均方誤差也較小。
技術實現思路
本專利技術的目的就是為了克服上述現有技術存在的缺陷而提供一種基于BP神經網絡的說話人識別方法。本專利技術的目的可以通過以下技術方案來實現:一種基于BP神經網絡的說話人識別方法,其步驟是:分為語音訓練階段和語音識別階段兩個步驟;其特征在于:所述語音訓練階段的步驟是:首先對說話人語音進行語音訓練,獲取說話人語音信號,并得到語音預處理信號。采用MFCC語音參數提取法對語音預處理信號進行特征提取,求得說話人的特征參數;然后采用PSO-BP神經網絡進行模型訓練,經過訓練后的模型,建立和優化PSO-BP神經網絡模型庫。2.語音識別時,采用和語音訓練階段時一樣的方法,從待識別的語音中提取出語音特征。在BP神經網絡中輸入上述特征參數,然后分別調用模型庫中每個人已保存好的網絡權值;并由PS0-BP流程算法計算輸出結果,將輸出的結果與數據庫中的期望識別身份逐一進行比較,將識別誤差最小的那個身份作為最后的識別結果。本專利技術的有益效果是:本專利技術利用MFCC和BP神經網絡相結合,本專利技術公開的說話人識別方法能夠更有效的識別說話人,本專利技術以標準反向傳播算法(Back Propagation) BP神經網絡作為參考對象,通過使用粒子群算法來優化BP神經網絡以減小異常聲音的誤判,比傳統BP神經網絡具有更強的預測精度,并且預測的均方誤差也較小,具有廣泛的應用前景?!靖綀D說明】圖1是本專利技術語音識別過程示意圖。圖2是本專利技術MFCC語音參數提取示意圖。圖3是本專利技術pso-BP流程算法不意圖。圖4是本專利技術PSO-BP神經網絡示意圖?!揪唧w實施方式】下面結合附圖和【具體實施方式】對本專利技術進行詳細說明。根據圖1、圖2、圖3、圖4所示的一種基于BP神經網絡的說話人識別方法,其步驟是:分為語音訓練階段和語音識別階段兩個步驟;其特征在于:所述語音訓練階段的步驟是:首先對說話人語音進行語音訓練,獲取說話人語音信號,并得到語音預處理信號。即:語音信號預處理,包括:由預加重、端點檢測、分幀和加窗分為四個部分。1.預加重由于語音信號的高頻端呈現快衰落,頻率越高的語音信號頻譜相應的信號成分越小,為此要進行預加重。預加重的目的是將更為有用的高頻部分的頻譜進行提升,使信號的頻譜變得平坦,保持在低頻到高頻的整個頻帶內,能用同樣的信噪比求頻譜,以便于進行頻譜分析或聲道參數分析。預加重的傳遞函數為:H(s) =1-Us-1其中μ為預加重系數,可取為I或比I稍小的值,一般取,μ = 0.95。2.端點檢測端點檢測的目的是從包含語音的一段信號中確定出語音的起點以及終點。有效地端點檢測不僅能使處理時間減到最小,而且能排除無聲段的噪聲干擾,從而使識別系統具有良好的識別性能。端點檢測技術大都是基于語音信號的時域特征來進行的,本文采用兩種時域特征:短時能量和短時過零率,通過設定它們的門限來進行檢測。短時能量定義為:本文檔來自技高網...
【技術保護點】
一種基于BP神經網絡的說話人識別方法,其步驟是:分為語音訓練階段和語音識別階段兩個步驟;其特征在于:所述語音訓練階段的步驟是:首先對說話人語音進行語音訓練,獲取說話人語音信號,并得到語音預處理信號;即:語音信號預處理,包括預加重、端點檢測、分幀和加窗。
【技術特征摘要】
1.一種基于BP神經網絡的說話人識別方法,其步驟是:分為語音訓練階段和語音識別階段兩個步驟;其特征在于:所述語音訓練階段的步驟是:首先對說話人語音進行語音訓練,獲取說話人語音信號,并得到語音預處理信號;即:語音信號預處理,包括預加重、端點檢測、分幀和加窗。2.根據權利要求1所述一種基于BP神經網絡的說話人識別方法,其特征在于:所述MFCC語音參數提取法對語音預處理信號進行特征提取,求得說話人的特征參數;即:MFCC語音參數提取示方法如下: (1)經過預處理的語音信號X(n,(Ok)的幅度將被Mel刻度濾波器組的頻率響應加權。Mel刻度濾波器組的中心頻率按Mel頻率均勻排列,每個三角濾波器的兩個底點是相鄰濾波器的中心,這些濾波器的中心頻率和帶寬與聽覺臨界邊帶濾波器組大體一致;在系統中Mel刻度濾波器個數取值為28 ; (2)該步計算經Mel刻度濾波器頻響加權后的能量值,表示第一個濾波器ν?(ω)的頻率響應;時刻η的語音幀的第I個Mel刻度濾波器輸出的能量為Emel (η, I),計算公式 3.根據權利要求2所述一種基于BP神經網絡的說話人識別方法,其特征在于:所述PSO-BP神經網絡進行模型訓練,經過訓練后的模型,建立和優化PSO-BP神經網絡模型庫;即:PS0-BP神經網絡的建立和優化的模型庫如下: 步驟1:初始化 初始化BP網絡結構,包括設定網絡的輸入層、隱含層、輸出...
【專利技術屬性】
技術研發人員:周婷婷,李燕萍,
申請(專利權)人:周婷婷,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。