【技術實現步驟摘要】
音頻分類方法和系統
本專利技術涉及音頻信號處理。更具體地,本專利技術的實施例涉及音頻分類方法和系統。
技術介紹
在許多應用中,需要對音頻信號進行識別和分類。一種這樣的分類是把音頻信號自動分類為話音、音樂或靜音。通常,音頻分類涉及從音頻信號中提取音頻特征以及用所訓練的分類器根據音頻特征進行分類。已經提出音頻分類的方法來自動估計輸入音頻信號的類型,使得能夠避免對音頻信號進行人工標記。這能夠被用于大量多媒體數據的高效分類和瀏覽。音頻分類也被廣泛地用于支持其它音頻信號處理部件。例如,話音-噪聲音頻分類器對于語音通信系統中使用的噪聲抑制系統有大的益處。作為另一個例子,在無線通信系統設備中,通過音頻分類,音頻信號處理能夠根據信號是話音、音樂還是靜音來對信號實現不同的編碼和解碼算法。本章節中描述的方案是能夠采取的方案,但不一定是先前已經構思或采取的方案。因此,除非另外指出,不應僅因為被包含在本章節中就假定本章節描述的任何方案適合作為現有技術。類似地,根據本章節而關于一個或更多個方案發現的問題不應被假定為任何現有技術中已經認識到的問題,除非另外指出。
技術實現思路
根據本專利技術一個實施例,提供一種音頻分類系統。該系統包含能夠在需要不同資源的至少兩個模式下工作的至少一個裝置。該系統也包含復雜度控制器,其確定組合并且指示該至少一個裝置根據該組合來工作。對于該至少一個裝置中的每個,該組合指定該裝置的模式之一,而該組合的資源要求不超過最大可用資源。該至少一個裝置可以包括預處理器、特征提取器、分類裝置和后處理器的至少之一,預處理器使音頻信號適配于音頻分類系統,特征提取器從音頻信號的分 ...
【技術保護點】
一種音頻分類系統,包括:能夠在需要不同資源的至少兩個模式下工作的至少一個裝置;以及復雜度控制器,其確定組合并且指示所述至少一個裝置根據所述組合來工作,其中對于所述至少一個裝置中的每個,所述組合指定所述裝置的模式之一,所述組合的資源要求不超過最大可用資源,其中所述至少一個裝置包括下列至少之一:預處理器,用于使音頻信號適配于所述音頻分類系統;特征提取器,用于從所述音頻信號的分段中提取音頻特征;分類裝置,用于通過訓練的模型,基于所提取的音頻特征來對所述分段進行分類;以及后處理器,用于平滑所述分段的音頻類型。
【技術特征摘要】
1.一種音頻分類系統,包括:能夠在需要不同資源的至少兩個模式下工作的至少一個裝置;以及復雜度控制器,其確定組合并且指示所述至少一個裝置根據所述組合來工作,其中對于所述至少一個裝置中的每個,所述組合指定所述裝置的模式之一,所述組合的資源要求不超過最大可用資源,其中所述至少一個裝置包括下列至少之一:預處理器,用于使音頻信號適配于所述音頻分類系統;特征提取器,用于從所述音頻信號的分段中提取音頻特征;分類裝置,用于通過訓練的模型,基于所提取的音頻特征來對所述分段進行分類;以及后處理器,用于平滑所述分段的音頻類型。2.如權利要求1所述的音頻分類系統,其中所述預處理器的所述至少兩個模式包含在進行濾波的情況下轉換所述音頻信號的采樣速率的模式,和在不進行濾波的情況下轉換所述音頻信號的采樣速率的另一個模式。3.如權利要求1或2所述的音頻分類系統,其中用于音頻分類的音頻特征能夠被分成不適合于預加重的第一類型和適合于預加重的第二類型,并且其中所述預處理器的至少兩個模式包含所述音頻信號直接被預加重并且把所述音頻信號和所述預加重的音頻信號轉換到頻域的模式,和把所述音頻信號轉換到頻域并且對所述轉換的音頻信號進行預加重的另一個模式,并且其中所述第一類型的音頻特征提取自未經過預加重的所述轉換音頻信號,第二類型的音頻特征提取自經預加重的所述轉換音頻信號。4.如權利要求3所述的音頻分類系統,其中所述第一類型包含子帶能量分布、頻率分解殘余、過零率、譜區間高能量比、低音指示和長期自相關特征中的至少之一,其中所述譜區間高能量比是每個所述分段的譜中能量高于閾值的頻率區間的數目與頻率區間的總數的比值,并且所述第二類型包含譜波動和梅爾頻率倒譜系數中的至少之一。5.如權利要求1所述的音頻分類系統,其中所述特征提取器被配置成:根據維納-辛欽定理計算音頻信號中長于第一閾值的分段的長期自相關系數,和計算有關所述長期自相關系數的、用于所述音頻分類的至少一項統計數據,其中所述特征提取器的所述至少兩個模式包含根據所述分段直接計算長期自相關系數的模式,和對所述分段進行抽減并且根據所述經過抽減的分段計算所述長期自相關系數的另一個模式。6.如權利要求5所述的音頻分類系統,其中所述統計數據包含以下各項中至少之一:1)均值:所有長期自相關系數的平均值;2)方差:所有長期自相關系數的標準差;3)High_Average:滿足以下條件至少之一的長期自相關系數的平均值:a)大于第二閾值;以及b)在預定比例的長期自相關系數內,所述預定比例的長期自相關系數不低于所有其它長期自相關系數;4)High_Value_Percentage:High_Average所涉及的長期自相關系數的數目與長期自相關系數的總數的比值;5)Low_Average:滿足以下條件至少之一的長期自相關系數的平均值:c)小于第三閾值;以及d)在預定比例的長期自相關系數內,所述預定比例的長期自相關系數不高于所有其它長期自相關系數;6)Low_Value_Percentage:Low_Average所涉及的長期自相關系數的數目與長期自相關系數的總數的比值;以及7)對比度:High_Average和Low_Average之間的比值。7.如權利要求1或2所述的音頻分類系統,其中用于音頻分類的音頻特征包含通過對經過低通濾波器濾波的每個分段應用過零率而獲得的低音指示特征,在所述低通濾波器中允許低頻敲擊分量通過。8.如權利要求1所述的音頻分類系統,其中所述特征提取器被配置成:對于每個所述分段,通過從所述分段的每個幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計算至少一級、二級和三級的頻率分解殘余;以及對于每個所述分段,關于所述分段的幀的相同級別的殘余計算至少一項統計數據,其中所計算的殘余和統計數據被包含在所述音頻特征中,并且其中所述特征提取器的所述至少兩個模式包含所述第一能量是所述譜的H1個最高頻率區間的總能量,所述第二能量是所述譜的H2個最高頻率區間的總能量,而所述第三能量是所述譜的H3個最高頻率區間的總能量的模式,其中H1<H2<H3,以及所述第一能量是所述譜的一個或更多個峰區域的總能量,所述第二能量是所述譜的一個或更多個峰區域的總能量,這些峰區域的一部分包含所述第一能量所涉及的峰區域,而所述第三能量是所述譜的一個或更多個峰區域的總能量,這些峰區域的一部分包含所述第二能量所涉及的峰區域的另一個模式。9.如權利要求8所述的音頻分類系統,其中所述統計數據包含以下各項中至少之一:1)相同分段的幀的相同級別的殘余的均值;2)方差:相同分段的幀的相同級別的殘余的標準差;3)Residual_High_Average:相同分段的幀的相同級別的、滿足下列條件中至少之一的殘余的平均值:a)大于第四閾值;以及b)在預定比例的殘余內,所述預定比例的殘余不低于所有其它殘余;4)Residual_Low_Average:相同分段的幀的相同級別的、滿足下列條件中至少之一的殘余的平均值:c)小于第五閾值;以及d)在預定比例的殘余內,所述預定比例的殘余不高于所有其它殘余;以及5)Residual_Contrast:Residual_High_Average和Residual_Low_Average之間的比值。10.如權利要求1或2所述的音頻分類系統,其中用于音頻分類的音頻特征包含譜區間高能量比,所述譜區間高能量比是每個所述分段的譜中能量高于第六閾值的頻率區間的數目與頻率區間的總數的比值。11.如權利要求10所述的音頻分類系統,其中所述第六閾值被計算為下列之一:1)所述分段的譜的平均能量,或所述分段周圍的分段范圍的譜的平均能量;2)所述分段的譜的加權平均能量,或所述分段周圍的分段范圍的譜的加權平均能量,其中所述分段具有相對較高的權重,所述范圍中的每個其它分段具有相對較低的權重,或者其中相對較高能量的每個頻率區間具有相對較高的權重,相對較低能量的每個頻率區間具有相對較低的權重;3)所述平均能量或加權平均能量的換算值;以及4)所述平均能量或加權平均能量加上或減去標準差。12.如權利要求1所述的音頻分類系統,其中所述分類裝置包括:具有不同優先級的至少兩個分類器級段的鏈,這些分類器級段按照優先級的降序排列;以及級段控制器,其確定從具有最高優先級的分類器級段開始的子鏈,其中所述子鏈的長度取決于所述組合中針對所述分類裝置的模式,其中每個所述分類器級段包括:分類器,其根據提取自每個所述分段的相應音頻特征生成當前類別估計,其中所述當前類別估計包含所估計的音頻類型和相應置信度;以及決策單元,其1)在所述分類器級段位于所述子鏈的開始處的情況下,確定所述當前置信度是否高于與所述分類器級段相關聯的置信度閾值;以及如果確定所述當前置信度高于所述置信度閾值,則通過輸出所述當前類別估計來終止音頻分類,否則將所述當前類別估計提供給所述子鏈中的所有后面的分類器級段,2)在所述分類器級段位于所述子鏈的中間的情況下,確定所述當前置信度是否高于所述置信度閾值,或確定所述當前類別估計和所有先前的類別估計是否能夠根據第一判決準則決定一個音頻類型;以及如果確定所述當前置信度高于所述置信度閾值,或所述類別估計能夠決定音頻類型,則通過輸出所述當前類別估計,或輸出所決定的音頻類型和相應置信度來終止音頻分類,否則將所述當前類別估計提供給所述子鏈中的所有后面的分類器級段,以及3)在所述分類器級段位于所述子鏈的結束處的情況下,通過輸出所述當前類別估計來終止音頻分類,或者確定所述當前類別估計和所有先前的類別估計是否能夠根據第二判決準則決定一個音頻類型;以及如果確定所述類別估計能夠決定音頻類型,則通過輸出所決定的音頻類型和相應置信度來終止音頻分類,否則通過輸出所述當前類別估計來終止音頻分類。13.如權利要求12所述的音頻分類系統,其中所述第一判決準則包括下列準則之一:1)如果所述當前置信度和對應于與所述當前音頻類型相同的音頻類型的先前置信度的平均置信度高于第七閾值,則能夠決定所述當前音頻類型;2)如果所述當前置信度和對應于與所述當前音頻類型相同的音頻類型的先前置信度的加權平均置信度高于第八閾值,則能夠決定所述當前音頻類型;以及3)如果決定與所述當前音頻類型相同的音頻類型的先前分類器級段的數目高于第九閾值,則能夠決定所述當前音頻類型,并且其中所輸出的置信度是所述當前置信度,或能夠決定所輸出的音頻類型的類別估計的置信度的加權或非加權平均,其中所述先前的置信度的權重高于后面的置信度的權重。14.如權利要求12所述的音頻分類系統,其中所述第二判決準則包括下列準則之一:1)在所有類別估計中,如果包含相同音頻類型的類別估計的數目最高,則所述相同音頻類型能夠被這些相應類別估計決定;2)在所有類別估計中,如果包含相同音頻類型的類別估計的加權數目最高,則所述相同音頻類型能夠被這些相應類別估計決定;以及3)在所有類別估計中,如果對應于相同音頻類型的置信度的平均置信度最高,則所述相同音頻類型能夠被相應類別估計決定,并且其中所輸出的置信度是所述當前置信度,或能夠決定所輸出的音頻類型的類別估計的置信度的加權或非加權平均,其中所述先前的置信度的權重高于后面的置信度的權重。15.如權利要求12所述的音頻分類系統,其中如果所述分類器級段之一所采用的分類算法在分類出所述音頻類型的至少之一方面具有較高的準確性,那么所述分類器級段被指定較高優先級。16.如權利要求12或15所述的音頻分類系統,其中用于每個在后分類器級段中的分類器的每個訓練樣本至少包括標記有正確音頻類型的音頻樣本,要由所述分類器識別的音頻類型,以及有關對應于每個所述音頻類型的置信度的統計數據,這些置信度是由所有先前的分類器級段根據所述音頻樣本生成的。17.如權利要求12或15所述的音頻分類系統,其中用于每個在后分類器級段中的分類器的訓練樣本至少包括標記有正確音頻類型但是被所有先前分類器級段誤分類或以低置信度分類的音頻樣本。18.如權利要求12所述的音頻分類系統,其中所述至少一個裝置包括所述特征提取器、所述分類裝置和所述后處理器,并且其中所述特征提取器被配置成:對于每個所述分段,通過從所述分段的每個幀的譜上的總能量E中分別至少移除第一能量、第二能量和第三能量來分別計算至少一級、二級和三級的頻率分解殘余;以及對于每個所述分段,關于所述分段的幀的相同級別的殘余計算至少一項統計數據,其中所計算的殘余和統計數據被包含在所述音頻特征中,并且其中所述特征提取器的所述至少兩個模式包含所述第一能量是所述譜的H1個最高頻率區間的總能量,所述第二能量是所述譜的H2個最高頻率區間的總能量,而所述第三能量是所述譜的H3個最高頻率區間的總能量的模式,其中H1<H2<H3,以及所述第一能量是所述譜的一個或更多個峰區域的總能量,所述第二能量是所述譜的一個或更多個峰區域的總能量,這些峰區域的一部分包含所述第一能量所涉及的峰區域,而所述第三能量是所述譜的一個或更多個峰區域的總能量,這些峰區域的一部分包含所述第二能量所涉及的峰區域的另一個模式,并且其中所述后處理器被配置成在所述音頻信號中搜索兩個重復部分,并且通過把所述兩個重復部分之間的分段當作非話音類型來平滑分類結果,并且其中所述后處理器的所述至少兩個模式包含采用相對長的搜索范圍的模式,和采用相對短的搜索范圍的另一個模式。19.如權利要求1所述的音頻分類系統,其中通過所述音頻分類針對所述音頻信號中的每個所述分段生成當前類別估計,其中每個所述當前類別估計包含所估計的音頻類型和相應置信度,并且其中所述后處理器的所述至少兩個模式包含確定窗口中對應于相同音頻類型的置信度的最高和數或平均值,并且當前音頻類型被所述相同音頻類型所代替的模式,以及采用具有相對短的長度的窗口,并且/或者確定所述窗口中對應于相同音頻類型的置信度的最高數目,當前音頻類型被所述相同音頻類型所代替的另一個模式。20.如權利要求1所述的音頻分類系統,其中所述后處理器被配置成在所述音頻信號中搜索兩個重復部分,并且通過把所述兩個重復部分之間的分段當作非話音類型來平滑分類結果,并且其中所述后處理器的所述至少兩個模式包含采用相對長的搜索范圍的模式,...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。