一種基于深度學習技術的大規模鳥聲識別方法技術

技術編號：44291272 閱讀：16 留言：0更新日期：2025-02-14 22:25

本申請涉及人工智能與鳥類生態學交叉領域，其具體地公開了一種基于深度學習技術的大規模鳥聲識別方法，該方法通過項目區域錄音設備采集鳥聲音頻，利用Bird?audio?detection?challenge?2018數據集訓練鳥聲事件檢測模型，并用野外錄音數據進行類別預測，分離出有效鳥聲和背景噪聲；同時結合中國觀鳥記錄中心的鳥種目錄和Xeno?Canto的音頻文件，構建鳥聲識別數據集，使用背景噪聲和鳥聲識別數據集訓練鳥聲識別模型，并進行驗證；最終，將有效鳥聲數據輸入模型進行標簽預測，以識別鳥聲。本發明專利技術旨在通過深度學習技術，對在建項目區域開展廣泛的鳥類聲音識別，從而節省數據處理成本，提高復雜場景下的識別準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能與鳥類生態學交叉領域，且更為具體地，涉及一種基于深度學習技術的大規模鳥聲識別方法。

技術介紹

1、在鳥類生態學和環境監測領域，專家們一直在探索如何更有效地監測和研究鳥類。主動鳴聲監測是一種傳統方法，通過人工錄音來捕捉鳥類鳴聲，但這種方法成本高且可能影響鳥類自然行為。隨著技術進步，被動聲監測技術開始流行，它通過安裝傳感器自動記錄聲音，減少了人為偏差，但需要大量人工后期進行分析鑒定。

2、有不少研究者將人工智能(ai)引入被動監測，尤其是深度學習算法，為這一領域帶來了革命性的變化。ai可以處理大量數據，提高監測效率，減少人力需求。例如，基于densenet121網絡結構的ai模型在鳥聲識別上取得了96.9％的高準確率。

3、然而，目前大部分算法主要只能針對既定數據集中的有限的鳥聲音頻進行識別，但在包括多類別鳥種的帶噪自然環境下的綜合識別能力并不理想，除了算法本身的魯棒性尚欠缺，更是因為缺乏足夠多樣和可靠的鳥聲錄音資料來訓練ai模型。

4、此外，目前的ai研究大多集中在識別鳥類類別上，而對于鳥類發聲行為與生態環境關系的研究較少。在實際應用中，ai在復雜聲學場景下的識別能力不足，限制了其在長期、大范圍生物多樣性研究中的應用。

5、因此，提供一種基于深度學習技術的大規模鳥聲識別方法。

技術實現思路

1、為了解決上述技術問題，提出了本申請。本申請提供了一種基于深度學習技術的大規模鳥聲識別方法，該方法旨在通過深度學習技術，對在建項

2、具體地，根據本申請的一個方面，提供了一種基于深度學習技術的大規模鳥聲識別方法，其包括：

3、s1、使用項目區域錄音設備采集項目區域附近的鳥聲音頻以得到野外錄音數據；

4、s2、將從鳥聲事件檢測的競賽bird?audio?detection?challenge?2018-dcasetask?3中獲取的三個數據集作為鳥聲事件檢測數據集，用于訓練鳥聲事件檢測模型；

5、s3、將所述野外錄音數據輸入到訓練后的鳥聲事件檢測模型中進行類別預測，以得到有效鳥聲數據和背景噪聲數據；

6、s4、從中國觀鳥記錄中心獲取項目地區記錄到的鳥種目錄，同時在xeno-canto中下載對應鳥種的音頻文件，并對所述音頻文件進行數據預處理操作以得到鳥聲識別數據集；

7、s5、使用所述背景噪聲數據和所述鳥聲識別數據集來訓練鳥聲識別模型；

8、s6、對訓練后的鳥聲識別模型進行驗證；

9、s7、將所述有效鳥聲數據輸入到所述鳥聲識別模型中進行標簽預測，以得到識別結果；

10、其中，在所述鳥聲事件檢測模型和所述鳥聲識別模型的構建過程中，將所述鳥聲事件檢測數據集中的頻譜圖和所述鳥聲識別數據集中的頻譜圖分別作為輸入，并選擇ecapa-tdnn模型作為模型基礎架構，具體的模型構建過程為：

11、對鳥聲事件檢測數據集中的頻譜圖和鳥聲識別數據集中的頻譜圖分別進行頻帶分割預處理，生成具有不同頻帶特征的子帶z；

12、對分割后的頻帶特征進行l2歸一化處理，并連接全連接層以增加特征之間的復雜關聯性；

13、采用基于稀疏矩陣的加速策略，使用coo(coordinate?format)存儲格式，對稀疏矩陣中的非零元素進行矩陣乘法運算，以提高計算效率和資源利用率；

14、使用ecapa-tdnn模型捕捉頻譜圖的語音特征，其中ecapa-tdnn模型結合了膨脹卷積、res2net結構和senet模塊；

15、在ecapa-tdnn模型的輸出后接上全連接層，將特征空間映射到類別空間；

16、其中，鳥聲事件檢測模型的全連接層輸出2個節點，其輸出的數值經過softmax函數后分別表示鳥聲樣本和噪聲樣本的概率，其輸出的數值經過softmax函數后鳥聲識別模型的全連接層輸出179個節點，分別表示179種鳥類的概率。

17、可選地，所述s4，包括：s41、人工檢查所述音頻文件的頻譜圖和波形圖，過濾掉低質量、錯誤標簽的音頻；s42、對長音頻每30s切割一次，若最后一段音頻不足30s，大于15s時則保留，低于15s則舍棄；s43、刪除長度小于2s的原始音頻片段。

18、可選地，所述s5，包括：s51，將所述鳥聲識別數據集中聲學信號的采樣率統一為32，000khz，音頻格式統一轉換為無高頻損耗的wav格式，以得到預處理后的音頻數據；s52，將預處理后的音頻數據進行隨機切片，切片長度統一為10s；s53，對切片后的音頻數據的幅度進行歸一化處理；s54，將所述背景噪聲數據以50％的概率混入到歸一化處理后的音頻數據中，以得到音頻樣本數據；s55，將音頻樣本數據的對數梅爾譜圖進行頻譜增強，其中包括在時域上隨機掩碼0至5幀，在頻域上隨機掩碼0至10通道；s56，使用語速擾動、音量增強和加入高斯噪聲等技術來訓練模型。

19、特別地，在所述s56過程中，采用逐步融合策略將基于角度間隔的損失函數融入交叉熵損失函數，具體過程為：在訓練初期依賴交叉熵損失函數lce來進行優化，此時β(t)≈0，其公式為：

20、

21、隨著模型逐步收斂，β(t)開始逐漸增大，逐步引入基于角度間隔的損失函數laam中的角度間隔，其公式為：

22、lfuse(t)＝lce+β(t)·laam；

23、在訓練的后期，β(t)增長到接近1的較高值，此時基于角度間隔的損失函數laam占據主導地位，交叉熵損失的影響逐漸減小，其公式為：

24、

25、其中，n是樣本數，c是類別數，xi是第i個輸入樣本的特征，wj是分類層的權重，yi是正確類別，m是增加的角度間隔，s是一個可調節的尺度因子，代表第i個樣本與它的正確類別權重之間的角度，t是訓練步長，β(t)為隨訓練步長t逐漸變化的權重系數。

26、特別地，在所述s56過程中，采用自適應學習率調整策略提升模型的訓練效率和泛化能力，具體操作為：在模型訓練的早期階段，通過warmup策略逐漸增加學習率，使用adam優化器加速模型的收斂；設置batch?size為64；在模型訓練過程中，系統根據損失函數的變化情況，動態調整訓練epoch的數量；在訓練的后期，采用余弦退火的方式逐漸降低學習率，以進行精細調優。

27、可選地，所述s6，為了比較與評估本方法中各個模型性能，使用以下評估指標：

28、

29、其中,tp表示真陽性樣本、tn表示真陰性樣本、fp表示假陽性樣本、fn表示假陰性樣本。

30、可選地，所述s7，使用兩種策略來判定正確識別結果，分別為：第一種策略，取鳥聲識別模型輸出概率0.7作為判斷正確的閾值，即輸出概率大于或等于0.7的音頻樣本作為模型正本文檔來自技高網...

【技術保護點】

1.一種基于深度學習技術的大規模鳥聲識別方法，其特征在于，包括：

2.根據權利要求1所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述S4，包括：

3.根據權利要求2所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述S5，包括：

4.根據權利要求3所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，在所述S56過程中，采用逐步融合策略將基于角度間隔的損失函數融入交叉熵損失函數，具體過程為：

5.根據權利要求4所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，在所述S56過程中，采用自適應學習率調整策略提升模型的訓練效率和泛化能力，具體操作為：

6.根據權利要求5所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述S6，為了比較與評估本方法中各個模型性能，使用以下評估指標：

7.根據權利要求6所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述S7，使用兩種策略來判定正確識別結果，分別為：

8.根據權利要求7所述的基于深度學習技術的大規模鳥聲識別方法，其

9.一種基于深度學習技術的大規模鳥聲識別系統，其特征在于，包括：

...

【技術特征摘要】

1.一種基于深度學習技術的大規模鳥聲識別方法，其特征在于，包括：

2.根據權利要求1所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述s4，包括：

3.根據權利要求2所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，所述s5，包括：

4.根據權利要求3所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，在所述s56過程中，采用逐步融合策略將基于角度間隔的損失函數融入交叉熵損失函數，具體過程為：

5.根據權利要求4所述的基于深度學習技術的大規模鳥聲識別方法，其特征在于，在所述s56...

【專利技術屬性】
技術研發人員：王杰，胡濤，李金暉，袁旻忞，
申請(專利權)人：廣州大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術