【技術實現步驟摘要】
一種多模態第一視角視頻分類方法及系統
[0001]本專利技術屬于計算機視覺
,尤其涉及一種多模態第一視角視頻分類方法及系統。
技術介紹
[0002]本部分的陳述僅僅是提供了與本專利技術相關的
技術介紹
信息,不必然構成在先技術。
[0003]隨著多傳感器可穿戴設備的出現,如,GoPro和谷歌Glass,第一視角的音視頻錄制在極限運動、健康監測、生活記錄和家庭自動化等許多領域變得流行起來。因此,計算機視覺領域對收集大規模數據集以及開發新的或調整現有方法以適應第一人稱視角場景重新產生了興趣,尤其是動作分類任務。目前,大多第一視角視頻動作分類方法僅考慮視覺模態信息用以區分不同動作,但是它們忽視了音頻信息對于第一視角視頻動作分類的重要性。第一視角視頻中蘊含了豐富的聲音,這些聲音來自手與物體之間的交互,以及可穿戴麥克風與正在進行的動作的近距離接觸。特別地,音頻是某些動作(例如,“洗
”?
和“煎”)以及動作中的對象 (例如,“放盤子”) 的主要鑒別器。有時,聲音的時間進展(或變化)可以分離視覺上模糊的動作(例如,“打開水龍頭”與“關閉水龍頭”)。音頻也可以捕捉在可穿戴相機的視野之外,但可以聽到的動作(例如,“吃”可以聽到但看不到)。由此可見,將音頻信息整合到第一視角視頻動作分類中是十分必要的。
[0004]據前期調研可知,目前有兩個基于音頻
?
視覺的第一視角動作分類方法。其中,一個方法采用傳統特性融合方式將多個模態特征拼接起來,用于預測最終輸出。雖然該融合機制允許低級別模態特 ...
【技術保護點】
【技術特征摘要】
1.一種多模態第一視角視頻分類方法,其特征在于,包括:獲取視頻數據,采用已訓練的第一視角視頻分類網絡,得到視頻動作類別;所述第一視角視頻分類網絡的訓練過程包括:獲取視頻數據和視頻動作類別,提取視頻數據的視覺表示序列和音頻表示序列;基于視覺表示序列和音頻表示序列,采用基于聯合表示的交叉注意模塊,得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列;計算聯合表示增強的視覺特征表示序列對應的視覺模態的自監督對比損失函數,計算聯合表示增強的音頻特征表示序列對應的音頻模態的自監督對比損失函數;根據聯合表示增強的視覺特征表示序列,得到視覺模態的分類預測結果;根據聯合表示增強的音頻特征表示序列,得到音頻模態的分類預測結果;根據視覺模態的分類預測結果、音頻模態的分類預測結果結合視頻動作類別,計算分類預測損失函數;將視覺模態的自監督對比損失函數、音頻模態的自監督對比損失函數和分類預測損失函數相加,得到聯合損失函數,用于聯合優化第一視角視頻分類網絡,得到已訓練的第一視角視頻分類網絡。2.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,所述提取視頻數據的視覺表示序列和音頻表示序列的過程具體包括:提取視頻數據的視頻幀序列,將視頻幀序列輸入SlowFast網絡,得到視覺表示序列;提取視頻數據的音頻數據,提取音頻數據中Mel波段的log
?
Mel光譜圖序列,將log
?
Mel光譜圖序列輸入Auditory SlowFast網絡,得到音頻表示序列。3.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,所述得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列的過程具體包括:根據視覺表示序列和音頻表示序列,計算視覺模態和音頻模態的聯合表示;根據視覺模態和音頻模態的聯合表示,分別計算視覺特征與聯合表示的聯合相關矩陣和音頻特征與聯合表示的聯合相關矩陣;根據視覺特征與聯合表示的聯合相關矩陣和視覺表示序列,計算視覺模態的注意力權值;根據音頻特征與聯合表示的聯合相關矩陣和音頻表示序列,計算音頻模態的注意力權值;根據視覺模態的注意力權值和視覺表示序列,計算聯合表示增強的視覺特征表示序列;根據音頻模態的注意力權值和音頻表示序列,計算聯合表示增強的音頻特征表示序列。4.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,計算視覺模態的自監督對比損失函數的具體過程包括:對聯合表示增強的視覺特征表示序列在時間維度上進行平均池化,得到視覺模態的全局特征向量;對于每個輸入的視頻數據,隨機抽取與該視頻數據對應的視頻動作類別相同的正樣本視頻數據和不同的負樣本視頻數據;計算正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量;采用該視頻數據視覺模態的全局特征向量、正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量,對視頻模態進行對比學習,得到視覺模態的自監督對比損失函數。5.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,計算音頻模態的
自監督對比損失函數...
【專利技術屬性】
技術研發人員:劉萌,張風雷,宋雪萌,許海振,郭杰,王少華,
申請(專利權)人:山東建筑大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。