• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種多模態第一視角視頻分類方法及系統技術方案

    技術編號:36695986 閱讀:27 留言:0更新日期:2023-02-27 20:08
    本發明專利技術屬于計算機視覺領域,提供了一種多模態第一視角視頻分類方法及系統。該方法包括,獲取視頻數據和視頻動作類別,提取視頻數據的視覺表示序列和音頻表示序列;采用基于聯合表示的交叉注意模塊,得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列;計算視覺模態的自監督對比損失函數和音頻模態的自監督對比損失函數;計算視覺模態的分類預測結果和音頻模態的分類預測結果;計算分類預測損失函數;構建聯合損失函數,用于聯合優化第一視角視頻分類網絡,得到已訓練的第一視角視頻分類網絡。本發明專利技術針對每個模態應用自監督對比學習來增強模態內特征,使這些特征不受與動作有關的干擾因素的影響,提升了動作分類的精準度。作分類的精準度。作分類的精準度。

    【技術實現步驟摘要】
    一種多模態第一視角視頻分類方法及系統


    [0001]本專利技術屬于計算機視覺
    ,尤其涉及一種多模態第一視角視頻分類方法及系統。

    技術介紹

    [0002]本部分的陳述僅僅是提供了與本專利技術相關的
    技術介紹
    信息,不必然構成在先技術。
    [0003]隨著多傳感器可穿戴設備的出現,如,GoPro和谷歌Glass,第一視角的音視頻錄制在極限運動、健康監測、生活記錄和家庭自動化等許多領域變得流行起來。因此,計算機視覺領域對收集大規模數據集以及開發新的或調整現有方法以適應第一人稱視角場景重新產生了興趣,尤其是動作分類任務。目前,大多第一視角視頻動作分類方法僅考慮視覺模態信息用以區分不同動作,但是它們忽視了音頻信息對于第一視角視頻動作分類的重要性。第一視角視頻中蘊含了豐富的聲音,這些聲音來自手與物體之間的交互,以及可穿戴麥克風與正在進行的動作的近距離接觸。特別地,音頻是某些動作(例如,“洗
    ”?
    和“煎”)以及動作中的對象 (例如,“放盤子”) 的主要鑒別器。有時,聲音的時間進展(或變化)可以分離視覺上模糊的動作(例如,“打開水龍頭”與“關閉水龍頭”)。音頻也可以捕捉在可穿戴相機的視野之外,但可以聽到的動作(例如,“吃”可以聽到但看不到)。由此可見,將音頻信息整合到第一視角視頻動作分類中是十分必要的。
    [0004]據前期調研可知,目前有兩個基于音頻
    ?
    視覺的第一視角動作分類方法。其中,一個方法采用傳統特性融合方式將多個模態特征拼接起來,用于預測最終輸出。雖然該融合機制允許低級別模態特征交互,但它未能充分挖掘模態間交互關系,因此性能改善有限。另一個方法,利用基于Transformer的交叉注意來捕捉跨模態關系,但它們未能有效利用視覺和音頻間的互補關系。此外,最重要的是,上述方法不能很好地規避背景等干擾因素的影響,容易對發生在不同場景下的同一動作得到不同分類結果。比如,“吃”可能發生在完全不同背景和語境的不同地點。
    [0005]因此,如何改進多模態學習范式以及利用不同模態間的互補性關系進行第一視角視頻動作分類成為一個亟待探究的問題。

    技術實現思路

    [0006]為了解決上述
    技術介紹
    中存在的技術問題,本專利技術提供一種多模態第一視角視頻分類方法及系統,其針對每個模態應用自監督對比學習,來增強模態內特征表示,使這些特征不受與動作有關的干擾因素的影響;同時,有效地利用不同模態之間的互補關系進行動作分類,顯著提升動作分類的精準度。
    [0007]為了實現上述目的,本專利技術采用如下技術方案:本專利技術的第一個方面提供一種多模態第一視角視頻分類方法。
    [0008]一種多模態第一視角視頻分類方法,包括:
    獲取視頻數據,采用已訓練的第一視角視頻分類網絡,得到視頻動作類別;所述第一視角視頻分類網絡的訓練過程包括:獲取視頻數據和視頻動作類別,提取視頻數據的視覺表示序列和音頻表示序列;基于視覺表示序列和音頻表示序列,采用基于聯合表示的交叉注意模塊,得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列;計算聯合表示增強的視覺特征表示序列對應的視覺模態的自監督對比損失函數,計算聯合表示增強的音頻特征表示序列對應的音頻模態的自監督對比損失函數;根據聯合表示增強的視覺特征表示序列,得到視覺模態的分類預測結果;根據聯合表示增強的音頻特征表示序列,得到音頻模態的分類預測結果;根據視覺模態的分類預測結果、音頻模態的分類預測結果結合視頻動作類別,計算分類預測損失函數;將視覺模態的自監督對比損失函數、音頻模態的自監督對比損失函數和分類預測損失函數相加,得到聯合損失函數,用于聯合優化第一視角視頻分類網絡,得到已訓練的第一視角視頻分類網絡。
    [0009]進一步地,所述提取視頻數據的視覺表示序列和音頻表示序列的過程具體包括:提取視頻數據的視頻幀序列,將視頻幀序列輸入SlowFast網絡,得到視覺表示序列;提取視頻數據的音頻數據,提取音頻數據中Mel波段的log
    ?
    Mel光譜圖序列,將log
    ?
    Mel光譜圖序列輸入Auditory SlowFast網絡,得到音頻表示序列。
    [0010]進一步地,所述得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列的過程具體包括:根據視覺表示序列和音頻表示序列,計算視覺模態和音頻模態的聯合表示;根據視覺模態和音頻模態的聯合表示,分別計算視覺特征與聯合表示的聯合相關矩陣和音頻特征與聯合表示的聯合相關矩陣;根據視覺特征與聯合表示的聯合相關矩陣和視覺表示序列,計算視覺模態的注意力權值;根據音頻特征與聯合表示的聯合相關矩陣和音頻表示序列,計算音頻模態的注意力權值;根據視覺模態的注意力權值和視覺表示序列,計算聯合表示增強的視覺特征表示序列;根據音頻模態的注意力權值和音頻表示序列,計算聯合表示增強的音頻特征表示序列。
    [0011]進一步地,計算視覺模態的自監督對比損失函數的具體過程包括:對聯合表示增強的視覺特征表示序列在時間維度上進行平均池化,得到視覺模態的全局特征向量;對于每個輸入的視頻數據,隨機抽取與該視頻數據對應的視頻動作類別相同的正樣本視頻數據和不同的負樣本視頻數據;計算正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量;采用該視頻數據視覺模態的全局特征向量、正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量,對視頻模態進行對比學習,得到視覺模態的自監督對比損失函數。
    [0012]進一步地,計算音頻模態的自監督對比損失函數的過程具體包括:對聯合表示增強的音頻特征表示序列在時間維度上進行平均池化,得到音頻模態
    的全局特征向量;對于每個輸入的視頻數據,隨機抽取與該視頻數據對應的視頻動作類別相同的正樣本視頻數據和不同的負樣本視頻數據;計算正樣本視頻數據音頻模態的全局特征向量和不同的負樣本視頻數據音頻模態的全局特征向量;采用該視頻數據音頻模態的全局特征向量、正樣本視頻數據音頻模態的全局特征向量和不同的負樣本視頻數據音頻模態的全局特征向量,對音頻模態進行對比學習,得到音頻模態的自監督對比損失函數。
    [0013]進一步地,所述得到視覺模態的分類預測結果和得到音頻模態的分類預測結果的過程具體包括:將聯合表示增強的視覺特征表示序列分別輸入動作動詞預測分類器和動作名詞預測分類器中,得到視覺模態的分類預測結果,所述視覺模態的分類預測結果包括視覺模態動詞預測結果和視覺模態名詞預測結果;將聯合表示增強的音頻特征表示序列分別輸入動作動詞預測分類器和動作名詞預測分類器中,得到音頻模態的分類預測結果,所述音頻模態的分類預測結果包括:音頻模態動詞預測結果和音頻模態名詞預測結果。
    [0014]進一步地,所述用于聯合優化第一視角視頻分類網絡,得到已訓練的第一視角視頻分類網絡的具體過程包括:基于聯合損失函數,采用Adam優化器進行第一視角視頻分類網絡的參數優化更新,直到第一視角視頻分類網絡的參數滿足設定的閾值,得到已訓練的第一視角視頻分類網絡。
    [0015]本發本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種多模態第一視角視頻分類方法,其特征在于,包括:獲取視頻數據,采用已訓練的第一視角視頻分類網絡,得到視頻動作類別;所述第一視角視頻分類網絡的訓練過程包括:獲取視頻數據和視頻動作類別,提取視頻數據的視覺表示序列和音頻表示序列;基于視覺表示序列和音頻表示序列,采用基于聯合表示的交叉注意模塊,得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列;計算聯合表示增強的視覺特征表示序列對應的視覺模態的自監督對比損失函數,計算聯合表示增強的音頻特征表示序列對應的音頻模態的自監督對比損失函數;根據聯合表示增強的視覺特征表示序列,得到視覺模態的分類預測結果;根據聯合表示增強的音頻特征表示序列,得到音頻模態的分類預測結果;根據視覺模態的分類預測結果、音頻模態的分類預測結果結合視頻動作類別,計算分類預測損失函數;將視覺模態的自監督對比損失函數、音頻模態的自監督對比損失函數和分類預測損失函數相加,得到聯合損失函數,用于聯合優化第一視角視頻分類網絡,得到已訓練的第一視角視頻分類網絡。2.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,所述提取視頻數據的視覺表示序列和音頻表示序列的過程具體包括:提取視頻數據的視頻幀序列,將視頻幀序列輸入SlowFast網絡,得到視覺表示序列;提取視頻數據的音頻數據,提取音頻數據中Mel波段的log
    ?
    Mel光譜圖序列,將log
    ?
    Mel光譜圖序列輸入Auditory SlowFast網絡,得到音頻表示序列。3.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,所述得到聯合表示增強的視覺特征表示序列和聯合表示增強的音頻特征表示序列的過程具體包括:根據視覺表示序列和音頻表示序列,計算視覺模態和音頻模態的聯合表示;根據視覺模態和音頻模態的聯合表示,分別計算視覺特征與聯合表示的聯合相關矩陣和音頻特征與聯合表示的聯合相關矩陣;根據視覺特征與聯合表示的聯合相關矩陣和視覺表示序列,計算視覺模態的注意力權值;根據音頻特征與聯合表示的聯合相關矩陣和音頻表示序列,計算音頻模態的注意力權值;根據視覺模態的注意力權值和視覺表示序列,計算聯合表示增強的視覺特征表示序列;根據音頻模態的注意力權值和音頻表示序列,計算聯合表示增強的音頻特征表示序列。4.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,計算視覺模態的自監督對比損失函數的具體過程包括:對聯合表示增強的視覺特征表示序列在時間維度上進行平均池化,得到視覺模態的全局特征向量;對于每個輸入的視頻數據,隨機抽取與該視頻數據對應的視頻動作類別相同的正樣本視頻數據和不同的負樣本視頻數據;計算正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量;采用該視頻數據視覺模態的全局特征向量、正樣本視頻數據視覺模態的全局特征向量和不同的負樣本視頻數據視覺模態的全局特征向量,對視頻模態進行對比學習,得到視覺模態的自監督對比損失函數。5.根據權利要求1所述的多模態第一視角視頻分類方法,其特征在于,計算音頻模態的
    自監督對比損失函數...

    【專利技術屬性】
    技術研發人員:劉萌張風雷宋雪萌許海振郭杰王少華
    申請(專利權)人:山東建筑大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码专区日韩| 日韩精品无码Av一区二区| 无码不卡亚洲成?人片| 在线精品免费视频无码的| 亚洲人成人无码网www国产| 亚洲精品无码永久中文字幕| 性生交片免费无码看人| 亚洲 另类 无码 在线| 日韩午夜福利无码专区a| 国产成人无码精品一区不卡| 国产白丝无码免费视频| 色综合久久久无码中文字幕| 一本无码中文字幕在线观| 中文字幕无码乱码人妻系列蜜桃| 韩国免费a级作爱片无码| 亚洲Av无码国产一区二区| 中文字幕人妻无码一区二区三区| 在线A级毛片无码免费真人| 无码国产69精品久久久久网站| 成人无码a级毛片免费| 天堂无码在线观看| 亚洲AV综合色区无码一二三区| 无码人妻久久久一区二区三区| 亚洲成A人片在线观看无码3D| 亚洲精品无码久久久久APP| 久久亚洲AV无码精品色午夜 | 久久久久亚洲AV无码专区首| 无码国内精品久久人妻麻豆按摩| 久久久久亚洲AV无码麻豆| 国产成人无码精品久久久久免费| 国产怡春院无码一区二区| 亚洲精品无码少妇30P| 精品亚洲成在人线AV无码| 色欲狠狠躁天天躁无码中文字幕| 亚洲精品中文字幕无码蜜桃| 亚洲中文字幕无码日韩| 亚洲av无码专区在线播放| 亚洲av中文无码乱人伦在线播放 | 日本无码色情三级播放| 无码人妻精品一区二区三区99不卡| 国产精品无码久久四虎|