【技術實現步驟摘要】
本專利技術涉及視頻摘要生成,特別涉及一種基于局部-全局注意力的全transformer視頻摘要方法。
技術介紹
1、隨著各種視頻捕捉、觀看和存儲設備的普及,以及視頻分享平臺(如youtube)和社交媒體網絡(如facebook)的廣泛使用,視頻數據的數量正以空前的速度增長。這使得高效瀏覽和尋找相關內容變得極具挑戰性。為了解決這一棘手的問題,自動化和高效的視頻摘要技術變得越來越必要。視頻摘要的本質是通過選擇最具信息量的部分來壓縮視頻,以創建一個能代表原始內容的摘要。創建的摘要可以是靜態的視頻故事板,由一組具有代表性的關鍵幀組成,也可以是由關鍵鏡頭構成的動態視頻預覽。在本專利技術的工作中,我們專注于基于關鍵鏡頭創建摘要,主要有三個原因。首先,觀眾更傾向于觀看動態視頻剪輯而非靜態故事板。其次,關鍵鏡頭包含多樣的信息,并能夠高度代表原始視頻。最后,實際中,視頻通常被分割成連續且不重疊的鏡頭,這些鏡頭保持了內在的視覺-時間一致性。這些優勢確保所選片段能有效反映視頻的整體主題和故事情節,即使其占整個內容的比例較小,也能帶來舒適且有趣的用戶體驗。此外,考慮到一般視頻摘要任務的挑戰和固有特征,研究通用的單視頻摘要技術對于整個視頻摘要任務具有重要意義。因此,我們特別關注單視頻摘要技術,這種技術無需引入額外的相關信號或來自多個領域特定視頻的領域知識即可提升摘要模型的能力。
2、到目前為止,已經提出了許多有影響力的視頻摘要技術,并取得了顯著的成功。這些技術包括但不限于聚類方法、變化檢測方法、字典方法以及用戶注意力方法等,這些方法屬于傳統的
3、目前視頻摘要生成的方法主要有基于深度模型的視頻摘要和基于注意力的視頻摘要兩種。其中基于深度模型的視頻摘要主要無transformer的深度模型和基于transformer的深度模型的兩種,基于注意力的視頻摘要主要有非transformer注意力和transformer注意力兩種,具體的:
4、1)無transformer的深度模型,許多使用cnn、rnn或其組合的技術已被提出用于視頻摘要。開創性工作首次探索了雙向單層長短期記憶(lstm)網絡用于視頻摘要,并取得了令人滿意的結果。由于單層lstm無法很好地處理長視頻的限制,zhao等提出了一個層次結構,其中第一層編碼子鏡頭之間的依賴關系,而第二層使用雙向lstm更好地捕捉上下文信息以選擇關鍵子鏡頭。鼓舞人心的結果促使zhao等基于視頻數據的層次結構進一步改進。為了處理大的特征到隱含映射矩陣和長距離的時間依賴關系,zhao等提出了使用張量訓練嵌入層替代層次結構進行視頻摘要。上述方法都采用rnn或其變體進行視頻摘要,而沒有探索transformer在這一任務中的應用。
5、另一方面,一些方法提出使用cnn進行視頻摘要。rochan等首次嘗試探索卷積網絡用于視頻摘要,并提出了一種完全卷積的序列模型,通過卷積操作的堆疊增加有效上下文大小,從而使網絡能夠建模長距離依賴關系,并允許有限的并行化。此外,一些工作使用cnn和rnn的組合進行視頻摘要。這一研究方向的關鍵思想是如何建模視頻的時空結構。盡管這些使用cnn、rnn或其組合的方法在視頻摘要中取得了巨大成功,但它們在并行計算方面存在固有的限制。
6、2)基于transformer的深度模型:transformer通常有三種使用方式,即僅編碼器、僅解碼器和完整的編碼器-解碼器架構,這三種方式分別常用于理解、生成和轉換任務。目前,應用transformer進行視頻摘要的已發布方法主要采用的是僅編碼器架構。
7、3)非transformer注意力:非transformer的注意力機制通常指的是與深度模型(特別是rnn)結合使用的注意力。這種類型的注意力用于通過在對應任務中的累計向量來關注先前相關的位置,這種機制不僅在自然語言處理(nlp)任務中表現出了顯著的優勢,例如機器翻譯和文本摘要,還在計算機視覺任務如視頻摘要中表現出了良好的進展。
8、4)transformer注意力:在本文中,我們假定transformer注意力采用的是自注意力機制。其核心特征是并行計算。一些研究采用這種注意力機制進行視頻摘要。fajtl等使用自注意力機制來執行視頻摘要任務中的整個序列到序列轉換。ji等在編碼器中結合了自注意力機制,以捕捉短期上下文信息。li等提出了全球多樣化注意力機制,通過調整自注意力機制來估計多樣化的注意力權重,然后將其轉化為重要性評分。
9、最近,一些嚴格遵循標準自注意力機制的工作被提出。其核心屬性是縮放點積注意力和多頭注意力機制。前者用于建模序列中所有令牌之間的依賴關系,而后者則允許模型關注不同的表示子空間。li等使用這種注意力機制明確建模跨視頻的高級模式以進行視頻共同摘要。hsu等使用時間和空間注意力來實現良好的摘要性能。這種機制是標準自注意力,只在編碼器側執行,因為它的模型是僅編碼器架構,雖然完整注意力能夠捕捉全局依賴關系,但它會導致缺失局部性歸納偏置。
技術實現思路
1、針對現有技術存在的上述問題,本專利技術要解決的技術問題是:如何使用全transformer架構生成更準確的視頻摘要。
2、為解決上述技術問題,本專利技術采用如下技術方案:一種基于局部-全局注意力的全transformer視頻摘要方法,包括如下步驟:
3、s1:獲取訓練集,其中訓練集中包括多段原始視頻和其對應的視頻摘要。
4、s2:構建摘要生成模型fulltransnet,所述fulltransnet采用完整編碼器-解碼器結構的標準transformer,并使用局部-全局稀疏多頭自注意力機制lgs-mhsa代替全注意力。
5、編碼器由n個堆疊的編碼器層組成,每個編碼器層,除了第一個編碼器層之外,都會接收前一個編碼器層的輸出作為輸入,每個編碼器層對輸入序列進行一系列變換,逐步提取適合摘要的更高層次的語義信息。
6、解碼器由n個堆疊的解碼器層組成,解碼器的層數與編碼器層數相同,第一個解碼器層的輸入是視頻摘要及其位置編碼,除了第一個解碼器層外,每個解碼器層的輸入包括兩部分:前一個解碼器層的輸出和來自編碼器的上本文檔來自技高網...
【技術保護點】
1.一種基于局部-全局注意力的全Transformer視頻摘要方法,其特征在于:包括如下步驟:
2.如權利要求1所述的一種基于局部-全局注意力的全Transformer視頻摘要方法,其特征在于:所述S2中的編碼器為:
3.如權利要求2所述的一種基于局部-全局注意力的全Transformer視頻摘要方法,其特征在于:所述S2中解碼器表示為:
4.如權利要求3所述的一種基于局部-全局注意力的全Transformer視頻摘要方法,其特征在于:所述S2中,局部-全局稀疏多頭自注意力機制LGS-MHSA為:
5.如權利要求4所述的一種基于局部-全局注意力的全Transformer視頻摘要方法,其特征在于:所述S3中,訓練FullTransNet的損失函數為:
【技術特征摘要】
1.一種基于局部-全局注意力的全transformer視頻摘要方法,其特征在于:包括如下步驟:
2.如權利要求1所述的一種基于局部-全局注意力的全transformer視頻摘要方法,其特征在于:所述s2中的編碼器為:
3.如權利要求2所述的一種基于局部-全局注意力的全transformer視頻摘要方法,其特征在于:所述s2中解...
【專利技術屬性】
技術研發人員:蘭利彬,蔣璐,劉小娟,崔貫勛,李洪興,李顏心,夏遵輝,蔡鵬洲,
申請(專利權)人:重慶理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。