• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多關系圖模型的多模態對話問答生成方法技術

    技術編號:36691244 閱讀:28 留言:0更新日期:2023-02-27 19:58
    基于多關系圖模型的多模態對話問答生成方法,涉及一種多模態對話問答生成方法。本發明專利技術為了解決現有的多模態對話系統僅考慮場景序列化信息而導致現有模型效果一般的問題。本發明專利技術首先將視頻序列化切分為多個視頻片段,對于每個片段獲取該片段的色彩特征、光流特征和音頻特征,并拼接起來,再加入位置信息和模態信息得到各個視頻片段的序列表示;將每個視頻片段視作頂點,構建基于全聯通關系的視頻圖并輸入圖卷積神經網絡,得到視頻隱藏層序列以及與原視頻序列的融合表示;然后利用相似的方式處理基于視聽場景標題和對話歷史對應的詞向量得到各自對應的文本隱藏層序列以及與原文本序列的融合表示;最后利用神經網絡模型生成回答。回答。回答。

    【技術實現步驟摘要】
    基于多關系圖模型的多模態對話問答生成方法


    [0001]本專利技術屬于對話問答
    ,具體涉及一種多模態對話問答生成方法。

    技術介紹

    [0002]當前對話問答系統領域內研究主要分為文本和多模態兩大分支。文本對話問答任務主要具有兩大難點:回答生成需要對話上下文推理和欠缺大規模對話數據集。由于預訓練語言模型(Language Models,LMs)已經從其它文本數據中習得豐富的語義信息,可以進行一定程度的推理,并且有效彌補對話數據量不足的問題,使系統在低資源背景下仍能取得較好的結果。因此,將預訓練語言模型引入對話問答任務可以加深系統對文本的理解,基于歷史對話輪次的推理處理當前用戶提問,提高生成回答的質量。ISCA2020中,Whang等人在開放域對話中應用預訓練語言模型來選擇候選回答,其中預訓練語言模型的輸出(如BERT中的[CLS]標志)被用作每個對話上下文和候選答案對的上下文表示。WNGT2019中,Budzianowski等人假設可以獲得真實對話狀態,將輸入合并為單個序列以生成任務導向型對話的響應。由于對話狀態和數據庫狀態可以視作原始文本輸入,可以使用預訓練語言模型對系統進行微調。ICASSP2020中,Lai等人引入GPT
    ?
    2模型,利用模型的輸出表示預測插槽值,進而跟蹤對話狀態。
    [0003]ACL2020中,層次指針網絡也在文本對話系統中得到了廣泛應用。ICLR2019中,Wu等人合并了全局編碼器和本地解碼器,實現了在任務導向型對話設置中共享外部知識。NAACL2019中,Reddy等人面向任務導向型對話設計了一個多級存儲的框架。ACL2019中,Tian等人探索了如何在訓練過程中提取有價值的信息,并以此搭建了一個記憶啟動架構。此外,多任務學習也被證明可以優化自然語言回答的表現。ACL2019中Chen等人的工作中,工作記憶被引入該任務,通過與兩個長期記憶充分交互,它可以捕獲對話歷史和知識庫的元組以生成高質量回答。EMNLP2019中,Lin等人鑒于異構記憶網絡具有同時利用話上下文、用戶提問和知識庫信息的能力,也將其應用于該領域的研究。
    [0004]多模態對話問答為實現功能強大的對話系統開創了新的格局。當前研究主要聚焦于如何利用靜態圖像和文本之間多粒度互補信息彌合語言和視覺的差距,例如CVPR2017中,Das等人提出的視覺對話(Visual Dialog)任務提供了圖片及與之相關的多輪對話,要求模型可以根據給定的圖像和對話歷史,用自然語言正確回答提問者相關的問題。盡管該任務在推進多模態對話問答系統的發展進程上具有重大意義,但根據靜態圖像的對話存在一定固有的限制,它很大程度上限制了問答系統對時空變化的動態感知能力,使之無法合理應對許多需要理解特定場景上下文以作出合理推斷的應用。因此,為提升問答系統對時空智能性,引入一個新任務——視聽場景感知對話(Audio
    ?
    Visual Scene
    ?
    Aware Dialog,AVSD),它可以看作視覺對話的一般形式,即基于連續圖片幀和音頻信息的視覺對話,相較于視覺對話有更廣泛的應用前景。然而,現有方案主要使用獨立編碼器對不同模態分別進行編碼,然后利用注意力機制融合其表示并生成響應語句。這種后期融合的方案只考慮了場景和對話的序列化特征,且忽視了不同模態間多粒度語義互補關系,導致現有模型的效
    果并不盡如人意。因此,探索對話場景的語義信息表示和模態融合方式對實現更高性能的多模態對話問答系統具有重要意義。
    [0005]與此同時,多模態對話領域相關研究的重心正在向如何充分融合多源異構信息偏移,包括圖像、音頻、視頻和文本等。相較于文本對話問答,多模態對話問答任務額外引入了對話相關的音視頻特征,因而需要解決不同模態間的細粒度交互問題。
    [0006]注意力機制是該領域的主流研究方法,它可以縮小視覺和語言模態表示間的差距。CVPR2018中,Wu等人設計的CoAtt模型包含一個序列化的共同注意力機制的編碼器,使得每個輸入特征由其它兩個特征以序列化的方式共同提供。ACL2019中Gan等人提出的ReDAN模型和AAAI2020中Chen等人提出的DMRM模型通過基于雙注意力機制的多步推理來回答圖像相關的一系列問題。ECCV2020中,Nguyen等人設計的LTMI模型利用多頭注意力機制關注模態的交互關系。
    [0007]基于注意力機制實現的Transformer架構的預訓練語言模型體系結構也在學習視覺
    ?
    文本自然語言處理任務的跨模態表示上表現良好。在圖像描述任務中,AAAI2020中Li等人構造基于BERT的架構改善文本和視覺表示,NIPS2019中,Lu等人使用相似的方法應對視覺問答任務,和前者區別在于在處理多模態輸入時,將視覺和文本表示分開而非合并為整個序列。IJCNLP2019中,Alberti等人關注到前期融合或后期融合的方法對于豐富跨模態表示的重要作用。ICCV2019中,Sun等人提出VideoBERT模型,它利用BERT模型生成視頻描述,并舍棄了用視覺特征代表視頻幀的方法,轉而將框架級的特征轉化為視覺標記作為模型的原始輸入。
    [0008]近期研究還探索了圖片或對話歷史的更高級語義表示,尤其是基于圖結構對圖片或對話歷史的建模方式。AAAI2020中,Jiang等人提出的DualVD模型從視覺和語義兩個角度詳細描述圖片的特征,具體而言,視覺圖模型幫助提取包括實體和關系在內的表面信息,語義圖模型推進對話問答系統從全局到局部視覺語義理解的轉變。CVPR2020中,Guo等人設計的CAG模型以實體相關的視覺表示和歷史相關的上下文表示建立圖結點,以自適應的Top
    ?
    K信息傳遞機制更新相應的邊權,建立視覺
    ?
    語義相關的動態圖用于后續推理。ACL2021中,Chen等人提出的GoG模型考慮到不同關系之間同樣具有交互,因此建模了基于對話歷史的當前提問依存關系圖和基于當前提問的物體(區域)關系圖。

    技術實現思路

    [0009]本專利技術的目的是為了解決現有的多模態對話系統僅考慮場景序列化信息而導致現有模型效果一般的問題,進而提出一種基于多關系圖模型的多模態對話問答生成方法。
    [0010]一種基于多關系圖模型的多模態對話問答生成方法,包括以下步驟:
    [0011]S1、使用固定大小的滑動窗口將視頻序列化切分為多個視頻片段,對于每個片段,獲取該片段的色彩特征和光流特征以及音頻特征
    [0012]將色彩特征光流特征和音頻特征拼接起來得到再加入位置信息和模態信息得到各個視頻片段的序列表示V
    t
    ;表達式為:
    [0013]CoreNLP文本解析工具分析該句子的共指關系,將每個詞向量視作頂點,并依據句子的共指關系建模圖結構;然后輸入圖卷積神經網絡,輸出文本隱藏層序列G
    C

    [0032]或者,
    [0033]S5中將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于句子級依存關系的圖結構和基于完本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,包括以下步驟:S1、使用固定大小的滑動窗口將視頻序列化切分為多個視頻片段,對于每個片段,獲取該片段的色彩特征和光流特征以及音頻特征將色彩特征光流特征和音頻特征拼接起來得到再加入位置信息和模態信息得到各個視頻片段的序列表示V
    t
    ;表達式為:;表達式為:其中,位置信息中使用數字指代每個視頻片段出現的次序,模態信息中使用標識符[video]統一標識視頻特征,在實際計算時將其轉換成固定維度的向量;S2、針對視聽場景表示V=(V1,V2,...,V
    m
    ),V1,V2,...,V
    m
    即為各個視頻片段的序列表示,將每個視頻片段視作頂點,構建基于全聯通關系的視頻圖其中其中是有向依賴邊的集合,對于每條有向依賴邊(V
    i
    ,V
    j
    ,l
    ij
    ),l
    ij
    表示從V
    i
    到V
    j
    的依賴關系,且設置為1;將視頻圖輸入圖卷積神經網絡,輸出視頻隱藏層序列G
    V
    ;S3、將視頻隱藏層序列G
    V
    和原視頻序列表示V輸入線性層得到視頻的融合表示并作為后續基于GPT
    ?
    2架構的多層TRANSFORMER模型的部分輸入;S4、基于視聽場景標題C和對話歷史H得到對應的詞向量表示C
    feature
    和H
    feature
    ;將標題詞向量C
    feature
    和對話歷史詞向量H
    feature
    拼接起來,再加入位置信息T
    pos
    和模態信息T
    mod
    得到文本序列表示T;表達式為:T
    feature
    =[C
    feature
    ,H
    feature
    ],T=T
    feature
    +T
    mod
    +T
    pos
    ,其中,位置信息T
    pos
    中使用數字指代標題和每個問答對中單詞出現的次序,T
    pos
    中使用標識符[cap]統一標識視聽場景標題,標識符[usr1]標識提問者,標識符[usr2]標識回答者,在實際計算時分別將其轉換成固定維度的向量;S5、將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構然后將句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構分別輸入圖卷積神經網絡,得到各自對應的文本隱藏層序列;S6、將句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構對應的文本隱藏層序列和原文本序列表示T輸入線性層得到文本的融合表示并作為后續基于GPT
    ?
    2架構的多層TRANSFORMER模型的部分輸入;S7、將和拼接獲得增強多模態輸入,并將增強多模態輸入基于GPT
    ?
    2架構的多層Transformer模型生成回答。2.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點構建基于句子級依存關系
    的圖結構并得到對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分析該句子的句法依存關系,將每個詞向量視作頂點,并依據句法依存關系建模圖結構;然后輸入圖卷積神經網絡,輸出文本隱藏層序列G
    D
    。3.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于完整對話共指關系的圖結構并得到各自對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分析該句子的共指關系,將每個詞向量視作頂點,并依據句子的共指關系建模圖結構;然后輸入圖卷積神經網絡,輸出文本隱藏層序列G
    C
    。4.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于句子級依存關系的圖結構和基于完整對話共指關系的圖結構并得到各自對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分別分析該句子的句法依存關系和該句子的共指關系,...

    【專利技術屬性】
    技術研發人員:呂姚嘉朱文軒劉銘徐潔馨李秋霞秦兵
    申請(專利權)人:招商銀行股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费A级毛片无码免费视| 最新无码A∨在线观看| 少妇无码一区二区二三区| 13小箩利洗澡无码视频网站免费| 亚洲中文字幕无码一区| 亚洲一区AV无码少妇电影| 成人无码WWW免费视频| 91精品无码久久久久久五月天 | 无码AV动漫精品一区二区免费| 日韩精品无码区免费专区| 亚洲精品无码永久中文字幕| 亚洲精品无码av片| 亚洲不卡中文字幕无码| 东京热HEYZO无码专区| 18精品久久久无码午夜福利| 手机在线观看?v无码片| 亚洲精品无码久久久久APP | 蜜桃成人无码区免费视频网站| 免费无码专区毛片高潮喷水 | 亚洲国产日产无码精品| 中文一国产一无码一日韩| 日韩成人无码影院| 亚洲精品无码久久久久APP| 亚洲va成无码人在线观看| 亚洲国产无套无码av电影| 人妻少妇乱子伦无码专区| 色欲AV无码一区二区三区 | 日韩电影无码A不卡| 波多野结衣VA无码中文字幕电影| 精品国产V无码大片在线看| 久久亚洲精品AB无码播放| 无码人妻久久一区二区三区| 亚洲日韩精品一区二区三区无码 | 亚洲日韩精品无码一区二区三区| 无码中文字幕色专区| 无码人妻aⅴ一区二区三区有奶水| 欲色aV无码一区二区人妻| 亚洲av无码一区二区三区天堂| 精品成在人线AV无码免费看| 久久无码中文字幕东京热| av无码国产在线看免费网站|