【技術實現步驟摘要】
基于多關系圖模型的多模態對話問答生成方法
[0001]本專利技術屬于對話問答
,具體涉及一種多模態對話問答生成方法。
技術介紹
[0002]當前對話問答系統領域內研究主要分為文本和多模態兩大分支。文本對話問答任務主要具有兩大難點:回答生成需要對話上下文推理和欠缺大規模對話數據集。由于預訓練語言模型(Language Models,LMs)已經從其它文本數據中習得豐富的語義信息,可以進行一定程度的推理,并且有效彌補對話數據量不足的問題,使系統在低資源背景下仍能取得較好的結果。因此,將預訓練語言模型引入對話問答任務可以加深系統對文本的理解,基于歷史對話輪次的推理處理當前用戶提問,提高生成回答的質量。ISCA2020中,Whang等人在開放域對話中應用預訓練語言模型來選擇候選回答,其中預訓練語言模型的輸出(如BERT中的[CLS]標志)被用作每個對話上下文和候選答案對的上下文表示。WNGT2019中,Budzianowski等人假設可以獲得真實對話狀態,將輸入合并為單個序列以生成任務導向型對話的響應。由于對話狀態和數據庫狀態可以視作原始文本輸入,可以使用預訓練語言模型對系統進行微調。ICASSP2020中,Lai等人引入GPT
?
2模型,利用模型的輸出表示預測插槽值,進而跟蹤對話狀態。
[0003]ACL2020中,層次指針網絡也在文本對話系統中得到了廣泛應用。ICLR2019中,Wu等人合并了全局編碼器和本地解碼器,實現了在任務導向型對話設置中共享外部知識。NAACL2019中,Reddy ...
【技術保護點】
【技術特征摘要】
1.一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,包括以下步驟:S1、使用固定大小的滑動窗口將視頻序列化切分為多個視頻片段,對于每個片段,獲取該片段的色彩特征和光流特征以及音頻特征將色彩特征光流特征和音頻特征拼接起來得到再加入位置信息和模態信息得到各個視頻片段的序列表示V
t
;表達式為:;表達式為:其中,位置信息中使用數字指代每個視頻片段出現的次序,模態信息中使用標識符[video]統一標識視頻特征,在實際計算時將其轉換成固定維度的向量;S2、針對視聽場景表示V=(V1,V2,...,V
m
),V1,V2,...,V
m
即為各個視頻片段的序列表示,將每個視頻片段視作頂點,構建基于全聯通關系的視頻圖其中其中是有向依賴邊的集合,對于每條有向依賴邊(V
i
,V
j
,l
ij
),l
ij
表示從V
i
到V
j
的依賴關系,且設置為1;將視頻圖輸入圖卷積神經網絡,輸出視頻隱藏層序列G
V
;S3、將視頻隱藏層序列G
V
和原視頻序列表示V輸入線性層得到視頻的融合表示并作為后續基于GPT
?
2架構的多層TRANSFORMER模型的部分輸入;S4、基于視聽場景標題C和對話歷史H得到對應的詞向量表示C
feature
和H
feature
;將標題詞向量C
feature
和對話歷史詞向量H
feature
拼接起來,再加入位置信息T
pos
和模態信息T
mod
得到文本序列表示T;表達式為:T
feature
=[C
feature
,H
feature
],T=T
feature
+T
mod
+T
pos
,其中,位置信息T
pos
中使用數字指代標題和每個問答對中單詞出現的次序,T
pos
中使用標識符[cap]統一標識視聽場景標題,標識符[usr1]標識提問者,標識符[usr2]標識回答者,在實際計算時分別將其轉換成固定維度的向量;S5、將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構然后將句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構分別輸入圖卷積神經網絡,得到各自對應的文本隱藏層序列;S6、將句子級依存關系的圖結構和/或基于完整對話共指關系的圖結構對應的文本隱藏層序列和原文本序列表示T輸入線性層得到文本的融合表示并作為后續基于GPT
?
2架構的多層TRANSFORMER模型的部分輸入;S7、將和拼接獲得增強多模態輸入,并將增強多模態輸入基于GPT
?
2架構的多層Transformer模型生成回答。2.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點構建基于句子級依存關系
的圖結構并得到對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分析該句子的句法依存關系,將每個詞向量視作頂點,并依據句法依存關系建模圖結構;然后輸入圖卷積神經網絡,輸出文本隱藏層序列G
D
。3.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于完整對話共指關系的圖結構并得到各自對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分析該句子的共指關系,將每個詞向量視作頂點,并依據句子的共指關系建模圖結構;然后輸入圖卷積神經網絡,輸出文本隱藏層序列G
C
。4.根據權利要求1所述的一種基于多關系圖模型的多模態對話問答生成方法,其特征在于,S5中將S4得到的文本序列表示T中的每個詞向量視作頂點,構建基于句子級依存關系的圖結構和基于完整對話共指關系的圖結構并得到各自對應的文本隱藏層序列的過程包括以下步驟:首先使用GPT2 Tokenizer獲得每個單詞對應的詞向量表示,使用Stanford CoreNLP文本解析工具分別分析該句子的句法依存關系和該句子的共指關系,...
【專利技術屬性】
技術研發人員:呂姚嘉,朱文軒,劉銘,徐潔馨,李秋霞,秦兵,
申請(專利權)人:招商銀行股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。