【技術實現步驟摘要】
本申請涉及視覺問答,尤其涉及視覺問答方法、裝置、設備、存儲介質及產品。
技術介紹
1、大語言模型(large?language?model,llm,大型語言模型)是一種基于深度學習的模型,能夠理解和生成人類語言,通常用于自然語言處理任務,如文本生成、翻譯、問答等。
2、基于大模型的文檔理解系統常用于各類文檔場景,可以對輸入的文檔進行相應的理解,基于理解執行用戶提出的任務,如基于輸入的文檔對用戶提出的問題給出對應的答案,或是根據用戶提出的需求,對輸入的文檔進行理解,輸出用戶需求的關鍵字段信息等。
3、但是,此類應用一般僅能應用于文本類文檔,而現實應用中的文檔并不都是文本類文檔,也存在大量的視覺類文檔,如包含掃描件的文檔或包含手持拍攝圖片的文檔,此外,實際應用中的文檔理解任務多種多樣,包括各類信息抽取類的抽取式問題,和涵蓋邏輯計算推理類的生成式問題。
技術實現思路
1、本申請的主要目的在于提供一種視覺問答方法、裝置、設備、存儲介質及產品,旨在解決相關技術大語言模型在使用時無法支持輸入視覺類文檔的技術問題。
2、為實現上述目的,本申請提出一種視覺問答方法,所述的方法包括:
3、對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據;
4、根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,所述預設模板庫包括多個示例問答數據以及各示例問答數據對應的標準多模態特征數據
5、根據所述至少一個目標示例問答數據構建模型提示詞;
6、將所述模型提示詞及所述視覺問題數據輸入至大語言模型,以使所述大語言模型在所述模型提示詞的指導下,根據所述視覺問題數據生成視覺問答結果。
7、在本申請一種可能的實現方式中,所述視覺問題數據包括圖像數據以及問題數據;
8、所述對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據,包括:
9、對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據;
10、對所述圖像數據進行特征提取,生成視覺特征數據,對所述圖像文本數據進行特征提取,生成文本特征數據,并對所述問題數據進行特征提取,生成問題特征數據;
11、將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。
12、在本申請一種可能的實現方式中,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:
13、獲取所述圖像數據中的至少一個文本區域;
14、對各文本區域分別進行文字識別,獲得各文本區域對應的區域文本數據;
15、基于預設順序以及各文本區域的區域位置,將各文本區域對應的區域文本數據進行組裝,生成所述圖像數據對應的圖像文本數據,所述圖像文本數據中不同文本區域的區域文本數據之間設置有預設分割符。
16、在本申請一種可能的實現方式中,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:
17、獲取預設比例系數,所述預設比例系數用于表征各類特征數據在多模態特征數據中的權重比例;
18、基于所述預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。
19、在本申請一種可能的實現方式中,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;
20、所述基于所述預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:
21、獲取所述圖像數據的圖像尺寸以及文本區域大小;
22、根據所述文本區域大小以及所述圖像尺寸計算文本占比系數;
23、根據所述文本占比系數對所述預設比例系數中的視覺比例系數以及文本比例系數進行調整;
24、基于調整后的預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。
25、在本申請一種可能的實現方式中,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:
26、將所述多模態特征數據分別與預設模板庫中各示例問答數據對應的標準多模態特征數據進行比對,獲得各示例問答數據對應的特征相似度;
27、基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據。
28、在本申請一種可能的實現方式中,所述基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:
29、基于對應的特征相似度從大到小對所述預設模板庫中各示例問答數據進行排序,生成排序結果;
30、將所述排序結果中排序前n的示例問答數據選取為與所述多模態特征數據相匹配的目標示例問答數據,n為正整數。
31、此外,為實現上述目的,本申請還提出一種視覺問答裝置,所述裝置包括:
32、提取模塊,用于對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據;
33、查找模塊,用于根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,所述預設模板庫包括多個示例問答數據以及各示例問答數據對應的標準多模態特征數據;
34、構建模塊,用于根據所述至少一個目標示例問答數據構建模型提示詞;
35、生成模塊,用于將所述模型提示詞及所述視覺問題數據輸入至大語言模型,以使所述大語言模型在所述模型提示詞的指導下,根據所述視覺問題數據生成視覺問答結果。
36、此外,為實現上述目的,本申請還提出一種視覺問答設備,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如上所述的視覺問答方法的步驟。
37、此外,為實現上述目的,本申請還提出一種存儲介質,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上所述的視覺問答方法的步驟。
38、此外,為實現上述目的,本申請還提出一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如上所述的視覺問答方法的步驟。
39、本申請提出的一個或多個技術方案,至少具有以下技術效果:
40、由于可根據視覺問題數據對應的多模態特征數據查找數據構建模型提示詞,通過模型提示詞對大語言模型進行指導,令其快速確定問題與答案之間的關聯關系,從而正確生成視覺問答結果,保證即使輸入視覺類文本文檔來自技高網...
【技術保護點】
1.一種視覺問答方法,其特征在于,所述方法包括:
2.如權利要求1所述的視覺問答方法,其特征在于,所述視覺問題數據包括圖像數據以及問題數據;
3.如權利要求2所述的視覺問答方法,其特征在于,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:
4.如權利要求2所述的視覺問答方法,其特征在于,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:
5.如權利要求4所述的視覺問答方法,其特征在于,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;
6.如權利要求1-5任一項所述的視覺問答方法,其特征在于,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:
7.如權利要求6所述的視覺問答方法,其特征在于,所述基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:
8.一種視覺問答裝置,其特征在于,所述裝
9.一種視覺問答設備,其特征在于,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如權利要求1至7中任一項所述的視覺問答方法的步驟。
10.一種存儲介質,其特征在于,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的視覺問答方法的步驟。
11.一種計算機程序產品,其特征在于,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的視覺問答方法的步驟。
...【技術特征摘要】
1.一種視覺問答方法,其特征在于,所述方法包括:
2.如權利要求1所述的視覺問答方法,其特征在于,所述視覺問題數據包括圖像數據以及問題數據;
3.如權利要求2所述的視覺問答方法,其特征在于,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:
4.如權利要求2所述的視覺問答方法,其特征在于,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:
5.如權利要求4所述的視覺問答方法,其特征在于,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;
6.如權利要求1-5任一項所述的視覺問答方法,其特征在于,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:
【專利技術屬性】
技術研發人員:李燦,喬梁,
申請(專利權)人:杭州海康威視數字技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。