• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    視覺問答方法、裝置、設備、存儲介質及產品制造方法及圖紙

    技術編號:43288545 閱讀:15 留言:0更新日期:2024-11-12 16:09
    本申請涉及視覺問答技術領域,公開了視覺問答方法、裝置、設備、存儲介質及產品,包括:對視覺問題數據進行特征提取,生成視覺問題數據對應的多模態特征數據;根據多模態特征數據在預設模板庫中進行查找,獲得與多模態特征數據相匹配的目標示例問答數據;根據目標示例問答數據構建模型提示詞;將模型提示詞及視覺問題數據輸入至大語言模型,以使大語言模型在模型提示詞的指導下,根據視覺問題數據生成視覺問答結果。由于可根據視覺問題數據對應的多模態特征數據查找數據構建模型提示詞,通過模型提示詞對大語言模型進行指導,保證即使輸入視覺類文檔等包含圖像的數據,大語言模型仍舊可以正常進行問答。

    【技術實現步驟摘要】

    本申請涉及視覺問答,尤其涉及視覺問答方法、裝置、設備、存儲介質及產品


    技術介紹

    1、大語言模型(large?language?model,llm,大型語言模型)是一種基于深度學習的模型,能夠理解和生成人類語言,通常用于自然語言處理任務,如文本生成、翻譯、問答等。

    2、基于大模型的文檔理解系統常用于各類文檔場景,可以對輸入的文檔進行相應的理解,基于理解執行用戶提出的任務,如基于輸入的文檔對用戶提出的問題給出對應的答案,或是根據用戶提出的需求,對輸入的文檔進行理解,輸出用戶需求的關鍵字段信息等。

    3、但是,此類應用一般僅能應用于文本類文檔,而現實應用中的文檔并不都是文本類文檔,也存在大量的視覺類文檔,如包含掃描件的文檔或包含手持拍攝圖片的文檔,此外,實際應用中的文檔理解任務多種多樣,包括各類信息抽取類的抽取式問題,和涵蓋邏輯計算推理類的生成式問題。


    技術實現思路

    1、本申請的主要目的在于提供一種視覺問答方法、裝置、設備、存儲介質及產品,旨在解決相關技術大語言模型在使用時無法支持輸入視覺類文檔的技術問題。

    2、為實現上述目的,本申請提出一種視覺問答方法,所述的方法包括:

    3、對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據;

    4、根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,所述預設模板庫包括多個示例問答數據以及各示例問答數據對應的標準多模態特征數據

    5、根據所述至少一個目標示例問答數據構建模型提示詞;

    6、將所述模型提示詞及所述視覺問題數據輸入至大語言模型,以使所述大語言模型在所述模型提示詞的指導下,根據所述視覺問題數據生成視覺問答結果。

    7、在本申請一種可能的實現方式中,所述視覺問題數據包括圖像數據以及問題數據;

    8、所述對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據,包括:

    9、對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據;

    10、對所述圖像數據進行特征提取,生成視覺特征數據,對所述圖像文本數據進行特征提取,生成文本特征數據,并對所述問題數據進行特征提取,生成問題特征數據;

    11、將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。

    12、在本申請一種可能的實現方式中,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:

    13、獲取所述圖像數據中的至少一個文本區域;

    14、對各文本區域分別進行文字識別,獲得各文本區域對應的區域文本數據;

    15、基于預設順序以及各文本區域的區域位置,將各文本區域對應的區域文本數據進行組裝,生成所述圖像數據對應的圖像文本數據,所述圖像文本數據中不同文本區域的區域文本數據之間設置有預設分割符。

    16、在本申請一種可能的實現方式中,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:

    17、獲取預設比例系數,所述預設比例系數用于表征各類特征數據在多模態特征數據中的權重比例;

    18、基于所述預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。

    19、在本申請一種可能的實現方式中,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;

    20、所述基于所述預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:

    21、獲取所述圖像數據的圖像尺寸以及文本區域大小;

    22、根據所述文本區域大小以及所述圖像尺寸計算文本占比系數;

    23、根據所述文本占比系數對所述預設比例系數中的視覺比例系數以及文本比例系數進行調整;

    24、基于調整后的預設比例系數,將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據。

    25、在本申請一種可能的實現方式中,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:

    26、將所述多模態特征數據分別與預設模板庫中各示例問答數據對應的標準多模態特征數據進行比對,獲得各示例問答數據對應的特征相似度;

    27、基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據。

    28、在本申請一種可能的實現方式中,所述基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:

    29、基于對應的特征相似度從大到小對所述預設模板庫中各示例問答數據進行排序,生成排序結果;

    30、將所述排序結果中排序前n的示例問答數據選取為與所述多模態特征數據相匹配的目標示例問答數據,n為正整數。

    31、此外,為實現上述目的,本申請還提出一種視覺問答裝置,所述裝置包括:

    32、提取模塊,用于對視覺問題數據進行特征提取,生成所述視覺問題數據對應的多模態特征數據;

    33、查找模塊,用于根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,所述預設模板庫包括多個示例問答數據以及各示例問答數據對應的標準多模態特征數據;

    34、構建模塊,用于根據所述至少一個目標示例問答數據構建模型提示詞;

    35、生成模塊,用于將所述模型提示詞及所述視覺問題數據輸入至大語言模型,以使所述大語言模型在所述模型提示詞的指導下,根據所述視覺問題數據生成視覺問答結果。

    36、此外,為實現上述目的,本申請還提出一種視覺問答設備,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如上所述的視覺問答方法的步驟。

    37、此外,為實現上述目的,本申請還提出一種存儲介質,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如上所述的視覺問答方法的步驟。

    38、此外,為實現上述目的,本申請還提出一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如上所述的視覺問答方法的步驟。

    39、本申請提出的一個或多個技術方案,至少具有以下技術效果:

    40、由于可根據視覺問題數據對應的多模態特征數據查找數據構建模型提示詞,通過模型提示詞對大語言模型進行指導,令其快速確定問題與答案之間的關聯關系,從而正確生成視覺問答結果,保證即使輸入視覺類文本文檔來自技高網...

    【技術保護點】

    1.一種視覺問答方法,其特征在于,所述方法包括:

    2.如權利要求1所述的視覺問答方法,其特征在于,所述視覺問題數據包括圖像數據以及問題數據;

    3.如權利要求2所述的視覺問答方法,其特征在于,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:

    4.如權利要求2所述的視覺問答方法,其特征在于,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:

    5.如權利要求4所述的視覺問答方法,其特征在于,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;

    6.如權利要求1-5任一項所述的視覺問答方法,其特征在于,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:

    7.如權利要求6所述的視覺問答方法,其特征在于,所述基于所述特征相似度在所述預設模板庫中選取與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:

    8.一種視覺問答裝置,其特征在于,所述裝置包括:

    9.一種視覺問答設備,其特征在于,所述設備包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序配置為實現如權利要求1至7中任一項所述的視覺問答方法的步驟。

    10.一種存儲介質,其特征在于,所述存儲介質為計算機可讀存儲介質,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的視覺問答方法的步驟。

    11.一種計算機程序產品,其特征在于,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的視覺問答方法的步驟。

    ...

    【技術特征摘要】

    1.一種視覺問答方法,其特征在于,所述方法包括:

    2.如權利要求1所述的視覺問答方法,其特征在于,所述視覺問題數據包括圖像數據以及問題數據;

    3.如權利要求2所述的視覺問答方法,其特征在于,所述對所述圖像數據進行文字識別,獲得所述圖像數據對應的圖像文本數據,包括:

    4.如權利要求2所述的視覺問答方法,其特征在于,所述將所述視覺特征數據、所述文本特征數據及所述問題特征數據融合,生成所述視覺問題數據對應的多模態特征數據,包括:

    5.如權利要求4所述的視覺問答方法,其特征在于,所述預設比例系數包括視覺比例系數、文本比例系數以及問題比例系數;

    6.如權利要求1-5任一項所述的視覺問答方法,其特征在于,所述根據所述多模態特征數據在預設模板庫中進行查找,獲得與所述多模態特征數據相匹配的至少一個目標示例問答數據,包括:

    【專利技術屬性】
    技術研發人員:李燦喬梁
    申請(專利權)人:杭州海康威視數字技術股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV综合色区无码一二三区| 国产精品VA在线观看无码不卡| av大片在线无码免费| 精品深夜AV无码一区二区老年| 亚洲a∨无码一区二区| 精选观看中文字幕高清无码| 亚洲中文字幕久久精品无码2021| 无码h黄肉3d动漫在线观看| 亚洲Av综合色区无码专区桃色| 无码AV大香线蕉| 精品无码AV一区二区三区不卡| 久久中文精品无码中文字幕| 狠狠久久精品中文字幕无码| 亚洲AV日韩AV永久无码久久| HEYZO无码综合国产精品| 一本大道在线无码一区| 少妇精品无码一区二区三区 | 久久国产精品成人无码网站| 国产综合无码一区二区辣椒 | 夜夜精品无码一区二区三区| 制服在线无码专区| 久久久无码中文字幕久...| 日韩AV无码一区二区三区不卡毛片 | 乱色精品无码一区二区国产盗| 一区二区三区无码高清| 无码h黄肉3d动漫在线观看| 中文字幕乱偷无码av先锋蜜桃| 无码人妻精品一区二区三18禁 | 亚洲AV无码专区在线播放中文| 无码精品前田一区二区| 国产精品无码翘臀在线观看| 免费无码黄十八禁网站在线观看| 亚洲国产精品无码第一区二区三区| 91精品久久久久久无码| 亚洲AV无码一区二区三区牛牛| 2021无码最新国产在线观看| 中文字幕日产无码| 日韩精品人妻系列无码av东京| 亚洲人成无码网WWW| 国产自无码视频在线观看| 国产午夜无码精品免费看|