• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    視覺問答的實(shí)現(xiàn)方法和基于視覺問答檢驗(yàn)?zāi)P偷姆椒夹g(shù)

    技術(shù)編號:35291294 閱讀:20 留言:0更新日期:2022-10-22 12:37
    提供一種視覺問答的實(shí)現(xiàn)方法。該實(shí)現(xiàn)方法包括:采用混合專家模型接收目標(biāo)問題以及與目標(biāo)問題對應(yīng)的富文本圖片并輸出目標(biāo)問題的答案,其中,所述混合專家模型包括門控網(wǎng)絡(luò)和多個(gè)專家模型,其中,所述門控網(wǎng)絡(luò)用于確定目標(biāo)問題的問題類型,基于問題類型確認(rèn)所述目標(biāo)問題為多個(gè)問題類型中的第一問題類型,以及將目標(biāo)問題提供給多個(gè)專家模型中的第一專家模型;所述第一專家模型用于提供目標(biāo)問題的答案。本公開不再采用一個(gè)通用專家處理所有問題,而是有針對性地針對不同問題采用不同專家模型處理,這種設(shè)計(jì)能有效地協(xié)同多個(gè)專家模型拓寬模型性能邊界,并提高答案的準(zhǔn)確度。并提高答案的準(zhǔn)確度。并提高答案的準(zhǔn)確度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    視覺問答的實(shí)現(xiàn)方法和基于視覺問答檢驗(yàn)?zāi)P偷姆椒?/a>


    [0001]本公開涉及神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用領(lǐng)域,尤其涉及一種視覺問答的實(shí)現(xiàn)方法和基于視覺問答檢驗(yàn)?zāi)P偷姆椒ā?br/>
    技術(shù)介紹

    [0002]視覺問答(VQA)將圖像和關(guān)于圖像的形式自由的、開放式的自然語言問題作為輸入,生成自然語言答案作為輸出,例如給定一張圖像和一系列問題,要求機(jī)器根據(jù)圖像內(nèi)容,結(jié)合一些常識來推理得到問題答案。要完成視覺問答(VQA),需要具備人工智能能力的專家模型。但是專家模型往往對一些問題表現(xiàn)良好,但對另一些問題表現(xiàn)不佳。

    技術(shù)實(shí)現(xiàn)思路

    [0003]有鑒于此,本公開旨在提供一種視覺問答的實(shí)現(xiàn)方法和基于視覺問答檢驗(yàn)?zāi)P偷姆椒ǎ越鉀Q現(xiàn)存的技術(shù)問題。
    [0004]根據(jù)本公開的第一方面,提供一種視覺問答的實(shí)現(xiàn)方法,包括:采用混合專家模型接收目標(biāo)問題以及與目標(biāo)問題對應(yīng)的富文本圖片并輸出目標(biāo)問題的答案,其中,所述混合專家模型包括門控網(wǎng)絡(luò)和多個(gè)專家模型,其中,
    [0005]所述門控網(wǎng)絡(luò)用于確定所述目標(biāo)問題的問題類型,基于所述問題類型確認(rèn)所述目標(biāo)問題為多個(gè)問題類型中的第一問題類型,以及將所述目標(biāo)問題提供給所述多個(gè)專家模型中的第一專家模型;
    [0006]所述第一專家模型用于提供所述目標(biāo)問題的答案。
    [0007]可選地,所述專家模型包括:詞嵌入表達(dá)模塊、視覺編碼器和變換器,所述詞嵌入表達(dá)模塊用于將所述目標(biāo)問題編碼為詞嵌入序列,所述視覺編碼器用于將所述富文本圖片編碼為視覺特征序列,所述變換器用于將所述詞嵌入序列和所述視覺特征序列分別與注意力權(quán)重相乘,以得到分?jǐn)?shù)矩陣,并根據(jù)所述分?jǐn)?shù)矩陣確定所述目標(biāo)問題的答案。
    [0008]可選地,所述詞嵌入序列包含的每個(gè)詞向量基于模態(tài)類型、對應(yīng)詞的位置信息和對應(yīng)詞的詞嵌入得到,所述視覺特征序列包含的每個(gè)項(xiàng)同樣基于模態(tài)類型、所述富文本圖片的對應(yīng)組成部分的位置信息和所述富文本圖片的對應(yīng)組成部分的視覺特征組成得到。
    [0009]可選地,在所述變換器中,通過不同的注意力權(quán)重控制模態(tài)間和模態(tài)內(nèi)交互。
    [0010]可選地,所述富文本圖片的對應(yīng)組成部分的視覺特征為區(qū)域特征、網(wǎng)格特征和面片特征中的至少一種視覺特征。
    [0011]可選地,所述多個(gè)專家為:
    [0012]文本閱讀專家,用于回答與所述富文本圖像中的文字信息相關(guān)的問題;
    [0013]計(jì)數(shù)專家,用于答案與所述富文本圖片中的物體數(shù)量相關(guān)的問題;
    [0014]時(shí)鐘讀取專家,用于回答與所述富文本圖片中的時(shí)鐘時(shí)間相關(guān)的問題。
    [0015]可選地,所述計(jì)數(shù)專家和所述時(shí)鐘讀取專家分別從所述富文本圖片中提取區(qū)域特征、網(wǎng)格特征和面片特征并對所述區(qū)域特征、所述網(wǎng)格特征和所述面片特征進(jìn)行融合,并將
    融合結(jié)果與從所述目標(biāo)問題中提取到到文本特征進(jìn)行匹配。
    [0016]可選地,在所述融合結(jié)果中,所述區(qū)域特征、所述網(wǎng)格特征和所述面片特征分別采用不同的注意力權(quán)重。
    [0017]可選地,在所述時(shí)鐘讀取專家和所述計(jì)數(shù)專家中,所述區(qū)域特征和網(wǎng)格特征均比所述面片特征獲取更高的注意力權(quán)重。
    [0018]可選地,所述文本閱讀專家利用OCR從所述富文本圖片獲取文字信息并據(jù)此獲得第一詞嵌入序列,利用單元格將所述富文本圖片序列化以得到單元格序列,所述單元格序列的每個(gè)項(xiàng)包含所述文字信息中的至少一個(gè)詞,將所述目標(biāo)問題對應(yīng)的第二詞嵌入序列與所述第一詞嵌入序列進(jìn)行拼接,得到的第三詞嵌入序列,然后,將所述單元格序列和所述第三詞嵌入序列作為詞跨度預(yù)測分類器的輸入,并根據(jù)預(yù)測結(jié)果給出所述目標(biāo)問題的答案。
    [0019]可選地,還包括:將接收到的視覺語言問答任務(wù)分成分成多個(gè)子任務(wù),每個(gè)子任務(wù)包括所述富文本圖片以及針對所述富文本圖片的目標(biāo)問題。
    [0020]根據(jù)本公開的第二方面,提供一種基于視覺問答系統(tǒng)進(jìn)行知識挖掘的方法,包括:
    [0021]收集所述視覺問答系統(tǒng)中預(yù)測分?jǐn)?shù)低于設(shè)定閾值的多個(gè)樣本,以形成樣本集,所述樣本包括富文本圖片以及與所述富文本圖片對應(yīng)的目標(biāo)問題;
    [0022]對所述多個(gè)樣本進(jìn)行聚類,以形成多個(gè)子樣本集;
    [0023]根據(jù)所述子樣本集確定所述視覺問答系統(tǒng)中缺少的專家模型。
    [0024]可選地,還包括:構(gòu)建所述視覺問答系統(tǒng)中缺少的專家模型,并利用所述多個(gè)子樣本集的對應(yīng)子樣本集對其進(jìn)行訓(xùn)練。
    [0025]根據(jù)本公開的第三方面,提供一種電子設(shè)備,包括存儲器和處理器,所述存儲器存儲有可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述第一方面的實(shí)現(xiàn)方法或第二方面的方法。
    [0026]根據(jù)本公開的第四方面,提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面的實(shí)現(xiàn)方法或第二方面的方法。
    [0027]本公開各個(gè)實(shí)施例對于VQA任務(wù),不再采用一個(gè)通用專家處理所有問題,而是有針對性地針對不同問題采用不同專家模型處理。例如對于包含很多文字信息的富文本圖片,采用一個(gè)專門的文本理解專家提取富文本圖片中的文字信息對提出的問題進(jìn)行答案,以及一些專業(yè)的技能型場景如鐘表閱讀、計(jì)數(shù),對應(yīng)地采用鐘表讀取專家和計(jì)數(shù)專家處理。這種設(shè)計(jì)能有效地協(xié)同多個(gè)專家模型拓寬模型性能邊界,提高答案的準(zhǔn)確度。并且,每種專家模型的編碼層都采用注意力權(quán)重來動態(tài)控制模態(tài)間和模態(tài)內(nèi)交互,以提高跨模態(tài)融合的性能。
    附圖說明
    [0028]通過參考以下附圖對本公開實(shí)施例的描述,本公開的上述以及其它目的、特征和優(yōu)點(diǎn)將更為清楚,在附圖中:
    [0029]圖1示出了本公開實(shí)施例提供的混合專家模型的結(jié)構(gòu)圖;
    [0030]圖2示出了本公開實(shí)施例提出的專家模型的基本結(jié)構(gòu)的示意圖;
    [0031]圖3示出了一個(gè)示例性的混合專家模型的結(jié)構(gòu)圖;
    [0032]圖4示出了本公開實(shí)施例提供的視覺問答的實(shí)現(xiàn)方法的流程圖;
    [0033]圖5示出了本公開實(shí)施例提供的基于視覺問答檢驗(yàn)?zāi)P偷姆椒ǎ?br/>[0034]圖6示出了本公開實(shí)施例的應(yīng)用示意圖;
    [0035]圖7示出了部署本公開實(shí)施例的電子設(shè)備的結(jié)構(gòu)圖。
    具體實(shí)施方式
    [0036]以下基于實(shí)施例對本公開進(jìn)行描述,但是本公開并不僅僅限于這些實(shí)施例。在下文對本公開的細(xì)節(jié)描述中,詳盡描述了一些特定的細(xì)節(jié)部分。對本領(lǐng)域技術(shù)人員來說沒有這些細(xì)節(jié)部分的描述也可以完全理解本公開。為了避免混淆本公開的實(shí)質(zhì),公知的方法、過程、流程沒有詳細(xì)敘述。另外附圖不一定是按比例繪制的。
    [0037]應(yīng)該理解,用于應(yīng)答VQA的專家模型是基于視覺語言的預(yù)訓(xùn)練模型構(gòu)建而成。目前視覺語言模型有兩種主流體系結(jié)構(gòu):單流體系結(jié)構(gòu)(single
    ?
    stream architecture)和雙流體系結(jié)構(gòu)(dual
    ?
    stream architecture)。前者,假設(shè)兩種模態(tài)背后有簡單而清晰的基本語義,因此簡單地將圖像特征和文本特征連接起來,作為單個(gè)轉(zhuǎn)換器的輸入網(wǎng)絡(luò),以便以直接的方式進(jìn)行早期融本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種視覺問答的實(shí)現(xiàn)方法,包括:采用混合專家模型接收目標(biāo)問題以及與目標(biāo)問題對應(yīng)的富文本圖片并輸出目標(biāo)問題的答案,所述混合專家模型包括門控網(wǎng)絡(luò)和多個(gè)專家模型,其中,所述門控網(wǎng)絡(luò)用于確定所述目標(biāo)問題的問題類型,基于所述問題類型確認(rèn)所述目標(biāo)問題為多個(gè)問題類型中的第一問題類型,以及將所述目標(biāo)問題提供給所述多個(gè)專家模型中的第一專家模型;所述第一專家模型用于提供所述目標(biāo)問題的答案。2.根據(jù)權(quán)利要求1所述的實(shí)現(xiàn)方法,其中,所述專家模型包括:詞嵌入表達(dá)模塊、視覺編碼器和變換器,所述詞嵌入表達(dá)模塊用于將所述目標(biāo)問題編碼為詞嵌入序列,所述視覺編碼器用于將所述富文本圖片編碼為視覺特征序列,所述變換器用于將所述詞嵌入序列和所述視覺特征序列分別與注意力權(quán)重相乘,以得到分?jǐn)?shù)矩陣,并根據(jù)所述分?jǐn)?shù)矩陣確定所述目標(biāo)問題的答案。3.根據(jù)權(quán)利要求2所述的實(shí)現(xiàn)方法,其中,所述詞嵌入序列包含的每個(gè)詞向量基于模態(tài)類型、對應(yīng)詞的位置信息和對應(yīng)詞的詞嵌入得到,所述視覺特征序列包含的每個(gè)項(xiàng)同樣基于模態(tài)類型、所述富文本圖片的對應(yīng)組成部分的位置信息和所述富文本圖片的對應(yīng)組成部分的視覺特征組成得到。4.根據(jù)權(quán)利要求3所述的實(shí)現(xiàn)方法,其中,在所述變換器中,通過不同的注意力權(quán)重控制模態(tài)間和模態(tài)內(nèi)交互。5.根據(jù)權(quán)利要求2所述的實(shí)現(xiàn)方法,其中,所述富文本圖片的對應(yīng)組成部分的視覺特征為區(qū)域特征、網(wǎng)格特征和面片特征中的至少一種視覺特征。6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的實(shí)現(xiàn)方法,其中,所述多個(gè)專家為:文本閱讀專家,用于回答與所述富文本圖像中的文字信息相關(guān)的問題;計(jì)數(shù)專家,用于答案與所述富文本圖片中的物體數(shù)量相關(guān)的問題;時(shí)鐘讀取專家,用于回答與所述富文本圖片中的時(shí)鐘時(shí)間相關(guān)的問題。7.根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)方法,其中,所述計(jì)數(shù)專家和所述時(shí)鐘讀取專家分別從所述富文本圖片中提取區(qū)域特征、網(wǎng)格特征和面片特征并對所述區(qū)域特征、所述網(wǎng)格特征和所述面片特征進(jìn)行融合,并將融合結(jié)果與從所述目標(biāo)問題中提取到到文本特征進(jìn)行匹配。8.根據(jù)權(quán)利要求7所述的實(shí)現(xiàn)方法,其中,在所...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:
    田俊峰嚴(yán)明徐海洋李晨亮王瑋閉彬
    申請(專利權(quán))人:阿里巴巴中國有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻一区二区三区免费看 | 亚洲A∨无码无在线观看| 性饥渴少妇AV无码毛片| 亚洲AV无码专区日韩| 麻豆亚洲AV永久无码精品久久| 激情无码亚洲一区二区三区| 亚洲精品无码鲁网中文电影| 人妻丰满熟妇AV无码区| 亚洲精品无码av人在线观看| 精品无码综合一区二区三区| 无码国内精品人妻少妇| 中文字幕无码不卡在线| 日韩毛片免费无码无毒视频观看| 亚洲AV无码欧洲AV无码网站| 精品无人区无码乱码大片国产| 亚洲中文字幕无码久久| 日日摸日日碰夜夜爽无码| 最新中文字幕AV无码不卡| 亚洲a无码综合a国产av中文| 无码夫の前で人妻を侵犯| 性无码免费一区二区三区在线 | 久久青青草原亚洲av无码| 亚洲中文字幕无码av永久| 亚洲av无码久久忘忧草| 无码国产精成人午夜视频一区二区 | 久久亚洲精品成人无码| 亚洲熟妇无码一区二区三区导航| 免费无码一区二区三区| 国产成人无码精品一区二区三区| 国产精品99久久久精品无码 | 国99精品无码一区二区三区| 国产99久久九九精品无码| 无码av中文一二三区| 国产精品成人99一区无码| 内射中出无码护士在线| 无码人妻AⅤ一区二区三区水密桃| 亚洲AV无码成人精品区日韩| 精品无码久久久久久久久 | av无码国产在线看免费网站| 久久久久成人精品无码中文字幕| 熟妇人妻中文字幕无码老熟妇|