【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種視覺問答的實(shí)現(xiàn)方法,包括:采用混合專家模型接收目標(biāo)問題以及與目標(biāo)問題對應(yīng)的富文本圖片并輸出目標(biāo)問題的答案,所述混合專家模型包括門控網(wǎng)絡(luò)和多個(gè)專家模型,其中,所述門控網(wǎng)絡(luò)用于確定所述目標(biāo)問題的問題類型,基于所述問題類型確認(rèn)所述目標(biāo)問題為多個(gè)問題類型中的第一問題類型,以及將所述目標(biāo)問題提供給所述多個(gè)專家模型中的第一專家模型;所述第一專家模型用于提供所述目標(biāo)問題的答案。2.根據(jù)權(quán)利要求1所述的實(shí)現(xiàn)方法,其中,所述專家模型包括:詞嵌入表達(dá)模塊、視覺編碼器和變換器,所述詞嵌入表達(dá)模塊用于將所述目標(biāo)問題編碼為詞嵌入序列,所述視覺編碼器用于將所述富文本圖片編碼為視覺特征序列,所述變換器用于將所述詞嵌入序列和所述視覺特征序列分別與注意力權(quán)重相乘,以得到分?jǐn)?shù)矩陣,并根據(jù)所述分?jǐn)?shù)矩陣確定所述目標(biāo)問題的答案。3.根據(jù)權(quán)利要求2所述的實(shí)現(xiàn)方法,其中,所述詞嵌入序列包含的每個(gè)詞向量基于模態(tài)類型、對應(yīng)詞的位置信息和對應(yīng)詞的詞嵌入得到,所述視覺特征序列包含的每個(gè)項(xiàng)同樣基于模態(tài)類型、所述富文本圖片的對應(yīng)組成部分的位置信息和所述富文本圖片的對應(yīng)組成部分的視覺特征組成得到。4.根據(jù)權(quán)利要求3所述的實(shí)現(xiàn)方法,其中,在所述變換器中,通過不同的注意力權(quán)重控制模態(tài)間和模態(tài)內(nèi)交互。5.根據(jù)權(quán)利要求2所述的實(shí)現(xiàn)方法,其中,所述富文本圖片的對應(yīng)組成部分的視覺特征為區(qū)域特征、網(wǎng)格特征和面片特征中的至少一種視覺特征。6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的實(shí)現(xiàn)方法,其中,所述多個(gè)專家為:文本閱讀專家,用于回答與所述富文本圖像中的文字信息相關(guān)的問題;計(jì)數(shù)專家,用于答案與所述富文本圖片中的物體數(shù)量相關(guān)的問題;時(shí)鐘讀取專家,用于回答與所述富文本圖片中的時(shí)鐘時(shí)間相關(guān)的問題。7.根據(jù)權(quán)利要求6所述的實(shí)現(xiàn)方法,其中,所述計(jì)數(shù)專家和所述時(shí)鐘讀取專家分別從所述富文本圖片中提取區(qū)域特征、網(wǎng)格特征和面片特征并對所述區(qū)域特征、所述網(wǎng)格特征和所述面片特征進(jìn)行融合,并將融合結(jié)果與從所述目標(biāo)問題中提取到到文本特征進(jìn)行匹配。8.根據(jù)權(quán)利要求7所述的實(shí)現(xiàn)方法,其中,在所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:田俊峰,嚴(yán)明,徐海洋,李晨亮,王瑋,閉彬,
申請(專利權(quán))人:阿里巴巴中國有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。