• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁(yè) > 專利查詢>四川大學(xué)專利>正文

    一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法技術(shù)

    技術(shù)編號(hào):40317961 閱讀:20 留言:0更新日期:2024-02-07 21:00
    本發(fā)明專利技術(shù)公開了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,應(yīng)用于計(jì)算機(jī)視覺(jué)及3D多模態(tài)技術(shù)領(lǐng)域。使用多模態(tài)大模型?CLIP增強(qiáng)場(chǎng)景圖數(shù)據(jù)的上下文關(guān)系信息,同時(shí)采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的雙流結(jié)構(gòu),分別預(yù)測(cè)場(chǎng)景布局和相應(yīng)的3D形狀。其中在形狀支路中,選擇隱式擴(kuò)散模型作為生成模型,解碼器解碼出關(guān)系形狀嵌入作為其隱式條件。用戶可輸入風(fēng)格文本,例如:中國(guó)風(fēng),中世紀(jì)風(fēng),歐洲風(fēng)格等,然后利用生成的形狀先驗(yàn)與神經(jīng)輻射場(chǎng),以CLIP作為優(yōu)化時(shí)的指導(dǎo),最后得到細(xì)粒度的3D場(chǎng)景。本發(fā)明專利技術(shù)可以通過(guò)場(chǎng)景圖及用戶輸入的風(fēng)格文本,實(shí)現(xiàn)可控的場(chǎng)景生成及風(fēng)格感知,解決了目前現(xiàn)有的場(chǎng)景生成方法的不足。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及計(jì)算機(jī)視覺(jué)及3d多模態(tài),更具體的說(shuō)是涉及一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法


    技術(shù)介紹

    1、3d場(chǎng)景生成主要是指利用計(jì)算機(jī)技術(shù)以及相應(yīng)的算法生成真實(shí)的3d場(chǎng)景,這項(xiàng)技術(shù)在電影、視頻、游戲產(chǎn)業(yè)、增強(qiáng)和虛擬現(xiàn)實(shí)技術(shù)和機(jī)器人等領(lǐng)域有著巨大應(yīng)用潛力。其中,可控制的場(chǎng)景合成是指以一種允許控制或操縱場(chǎng)景生成的過(guò)程,用戶可以指定他們想要在生成的場(chǎng)景中出現(xiàn)的3d物體。現(xiàn)有的可控場(chǎng)景生成方法常用的控制機(jī)制主要有文本描述、語(yǔ)義映射和場(chǎng)景圖。其中,場(chǎng)景圖提供了一個(gè)強(qiáng)大的工具來(lái)抽象場(chǎng)景內(nèi)容,包括場(chǎng)景上下文和對(duì)象關(guān)系,同時(shí)場(chǎng)景圖可以為用戶提供一個(gè)更適合的操作界面。

    2、目前的場(chǎng)景圖主要分為兩種:第一種方法只學(xué)習(xí)生成場(chǎng)景布局,3d物體則是從給定的數(shù)據(jù)庫(kù)中檢索,例如graph-to-box;第二種方法同時(shí)學(xué)習(xí)生成場(chǎng)景布局和3d物體形狀,例如:graph-to-3d。但是這兩種方法都有明顯的不足及缺陷:第一種基于檢索的方法生成的物體形狀受到檢索的數(shù)據(jù)庫(kù)的大小的限制;第二種方法,形狀的生成依賴于預(yù)先訓(xùn)練好的形狀編碼,這些編碼來(lái)自具有類別感知能力的自動(dòng)解碼器。這種半生成設(shè)計(jì)減少了生成輸出的形狀多樣性,且生成的3d物體形狀不具有細(xì)粒度的紋理特征。同時(shí)目前的各種方法對(duì)場(chǎng)景中所包含的對(duì)象之間的局部與全局上下文關(guān)系考慮甚少,這使得當(dāng)前的3d場(chǎng)景生成方法的一致性效果較差。因此,如何提供一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。


    技術(shù)實(shí)現(xiàn)思路

    1、有鑒于此,本專利技術(shù)提供了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,使用多模態(tài)大模型-clip增強(qiáng)場(chǎng)景圖數(shù)據(jù)的上下文關(guān)系信息,同時(shí)采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的雙流結(jié)構(gòu),分別預(yù)測(cè)場(chǎng)景布局和相應(yīng)的3d形狀。

    2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)提供如下技術(shù)方案:

    3、一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,包括以下步驟:

    4、s1、獲取原始場(chǎng)景圖,為原始場(chǎng)景圖中每個(gè)節(jié)點(diǎn)和每條邊初始化一個(gè)可學(xué)習(xí)的特征向量,使用clip的文本編碼器將節(jié)點(diǎn)的語(yǔ)義標(biāo)簽和邊的關(guān)系信息進(jìn)行編碼,同時(shí)將場(chǎng)景圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的位置3d框的參數(shù)特征化,得到特征增強(qiáng)后的場(chǎng)景圖;

    5、s2、將特征增強(qiáng)后的場(chǎng)景圖分為兩個(gè)部分,第一部分由可學(xué)習(xí)的特征向量和編碼后的語(yǔ)義標(biāo)簽組成,第二部分由參數(shù)化后的每個(gè)物體對(duì)應(yīng)的位置3d框參數(shù)組成,兩部分場(chǎng)景圖的邊的特征都是編碼后的關(guān)系信息,第一部分送入形狀編碼器,第二部分送入布局編碼器;

    6、s3、將形狀編碼器和布局編碼器的輸出送入一個(gè)基于圖卷積神經(jīng)網(wǎng)絡(luò)的特征交互模塊中,學(xué)習(xí)得到聯(lián)合的布局-形狀后驗(yàn)分布,最后采樣得到特征向量zi,將特征向量zi更新為場(chǎng)景圖每個(gè)節(jié)點(diǎn)的新信息;

    7、s4、將更新后的場(chǎng)景圖分別送入布局解碼器和形狀解碼器中,其中布局解碼器的輸出為場(chǎng)景中對(duì)應(yīng)的物體3d框及布局,形狀解碼器輸出的為含有上下文關(guān)系信息的形狀嵌入;

    8、s5、將形狀嵌入作為隱式擴(kuò)散模型的條件輸入,訓(xùn)練過(guò)程中使用vq-vae編碼3d形狀得到初始的形狀特征,推理過(guò)程中隨機(jī)的高斯噪聲通過(guò)隱式擴(kuò)散模型去噪,生成物體形狀;

    9、s6、用戶首先輸入風(fēng)格提示文本,利用s5中生成的物體形狀作為神經(jīng)輻射場(chǎng)的初始化,然后使用clip指導(dǎo)對(duì)其進(jìn)行優(yōu)化,得到具有細(xì)粒度紋理及風(fēng)格的物體的3d形狀,最后將物體的3d形狀和場(chǎng)景布局相融合,得到完整的場(chǎng)景。

    10、可選的,s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:

    11、pi=eclipt(label)

    12、pi→j=eclipt(relation)

    13、3d框的參數(shù)通過(guò)3層的mlp進(jìn)行特征化,得到的特征表示為bi,特征增強(qiáng)后的場(chǎng)景圖,節(jié)點(diǎn)的特征為fni={oi,qi,bi},邊的特征為fei→j={qi→j,pi→j}。

    14、可選的,s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:

    15、fs,i=eshape(fni),i∈{1,2...,n}

    16、fl,i=elayout(fni),i∈{1,2…,n}

    17、其中,n為節(jié)點(diǎn)的數(shù)量。

    18、可選的,s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:

    19、

    20、特征交互模塊ec后接一層mlp網(wǎng)絡(luò),計(jì)算聯(lián)合的布局-形狀分布z,z為高斯分布下的后驗(yàn)概率(μ,θ),采樣得到特征向量zi,保持場(chǎng)景圖的邊的特征不變,更新場(chǎng)景圖相應(yīng)節(jié)點(diǎn)的特征。

    21、可選的,s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器dl根據(jù)場(chǎng)景圖及采樣得到的特征向量zi,預(yù)測(cè)出物體相關(guān)的3d框,預(yù)測(cè)過(guò)程訓(xùn)練時(shí)的損失函數(shù)為:

    22、

    23、式中,為邊界框的大小,為邊界框的位置,為邊界框的旋轉(zhuǎn)角度,λ為旋轉(zhuǎn)分類標(biāo)簽,利用局部到全局的語(yǔ)義線索更新每個(gè)節(jié)點(diǎn)的特征;形狀解碼器ds生成含有上下文信息的節(jié)點(diǎn)的形狀嵌入r。

    24、可選的,s5中使用體素化空間中截?cái)鄐df作為3d形狀的表示,使用vq-vae模型作為3d形狀的壓縮器,將3d形狀編碼成一個(gè)潛在維度的特征x0,生成模型為隱式擴(kuò)散模型,訓(xùn)練過(guò)程中,一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上,經(jīng)過(guò)t步加噪過(guò)程得到xt,使用3d-unet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0,3d-unet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3d-unet的中間特征層中;生成模型損失函數(shù)為:

    25、

    26、在推理過(guò)程中,給定隱式擴(kuò)散模型一個(gè)隨機(jī)的高斯噪聲,形狀嵌入r作為條件,即得到相應(yīng)的3d形狀。

    27、可選的,s6中用戶輸入帶有風(fēng)格信息的文本提示y,利用多模態(tài)大模型clip的文本編碼器et對(duì)y進(jìn)行特征編碼,利用s5中生成的物體形狀初始化神經(jīng)輻射場(chǎng),將3d形狀參數(shù)化為θ,同時(shí)從多個(gè)視點(diǎn)渲染圖像,將多視點(diǎn)的圖像送入clip的圖像編碼器中進(jìn)行特征編碼,通過(guò)最小化clip相似度損失,得到具有細(xì)粒度紋理及風(fēng)格的物體形狀:

    28、

    29、式中,為渲染過(guò)程,vi表示第i步優(yōu)化步驟中的渲染視點(diǎn),最后將渲染優(yōu)化后的3d物體形狀放入布局圖中,得到生成后的場(chǎng)景。

    30、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本專利技術(shù)提供了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,具有以下有益效果:本專利技術(shù)利用多模態(tài)大模型-clip處理分析上下文信息的能力,增強(qiáng)了場(chǎng)景圖中的各節(jié)點(diǎn)之前的關(guān)系信息;使用生成模型-隱式擴(kuò)散模型及神經(jīng)輻射場(chǎng),同時(shí)引入多模態(tài)大模型—clip進(jìn)行優(yōu)化指導(dǎo),從而實(shí)現(xiàn)了生成本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:

    3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S2中的形狀編碼器Es和布局編碼器El均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器Es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器El輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:

    4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S3中的特征交互模塊EC的輸入為形狀編碼器Es和布局編碼器El輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:

    5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S4中形狀解碼器Ds和布局解碼器Dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器Dl根據(jù)場(chǎng)景圖及采樣得到的特征向量zi,預(yù)測(cè)出物體相關(guān)的3D框,預(yù)測(cè)過(guò)程訓(xùn)練時(shí)的損失函數(shù)為:

    6.根據(jù)權(quán)利要求5所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S5中使用體素化空間中截?cái)郤DF作為3D形狀的表示,使用VQ-VAE模型作為3D形狀的壓縮器,將3D形狀編碼成一個(gè)潛在維度的特征x0,生成模型為隱式擴(kuò)散模型,訓(xùn)練過(guò)程中,一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上,經(jīng)過(guò)T步加噪過(guò)程得到xt,使用3D-UNet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0,3D-UNet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3D-UNet的中間特征層中;生成模型損失函數(shù)為:

    7.根據(jù)權(quán)利要求6所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S6中用戶輸入帶有風(fēng)格信息的文本提示y,利用多模態(tài)大模型CLIP的文本編碼器ET對(duì)y進(jìn)行特征編碼,利用S5中生成的物體形狀初始化神經(jīng)輻射場(chǎng),將3D形狀參數(shù)化為θ,同時(shí)從多個(gè)視點(diǎn)渲染圖像,將多視點(diǎn)的圖像送入CLIP的圖像編碼器中進(jìn)行特征編碼,通過(guò)最小化CLIP相似度損失,得到具有細(xì)粒度紋理及風(fēng)格的物體形狀:

    ...

    【技術(shù)特征摘要】

    1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:

    3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:

    4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:

    5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器d...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:雷印杰馮俊球李鵬劉春黔劉杰林浩然周禮亮
    申請(qǐng)(專利權(quán))人:四川大學(xué)
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久久g0g0午夜无码精品| 曰产无码久久久久久精品| 日韩精品无码AV成人观看| 国产V亚洲V天堂无码久久久| 午夜不卡无码中文字幕影院 | 精品亚洲AV无码一区二区| 亚洲AV无码一区二区三区牲色| 精品人妻中文无码AV在线| 人妻少妇乱子伦无码视频专区| 亚洲v国产v天堂a无码久久| 亚洲国产超清无码专区| 精品人妻无码专区在中文字幕| 无码国内精品人妻少妇| 国产免费AV片无码永久免费| 性色AV蜜臀AV人妻无码| 国产精品无码a∨精品| 无码毛片一区二区三区视频免费播放| 少妇无码太爽了在线播放| 亚洲av无码专区在线观看素人| 日韩精品人妻系列无码专区免费| 中文无码vs无码人妻| 精品无码国产一区二区三区51安| av无码国产在线看免费网站| 色噜噜综合亚洲av中文无码| 国产精品无码国模私拍视频| 人妻av无码专区| 97无码免费人妻超级碰碰碰碰| 亚洲精品无码成人片久久不卡 | 亚洲AV无码AV日韩AV网站| 水蜜桃av无码一区二区| 国产精品无码AV一区二区三区| 久久久人妻精品无码一区| julia无码人妻中文字幕在线| 亚洲成a∨人片在无码2023| 人妻少妇偷人精品无码| 日韩精品专区AV无码| 久久av无码专区亚洲av桃花岛| 无码人妻AV免费一区二区三区| 人妻丰满熟妇岳AV无码区HD| 亚洲AV无码国产丝袜在线观看| 无码午夜成人1000部免费视频 |