當(dāng)前位置: 首頁(yè) > 專利查詢>四川大學(xué)專利>正文

一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法技術(shù)

技術(shù)編號(hào)：40317961 閱讀：20 留言：0更新日期：2024-02-07 21:00

本發(fā)明專利技術(shù)公開了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，應(yīng)用于計(jì)算機(jī)視覺(jué)及3D多模態(tài)技術(shù)領(lǐng)域。使用多模態(tài)大模型?CLIP增強(qiáng)場(chǎng)景圖數(shù)據(jù)的上下文關(guān)系信息，同時(shí)采用基于圖卷積神經(jīng)網(wǎng)絡(luò)的雙流結(jié)構(gòu)，分別預(yù)測(cè)場(chǎng)景布局和相應(yīng)的3D形狀。其中在形狀支路中，選擇隱式擴(kuò)散模型作為生成模型，解碼器解碼出關(guān)系形狀嵌入作為其隱式條件。用戶可輸入風(fēng)格文本，例如：中國(guó)風(fēng)，中世紀(jì)風(fēng)，歐洲風(fēng)格等，然后利用生成的形狀先驗(yàn)與神經(jīng)輻射場(chǎng)，以CLIP作為優(yōu)化時(shí)的指導(dǎo)，最后得到細(xì)粒度的3D場(chǎng)景。本發(fā)明專利技術(shù)可以通過(guò)場(chǎng)景圖及用戶輸入的風(fēng)格文本，實(shí)現(xiàn)可控的場(chǎng)景生成及風(fēng)格感知，解決了目前現(xiàn)有的場(chǎng)景生成方法的不足。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計(jì)算機(jī)視覺(jué)及3d多模態(tài)，更具體的說(shuō)是涉及一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法。

技術(shù)介紹

1、3d場(chǎng)景生成主要是指利用計(jì)算機(jī)技術(shù)以及相應(yīng)的算法生成真實(shí)的3d場(chǎng)景，這項(xiàng)技術(shù)在電影、視頻、游戲產(chǎn)業(yè)、增強(qiáng)和虛擬現(xiàn)實(shí)技術(shù)和機(jī)器人等領(lǐng)域有著巨大應(yīng)用潛力。其中，可控制的場(chǎng)景合成是指以一種允許控制或操縱場(chǎng)景生成的過(guò)程，用戶可以指定他們想要在生成的場(chǎng)景中出現(xiàn)的3d物體。現(xiàn)有的可控場(chǎng)景生成方法常用的控制機(jī)制主要有文本描述、語(yǔ)義映射和場(chǎng)景圖。其中，場(chǎng)景圖提供了一個(gè)強(qiáng)大的工具來(lái)抽象場(chǎng)景內(nèi)容，包括場(chǎng)景上下文和對(duì)象關(guān)系，同時(shí)場(chǎng)景圖可以為用戶提供一個(gè)更適合的操作界面。

2、目前的場(chǎng)景圖主要分為兩種：第一種方法只學(xué)習(xí)生成場(chǎng)景布局，3d物體則是從給定的數(shù)據(jù)庫(kù)中檢索，例如graph-to-box；第二種方法同時(shí)學(xué)習(xí)生成場(chǎng)景布局和3d物體形狀，例如：graph-to-3d。但是這兩種方法都有明顯的不足及缺陷：第一種基于檢索的方法生成的物體形狀受到檢索的數(shù)據(jù)庫(kù)的大小的限制；第二種方法，形狀的生成依賴于預(yù)先訓(xùn)練好的形狀編碼，這些編碼來(lái)自具有類別感知能力的自動(dòng)解碼器。這種半生成設(shè)計(jì)減少了生成輸出的形狀多樣性，且生成的3d物體形狀不具有細(xì)粒度的紋理特征。同時(shí)目前的各種方法對(duì)場(chǎng)景中所包含的對(duì)象之間的局部與全局上下文關(guān)系考慮甚少，這使得當(dāng)前的3d場(chǎng)景生成方法的一致性效果較差。因此，如何提供一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本專利

2、為了實(shí)現(xiàn)上述目的，本專利技術(shù)提供如下技術(shù)方案：

3、一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，包括以下步驟：

4、s1、獲取原始場(chǎng)景圖，為原始場(chǎng)景圖中每個(gè)節(jié)點(diǎn)和每條邊初始化一個(gè)可學(xué)習(xí)的特征向量，使用clip的文本編碼器將節(jié)點(diǎn)的語(yǔ)義標(biāo)簽和邊的關(guān)系信息進(jìn)行編碼，同時(shí)將場(chǎng)景圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的位置3d框的參數(shù)特征化，得到特征增強(qiáng)后的場(chǎng)景圖；

5、s2、將特征增強(qiáng)后的場(chǎng)景圖分為兩個(gè)部分，第一部分由可學(xué)習(xí)的特征向量和編碼后的語(yǔ)義標(biāo)簽組成，第二部分由參數(shù)化后的每個(gè)物體對(duì)應(yīng)的位置3d框參數(shù)組成，兩部分場(chǎng)景圖的邊的特征都是編碼后的關(guān)系信息，第一部分送入形狀編碼器，第二部分送入布局編碼器；

6、s3、將形狀編碼器和布局編碼器的輸出送入一個(gè)基于圖卷積神經(jīng)網(wǎng)絡(luò)的特征交互模塊中，學(xué)習(xí)得到聯(lián)合的布局-形狀后驗(yàn)分布，最后采樣得到特征向量zi，將特征向量zi更新為場(chǎng)景圖每個(gè)節(jié)點(diǎn)的新信息；

7、s4、將更新后的場(chǎng)景圖分別送入布局解碼器和形狀解碼器中，其中布局解碼器的輸出為場(chǎng)景中對(duì)應(yīng)的物體3d框及布局，形狀解碼器輸出的為含有上下文關(guān)系信息的形狀嵌入；

8、s5、將形狀嵌入作為隱式擴(kuò)散模型的條件輸入，訓(xùn)練過(guò)程中使用vq-vae編碼3d形狀得到初始的形狀特征，推理過(guò)程中隨機(jī)的高斯噪聲通過(guò)隱式擴(kuò)散模型去噪，生成物體形狀；

9、s6、用戶首先輸入風(fēng)格提示文本，利用s5中生成的物體形狀作為神經(jīng)輻射場(chǎng)的初始化，然后使用clip指導(dǎo)對(duì)其進(jìn)行優(yōu)化，得到具有細(xì)粒度紋理及風(fēng)格的物體的3d形狀，最后將物體的3d形狀和場(chǎng)景布局相融合，得到完整的場(chǎng)景。

10、可選的，s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征，兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj，連接它們的邊的特征記為qi→j，編碼后的語(yǔ)義標(biāo)簽為pi，編碼后的關(guān)系信息文本為pi→j：

11、pi＝eclipt(label)

12、pi→j＝eclipt(relation)

13、3d框的參數(shù)通過(guò)3層的mlp進(jìn)行特征化，得到的特征表示為bi，特征增強(qiáng)后的場(chǎng)景圖，節(jié)點(diǎn)的特征為fni＝{oi，qi，bi}，邊的特征為fei→j＝{qi→j，pi→j}。

14、可選的，s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成，形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs，i，布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl，i：

15、fs，i＝eshape(fni)，i∈{1，2...，n}

16、fl，i＝elayout(fni)，i∈{1，2…，n}

17、其中，n為節(jié)點(diǎn)的數(shù)量。

18、可選的，s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián)，主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò)，輸出為fc：

19、

20、特征交互模塊ec后接一層mlp網(wǎng)絡(luò)，計(jì)算聯(lián)合的布局-形狀分布z，z為高斯分布下的后驗(yàn)概率(μ，θ)，采樣得到特征向量zi，保持場(chǎng)景圖的邊的特征不變，更新場(chǎng)景圖相應(yīng)節(jié)點(diǎn)的特征。

21、可選的，s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi，fs，i，fl，i)，布局解碼器dl根據(jù)場(chǎng)景圖及采樣得到的特征向量zi，預(yù)測(cè)出物體相關(guān)的3d框，預(yù)測(cè)過(guò)程訓(xùn)練時(shí)的損失函數(shù)為：

22、

23、式中，為邊界框的大小，為邊界框的位置，為邊界框的旋轉(zhuǎn)角度，λ為旋轉(zhuǎn)分類標(biāo)簽，利用局部到全局的語(yǔ)義線索更新每個(gè)節(jié)點(diǎn)的特征；形狀解碼器ds生成含有上下文信息的節(jié)點(diǎn)的形狀嵌入r。

24、可選的，s5中使用體素化空間中截?cái)鄐df作為3d形狀的表示，使用vq-vae模型作為3d形狀的壓縮器，將3d形狀編碼成一個(gè)潛在維度的特征x0，生成模型為隱式擴(kuò)散模型，訓(xùn)練過(guò)程中，一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上，經(jīng)過(guò)t步加噪過(guò)程得到xt，使用3d-unet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0，3d-unet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3d-unet的中間特征層中；生成模型損失函數(shù)為：

25、

26、在推理過(guò)程中，給定隱式擴(kuò)散模型一個(gè)隨機(jī)的高斯噪聲，形狀嵌入r作為條件，即得到相應(yīng)的3d形狀。

27、可選的，s6中用戶輸入帶有風(fēng)格信息的文本提示y，利用多模態(tài)大模型clip的文本編碼器et對(duì)y進(jìn)行特征編碼，利用s5中生成的物體形狀初始化神經(jīng)輻射場(chǎng)，將3d形狀參數(shù)化為θ，同時(shí)從多個(gè)視點(diǎn)渲染圖像，將多視點(diǎn)的圖像送入clip的圖像編碼器中進(jìn)行特征編碼，通過(guò)最小化clip相似度損失，得到具有細(xì)粒度紋理及風(fēng)格的物體形狀：

28、

29、式中，為渲染過(guò)程，vi表示第i步優(yōu)化步驟中的渲染視點(diǎn)，最后將渲染優(yōu)化后的3d物體形狀放入布局圖中，得到生成后的場(chǎng)景。

30、經(jīng)由上述的技術(shù)方案可知，與現(xiàn)有技術(shù)相比，本專利技術(shù)提供了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，具有以下有益效果：本專利技術(shù)利用多模態(tài)大模型-clip處理分析上下文信息的能力，增強(qiáng)了場(chǎng)景圖中的各節(jié)點(diǎn)之前的關(guān)系信息；使用生成模型-隱式擴(kuò)散模型及神經(jīng)輻射場(chǎng)，同時(shí)引入多模態(tài)大模型—clip進(jìn)行優(yōu)化指導(dǎo)，從而實(shí)現(xiàn)了生成本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征，兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj，連接它們的邊的特征記為qi→j，編碼后的語(yǔ)義標(biāo)簽為pi，編碼后的關(guān)系信息文本為pi→j：

3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S2中的形狀編碼器Es和布局編碼器El均由圖卷積神經(jīng)網(wǎng)絡(luò)組成，形狀編碼器Es輸出每個(gè)節(jié)點(diǎn)的特征為fs，i，布局編碼器El輸出每個(gè)節(jié)點(diǎn)的特征為fl，i：

4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S3中的特征交互模塊EC的輸入為形狀編碼器Es和布局編碼器El輸出的串聯(lián)，主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò)，輸出為fc：

5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S4中形狀解碼器Ds和布局解碼器Dl的輸入均為更新后的場(chǎng)景圖(zi，fs，i，fl，i)，布局解碼器Dl根據(jù)場(chǎng)景圖及

6.根據(jù)權(quán)利要求5所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S5中使用體素化空間中截?cái)郤DF作為3D形狀的表示，使用VQ-VAE模型作為3D形狀的壓縮器，將3D形狀編碼成一個(gè)潛在維度的特征x0，生成模型為隱式擴(kuò)散模型，訓(xùn)練過(guò)程中，一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上，經(jīng)過(guò)T步加噪過(guò)程得到xt，使用3D-UNet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0，3D-UNet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3D-UNet的中間特征層中；生成模型損失函數(shù)為：

7.根據(jù)權(quán)利要求6所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，S6中用戶輸入帶有風(fēng)格信息的文本提示y，利用多模態(tài)大模型CLIP的文本編碼器ET對(duì)y進(jìn)行特征編碼，利用S5中生成的物體形狀初始化神經(jīng)輻射場(chǎng)，將3D形狀參數(shù)化為θ，同時(shí)從多個(gè)視點(diǎn)渲染圖像，將多視點(diǎn)的圖像送入CLIP的圖像編碼器中進(jìn)行特征編碼，通過(guò)最小化CLIP相似度損失，得到具有細(xì)粒度紋理及風(fēng)格的物體形狀：

...

【技術(shù)特征摘要】

1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征，兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj，連接它們的邊的特征記為qi→j，編碼后的語(yǔ)義標(biāo)簽為pi，編碼后的關(guān)系信息文本為pi→j：

3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成，形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs，i，布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl，i：

4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián)，主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò)，輸出為fc：

5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法，其特征在于，s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi，fs，i，fl，i)，布局解碼器d...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：雷印杰，馮俊球，李鵬，劉春黔，劉杰，林浩然，周禮亮，
申請(qǐng)(專利權(quán))人：四川大學(xué)，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)