【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)視覺(jué)及3d多模態(tài),更具體的說(shuō)是涉及一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法。
技術(shù)介紹
1、3d場(chǎng)景生成主要是指利用計(jì)算機(jī)技術(shù)以及相應(yīng)的算法生成真實(shí)的3d場(chǎng)景,這項(xiàng)技術(shù)在電影、視頻、游戲產(chǎn)業(yè)、增強(qiáng)和虛擬現(xiàn)實(shí)技術(shù)和機(jī)器人等領(lǐng)域有著巨大應(yīng)用潛力。其中,可控制的場(chǎng)景合成是指以一種允許控制或操縱場(chǎng)景生成的過(guò)程,用戶可以指定他們想要在生成的場(chǎng)景中出現(xiàn)的3d物體。現(xiàn)有的可控場(chǎng)景生成方法常用的控制機(jī)制主要有文本描述、語(yǔ)義映射和場(chǎng)景圖。其中,場(chǎng)景圖提供了一個(gè)強(qiáng)大的工具來(lái)抽象場(chǎng)景內(nèi)容,包括場(chǎng)景上下文和對(duì)象關(guān)系,同時(shí)場(chǎng)景圖可以為用戶提供一個(gè)更適合的操作界面。
2、目前的場(chǎng)景圖主要分為兩種:第一種方法只學(xué)習(xí)生成場(chǎng)景布局,3d物體則是從給定的數(shù)據(jù)庫(kù)中檢索,例如graph-to-box;第二種方法同時(shí)學(xué)習(xí)生成場(chǎng)景布局和3d物體形狀,例如:graph-to-3d。但是這兩種方法都有明顯的不足及缺陷:第一種基于檢索的方法生成的物體形狀受到檢索的數(shù)據(jù)庫(kù)的大小的限制;第二種方法,形狀的生成依賴于預(yù)先訓(xùn)練好的形狀編碼,這些編碼來(lái)自具有類別感知能力的自動(dòng)解碼器。這種半生成設(shè)計(jì)減少了生成輸出的形狀多樣性,且生成的3d物體形狀不具有細(xì)粒度的紋理特征。同時(shí)目前的各種方法對(duì)場(chǎng)景中所包含的對(duì)象之間的局部與全局上下文關(guān)系考慮甚少,這使得當(dāng)前的3d場(chǎng)景生成方法的一致性效果較差。因此,如何提供一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法是本領(lǐng)域技術(shù)人員亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本專利
2、為了實(shí)現(xiàn)上述目的,本專利技術(shù)提供如下技術(shù)方案:
3、一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,包括以下步驟:
4、s1、獲取原始場(chǎng)景圖,為原始場(chǎng)景圖中每個(gè)節(jié)點(diǎn)和每條邊初始化一個(gè)可學(xué)習(xí)的特征向量,使用clip的文本編碼器將節(jié)點(diǎn)的語(yǔ)義標(biāo)簽和邊的關(guān)系信息進(jìn)行編碼,同時(shí)將場(chǎng)景圖中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的位置3d框的參數(shù)特征化,得到特征增強(qiáng)后的場(chǎng)景圖;
5、s2、將特征增強(qiáng)后的場(chǎng)景圖分為兩個(gè)部分,第一部分由可學(xué)習(xí)的特征向量和編碼后的語(yǔ)義標(biāo)簽組成,第二部分由參數(shù)化后的每個(gè)物體對(duì)應(yīng)的位置3d框參數(shù)組成,兩部分場(chǎng)景圖的邊的特征都是編碼后的關(guān)系信息,第一部分送入形狀編碼器,第二部分送入布局編碼器;
6、s3、將形狀編碼器和布局編碼器的輸出送入一個(gè)基于圖卷積神經(jīng)網(wǎng)絡(luò)的特征交互模塊中,學(xué)習(xí)得到聯(lián)合的布局-形狀后驗(yàn)分布,最后采樣得到特征向量zi,將特征向量zi更新為場(chǎng)景圖每個(gè)節(jié)點(diǎn)的新信息;
7、s4、將更新后的場(chǎng)景圖分別送入布局解碼器和形狀解碼器中,其中布局解碼器的輸出為場(chǎng)景中對(duì)應(yīng)的物體3d框及布局,形狀解碼器輸出的為含有上下文關(guān)系信息的形狀嵌入;
8、s5、將形狀嵌入作為隱式擴(kuò)散模型的條件輸入,訓(xùn)練過(guò)程中使用vq-vae編碼3d形狀得到初始的形狀特征,推理過(guò)程中隨機(jī)的高斯噪聲通過(guò)隱式擴(kuò)散模型去噪,生成物體形狀;
9、s6、用戶首先輸入風(fēng)格提示文本,利用s5中生成的物體形狀作為神經(jīng)輻射場(chǎng)的初始化,然后使用clip指導(dǎo)對(duì)其進(jìn)行優(yōu)化,得到具有細(xì)粒度紋理及風(fēng)格的物體的3d形狀,最后將物體的3d形狀和場(chǎng)景布局相融合,得到完整的場(chǎng)景。
10、可選的,s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:
11、pi=eclipt(label)
12、pi→j=eclipt(relation)
13、3d框的參數(shù)通過(guò)3層的mlp進(jìn)行特征化,得到的特征表示為bi,特征增強(qiáng)后的場(chǎng)景圖,節(jié)點(diǎn)的特征為fni={oi,qi,bi},邊的特征為fei→j={qi→j,pi→j}。
14、可選的,s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:
15、fs,i=eshape(fni),i∈{1,2...,n}
16、fl,i=elayout(fni),i∈{1,2…,n}
17、其中,n為節(jié)點(diǎn)的數(shù)量。
18、可選的,s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:
19、
20、特征交互模塊ec后接一層mlp網(wǎng)絡(luò),計(jì)算聯(lián)合的布局-形狀分布z,z為高斯分布下的后驗(yàn)概率(μ,θ),采樣得到特征向量zi,保持場(chǎng)景圖的邊的特征不變,更新場(chǎng)景圖相應(yīng)節(jié)點(diǎn)的特征。
21、可選的,s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器dl根據(jù)場(chǎng)景圖及采樣得到的特征向量zi,預(yù)測(cè)出物體相關(guān)的3d框,預(yù)測(cè)過(guò)程訓(xùn)練時(shí)的損失函數(shù)為:
22、
23、式中,為邊界框的大小,為邊界框的位置,為邊界框的旋轉(zhuǎn)角度,λ為旋轉(zhuǎn)分類標(biāo)簽,利用局部到全局的語(yǔ)義線索更新每個(gè)節(jié)點(diǎn)的特征;形狀解碼器ds生成含有上下文信息的節(jié)點(diǎn)的形狀嵌入r。
24、可選的,s5中使用體素化空間中截?cái)鄐df作為3d形狀的表示,使用vq-vae模型作為3d形狀的壓縮器,將3d形狀編碼成一個(gè)潛在維度的特征x0,生成模型為隱式擴(kuò)散模型,訓(xùn)練過(guò)程中,一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上,經(jīng)過(guò)t步加噪過(guò)程得到xt,使用3d-unet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0,3d-unet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3d-unet的中間特征層中;生成模型損失函數(shù)為:
25、
26、在推理過(guò)程中,給定隱式擴(kuò)散模型一個(gè)隨機(jī)的高斯噪聲,形狀嵌入r作為條件,即得到相應(yīng)的3d形狀。
27、可選的,s6中用戶輸入帶有風(fēng)格信息的文本提示y,利用多模態(tài)大模型clip的文本編碼器et對(duì)y進(jìn)行特征編碼,利用s5中生成的物體形狀初始化神經(jīng)輻射場(chǎng),將3d形狀參數(shù)化為θ,同時(shí)從多個(gè)視點(diǎn)渲染圖像,將多視點(diǎn)的圖像送入clip的圖像編碼器中進(jìn)行特征編碼,通過(guò)最小化clip相似度損失,得到具有細(xì)粒度紋理及風(fēng)格的物體形狀:
28、
29、式中,為渲染過(guò)程,vi表示第i步優(yōu)化步驟中的渲染視點(diǎn),最后將渲染優(yōu)化后的3d物體形狀放入布局圖中,得到生成后的場(chǎng)景。
30、經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本專利技術(shù)提供了一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,具有以下有益效果:本專利技術(shù)利用多模態(tài)大模型-clip處理分析上下文信息的能力,增強(qiáng)了場(chǎng)景圖中的各節(jié)點(diǎn)之前的關(guān)系信息;使用生成模型-隱式擴(kuò)散模型及神經(jīng)輻射場(chǎng),同時(shí)引入多模態(tài)大模型—clip進(jìn)行優(yōu)化指導(dǎo),從而實(shí)現(xiàn)了生成本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:
3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S2中的形狀編碼器Es和布局編碼器El均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器Es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器El輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:
4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S3中的特征交互模塊EC的輸入為形狀編碼器Es和布局編碼器El輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:
5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S4中形狀解碼器Ds和布局解碼器Dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器Dl根據(jù)場(chǎng)景圖及
6.根據(jù)權(quán)利要求5所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S5中使用體素化空間中截?cái)郤DF作為3D形狀的表示,使用VQ-VAE模型作為3D形狀的壓縮器,將3D形狀編碼成一個(gè)潛在維度的特征x0,生成模型為隱式擴(kuò)散模型,訓(xùn)練過(guò)程中,一個(gè)前向擴(kuò)散過(guò)程將隨機(jī)噪聲添加到輸入x0上,經(jīng)過(guò)T步加噪過(guò)程得到xt,使用3D-UNet網(wǎng)絡(luò)εθ進(jìn)行去噪還原出x0,3D-UNet通過(guò)交叉注意將含有上下文信息的形狀嵌入添加到3D-UNet的中間特征層中;生成模型損失函數(shù)為:
7.根據(jù)權(quán)利要求6所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,S6中用戶輸入帶有風(fēng)格信息的文本提示y,利用多模態(tài)大模型CLIP的文本編碼器ET對(duì)y進(jìn)行特征編碼,利用S5中生成的物體形狀初始化神經(jīng)輻射場(chǎng),將3D形狀參數(shù)化為θ,同時(shí)從多個(gè)視點(diǎn)渲染圖像,將多視點(diǎn)的圖像送入CLIP的圖像編碼器中進(jìn)行特征編碼,通過(guò)最小化CLIP相似度損失,得到具有細(xì)粒度紋理及風(fēng)格的物體形狀:
...【技術(shù)特征摘要】
1.一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s1中使用嵌入層初始化節(jié)點(diǎn)的邊的特征,兩個(gè)相鄰的節(jié)點(diǎn)的特征分別記為oi和oj,連接它們的邊的特征記為qi→j,編碼后的語(yǔ)義標(biāo)簽為pi,編碼后的關(guān)系信息文本為pi→j:
3.根據(jù)權(quán)利要求2所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s2中的形狀編碼器es和布局編碼器el均由圖卷積神經(jīng)網(wǎng)絡(luò)組成,形狀編碼器es輸出每個(gè)節(jié)點(diǎn)的特征為fs,i,布局編碼器el輸出每個(gè)節(jié)點(diǎn)的特征為fl,i:
4.根據(jù)權(quán)利要求3所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s3中的特征交互模塊ec的輸入為形狀編碼器es和布局編碼器el輸出的串聯(lián),主體結(jié)構(gòu)為圖神經(jīng)卷積網(wǎng)絡(luò),輸出為fc:
5.根據(jù)權(quán)利要求4所述的一種基于關(guān)系和風(fēng)格感知的多模態(tài)場(chǎng)景生成方法,其特征在于,s4中形狀解碼器ds和布局解碼器dl的輸入均為更新后的場(chǎng)景圖(zi,fs,i,fl,i),布局解碼器d...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:雷印杰,馮俊球,李鵬,劉春黔,劉杰,林浩然,周禮亮,
申請(qǐng)(專利權(quán))人:四川大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。