【技術實現步驟摘要】
本專利技術涉及圖像超分辨率,尤其涉及一種基于穩定擴散的真實世界圖像超分辨率方法。
技術介紹
1、最初對于圖像超分辨率的研究主要集中于通過預先確定的退化算子(包括雙三次降采樣、模糊、高斯噪聲等)來生成lr圖像,利用低分辨率退化圖像和高分辨率的真實圖像通過端到端的網絡訓練(例如cnn,transformer)來實現超分辨率,但由于保真度的目標,存在細節過度平滑的問題,并且預先確定的退化算子并不能模擬真實世界圖像退化的情況。generative?adversarial?networks?(gans)?網絡及其對抗的訓練策略在真實圖像超分辨率上得到廣泛應用。為了提高泛化能力,更貼合真實世界的退化,bsrgan提出使用隨機洗牌組合的退化操作,而real-esrgan則采用高階過程來模擬真實世界的退化。之后swinir和hat等一系列方法利用transformer的先驗能力來重建hr圖像,并取得可喜的成果。其他研究(gans)也發現通過對抗訓練采用隱式先驗的方法,然而由于gans網絡的性質,hr圖像存在偽影和不真實的紋理的問題。
2、gans在圖像生成領域已經獲得的眾多的成果,預訓練好的gans中存在著豐富的先驗。glean利用先驗經過一次前向傳遞即可實現圖像超分辨率。在此基礎上,為了應用于現實世界中的場景,femasr?為了彌補圖像缺失的細節,采用在特征空間中與無失真的hr進行匹配來獲得高質量的圖像。mm-realsr提出了一種無監督退化估計策略,用于估計真實世界場景中的退化程度,并結合一種度量學習策略以無監督的方式進行訓練實
3、隨著大規模的文本到圖像(t2i)擴散模型的不斷進展,這些模型在大量的高清數據集上進行訓練,為解決復雜的圖像復原任務提供了堅實的基礎和豐富的先驗知識。stablesr作為一項開創性的工作,訓練了一個時間感知編碼器,利用?dms的先驗信息,在真實世界超分辨率上取得了不錯的成果。diffbir采用兩極管道的方式,將swimir?和?dm結合并微調controlnet,實現了盲圖像復原。為了保持一致的像素級結構,pasd引入了一個像素感知交叉關注模塊,實現了現實圖像超分辨率和個性圖像風格化。盡管在視覺質量上面取得了不錯的進展,但現實世界圖像在高頻信息和結構層次的恢復上,還未能充分利用t2i擴散模型的潛力。
技術實現思路
1、本專利技術的目的在于解決現有技術中對于真實世界圖像超分辨率處理上在高頻信息和結構層次的恢復上仍有不足的問題。
2、本專利技術解決其技術問題所采用的技術方案是:提供一種基于穩定擴散的真實世界圖像超分辨率方法,包括以下步驟:
3、制作數據集,并選擇穩定擴散模型作為預訓練模型;
4、構建基于注意力的注意力融合模塊、語義提示提取器和控制網絡;
5、將注意力融合模塊、語義提示提取器和控制網絡引入預訓練模型,構建增強先驗引導擴散模型;所述增強先驗引導擴散模型還包括預處理模塊和分割模塊,預處理模塊根據輸入的低分辨率圖像生成預處理圖像;分割模塊根據預處理圖像生成對應的分割掩碼圖像;注意力融合模塊整合預處理圖像和分割掩碼圖像的潛在特征,生成融合潛在特征;語義提示提取器從預處理圖像中提取到高質量語義提示詞并輸入到穩定擴散模型的去噪主干網絡;控制網絡根據融合潛在特征對去噪主干網絡進行特征調制;去噪主干網絡在控制網絡的特征調制下輸出高分辨率圖像;
6、基于數據集訓練增強先驗引導擴散模型,利用訓練好的增強先驗引導擴散模型實現真實世界圖像超分辨率。
7、優選的,預處理模塊為omni-sr模型,低分辨率圖像輸入到omni-sr模型提升保真度,獲得預處理圖像;分割模塊為預訓練sam模型,預處理圖像通過預訓練sam模型獲得分割掩碼圖像。
8、優選的,注意力融合模塊利用通道注意力整合預處理圖像和分割掩碼圖像的潛在特征以生成融合潛在特征,包括以下步驟:
9、對預處理圖像的潛在特征和分割掩碼的潛在特征進行逐元素求和得到整合特征;
10、整合特征分別輸入局部注意力和全局注意力,將局部注意力的輸出和全局注意力的輸出進行廣播相加,并通過sigmoid激活函數,獲得第一權重結果;
11、第一權重結果分別輸入局部注意力和全局注意力,將局部注意力的輸出和全局注意力的輸出進行廣播相加,并通過sigmoid激活函數,獲得融合潛在特征。
12、優選的,局部注意力包括兩個卷積層、兩個組歸一化層和一個非線性激活函數relu,其內部計算過程表示為:
13、;
14、其中,表示輸入局部注意力的整合特征或第一權重結果,表示局部注意力操作,表示為非線性激活函數relu,b()為組歸一化操作,和分別表示兩個卷積層的點-向卷積操作。
15、優選的,全局注意力包括一個平均池化層、兩個卷積層、一個組歸一化層和一個非線性激活函數relu,其內部計算過程表示為:
16、;
17、<mstyle displaystyle="true" mathcolor="#000000"><mi>g</mi><mi>(</mi><mi>z</mi><mi>')</mi><mi>=</mi><mfrac><mn>1</mn><mrow><mi>h</mi><mi>×</mi><mi>w</mi></mrow></mfrac><mstyle displaystyle="true"><msubsup><mo>∑</mo><mrow><mi>i</mi><mi>=</mi><mn>1</mn></mrow><mi>h</mi></msubsup><mstyle displaystyle="true"><msubsup><mo>∑</mo><mrow><mi>j</mi><mi>=</mi><mn>1</mn></mrow><mi>w</mi></msubsup><mrow><mi>z</mi><msub><mi>'</mi><mrow><mo>[</mo><mrow><mi>:,</mi><m本文檔來自技高網...
【技術保護點】
1.一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,預處理模塊為Omni-SR模型,低分辨率圖像輸入到Omni-SR模型提升保真度,獲得預處理圖像;分割模塊為預訓練SAM模型,預處理圖像通過預訓練SAM模型獲得分割掩碼圖像。
3.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,注意力融合模塊利用通道注意力整合預處理圖像和分割掩碼圖像的潛在特征以生成融合潛在特征,包括以下步驟:
4.根據權利要求3所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,局部注意力包括兩個卷積層、兩個組歸一化層和一個非線性激活函數Relu,其內部計算過程表示為:
5.根據權利要求3所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,全局注意力包括一個平均池化層、兩個卷積層、一個組歸一化層和一個非線性激活函數Relu,其內部計算過程表示為:
6.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分
7.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,所述控制網絡包括條件網絡和凍結的去噪主干網絡,控制網絡實現特征調制的過程包括以下步驟:
8.根據權利要求6所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,所述基于數據集訓練增強先驗引導擴散模型,包括對語義提示提取器的訓練,具體通過最小化如下訓練目標實現:
9.根據權利要求7所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,所述基于數據集訓練增強先驗引導擴散模型,包括對控制網絡的訓練,具體通過最小化如下訓練目標實現:
10.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,所述利用訓練好的增強先驗引導擴散模型實現真實世界圖像超分辨率,包括以下步驟:
...【技術特征摘要】
1.一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,預處理模塊為omni-sr模型,低分辨率圖像輸入到omni-sr模型提升保真度,獲得預處理圖像;分割模塊為預訓練sam模型,預處理圖像通過預訓練sam模型獲得分割掩碼圖像。
3.根據權利要求1所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,注意力融合模塊利用通道注意力整合預處理圖像和分割掩碼圖像的潛在特征以生成融合潛在特征,包括以下步驟:
4.根據權利要求3所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,局部注意力包括兩個卷積層、兩個組歸一化層和一個非線性激活函數relu,其內部計算過程表示為:
5.根據權利要求3所述的一種基于穩定擴散的真實世界圖像超分辨率方法,其特征在于,全局注意力包括一個平均池化層、兩個卷積層、一個組歸一化層和一個非線性激活函數relu,其內部計算過...
【專利技術屬性】
技術研發人員:阮淼華,黃德天,王一凡,黃靜,郭耀輝,宋佳訊,林明昕,劉航,
申請(專利權)人:華僑大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。