【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)設(shè)計(jì)了一種基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)力法,屬于機(jī)器學(xué)習(xí)領(lǐng)域。
技術(shù)介紹
1、隨著數(shù)據(jù)量的不斷增長和計(jì)算能力的不斷增強(qiáng),以機(jī)器學(xué)習(xí)為代表的人工智能得到長足發(fā)展,并逐漸應(yīng)用到現(xiàn)實(shí)生活中。傳統(tǒng)的機(jī)器學(xué)習(xí)假設(shè)數(shù)據(jù)是獨(dú)立同分布的,即訓(xùn)練樣本和測試樣本來自相同的數(shù)據(jù)分布。但在現(xiàn)實(shí)環(huán)境中,由于采集設(shè)備、光照、視角等因素的差異,獨(dú)立同分布的假設(shè)很難成立,嚴(yán)重影響機(jī)器學(xué)習(xí)模型的性能,阻礙了其在真實(shí)場景中的應(yīng)用。
2、遷移學(xué)習(xí)的基本思想是將從已標(biāo)注數(shù)據(jù)中學(xué)習(xí)到的知識遷移到未標(biāo)注數(shù)據(jù)上的目標(biāo)任務(wù)中,減輕對目標(biāo)域數(shù)據(jù)標(biāo)注的依賴,同時考慮環(huán)境的變化。無監(jiān)督域適應(yīng)是遷移學(xué)習(xí)的一個實(shí)例,將知識從有標(biāo)注的源域遷移到無標(biāo)注的目標(biāo)域,其中源域和目標(biāo)域的數(shù)據(jù)分布不一致,反映了現(xiàn)實(shí)情況。
3、在醫(yī)療、金融等重視隱私保護(hù)的領(lǐng)域,源域數(shù)據(jù)往往難以獲取,只能將源域預(yù)訓(xùn)練模型適配到無標(biāo)注的目標(biāo)域,這種問題設(shè)定下的無監(jiān)督域適配被稱為無源域適配?,F(xiàn)有主流無源域適應(yīng)方法是基于偽標(biāo)簽的方法,一方面提升偽標(biāo)簽的準(zhǔn)確率,另一方面利用目標(biāo)域數(shù)據(jù)優(yōu)化特征表達(dá),但效果仍有待提升。
4、因?yàn)樯疃葘W(xué)習(xí)模型會先擬合干凈數(shù)據(jù)、學(xué)習(xí)簡單模式,然后才會擬合噪聲數(shù)據(jù)和學(xué)習(xí)復(fù)雜模式,所以本專利技術(shù)提出的方法根據(jù)偽標(biāo)簽的可靠程度將目標(biāo)域樣本分成易適配的樣本和難適配的樣本。模型訓(xùn)練過程由交替執(zhí)行的階段一和階段二構(gòu)成:階段一主要包含加權(quán)的自訓(xùn)練和圖對比學(xué)習(xí),階段二分別使用一致性損失和實(shí)例對比學(xué)習(xí)在易適配和難適配的目標(biāo)樣本上訓(xùn)練模型。實(shí)驗(yàn)表明本力法取得了很好的效
技術(shù)實(shí)現(xiàn)思路
1、在不訪問源域數(shù)據(jù)的前提下,將源域預(yù)訓(xùn)練模型適配到目標(biāo)域并取得較好的效果,本專利技術(shù)提出了基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法。
2、本專利技術(shù)的主要內(nèi)容如下:
3、(1)獲取域適應(yīng)常用公開數(shù)據(jù)集,進(jìn)行數(shù)據(jù)預(yù)處理。
4、(2)獲取源域預(yù)訓(xùn)練模型,包括一個特征提取器和一個分類器。
5、(3)設(shè)計(jì)目標(biāo)域樣本劃分策略。將特征提取器提取的圖像特征輸入分類器獲得分類結(jié)果。根據(jù)分類置信度對目標(biāo)域樣本進(jìn)行初次劃分,得到易適應(yīng)樣本的候選集合,再通過計(jì)算樣本的信息熵進(jìn)一步選取熵值較低的樣本作為目標(biāo)域易適應(yīng)樣本,剩余的目標(biāo)域樣本作為難適應(yīng)樣本。
6、(4)進(jìn)行階段一的訓(xùn)練:采用聚類策略更新模型對目標(biāo)樣本的類別預(yù)測,獲取樣本的偽標(biāo)簽,并使用加權(quán)的損失函數(shù)減緩不可靠偽標(biāo)簽的作用;設(shè)計(jì)圖對比學(xué)習(xí)將類別可能相同的難適應(yīng)樣本和易適應(yīng)樣本對齊,優(yōu)化目標(biāo)域樣本的特征表達(dá)。
7、(5)進(jìn)行階段二的訓(xùn)練:先對易適應(yīng)樣本進(jìn)行強(qiáng)、弱數(shù)據(jù)增強(qiáng),并計(jì)算兩種視圖的一致性損失以增強(qiáng)模型對類別語義的理解,同時對易適應(yīng)樣本使用偽標(biāo)簽進(jìn)行自訓(xùn)練以提高模型對易適應(yīng)樣本的預(yù)測自信;然后對難適應(yīng)樣本采用實(shí)例對比學(xué)習(xí),將每個難適應(yīng)樣本的近鄰樣本作為該樣本的正例,其余難適應(yīng)樣本均為負(fù)例,最大化樣本和正例的相似度,最小化樣本和負(fù)例之間的相似度。在階段二中,模型進(jìn)行了從易適應(yīng)樣本到難適應(yīng)樣本的漸進(jìn)式學(xué)習(xí)。
8、(6)上述階段一和階段二交替進(jìn)行,直至模型收斂。
9、(7)在所有數(shù)據(jù)集的各遷移任務(wù)上進(jìn)行實(shí)驗(yàn),記錄目標(biāo)域樣本分類準(zhǔn)確率。
10、(8)進(jìn)行消融實(shí)驗(yàn),驗(yàn)證不同模塊的有效性。
11、本專利技術(shù)的有益效果是:本專利技術(shù)提出了基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,將目標(biāo)域樣本劃分為易適應(yīng)樣本和難適應(yīng)樣本,先易后難的對二者采用不同的處理策略,不僅減弱了域偏移的負(fù)面影響,還增強(qiáng)了模型對類別語義的理解,最終提高了目標(biāo)域樣本分類準(zhǔn)確率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.本專利技術(shù)涉及一種基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(2)中的易適應(yīng)樣本篩選機(jī)制,根據(jù)模型的分類器預(yù)測,在每個類別選出預(yù)測概率最高的N個樣本作為候選樣本。計(jì)算候選樣本的信息熵,并對每個類別的候選樣本按照熵值由低到高進(jìn)行排列,選取前M個樣本作為最終的易適應(yīng)樣本,剩余樣本作為難適應(yīng)樣本。
3.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(3)中所述的圖對比學(xué)習(xí)損失,將一個batch的樣本作為圖的頂點(diǎn),以偽標(biāo)簽作為頂點(diǎn)的類別。如果邊的兩個頂點(diǎn)偽標(biāo)簽相同,且至少有一個頂點(diǎn)對應(yīng)易適應(yīng)樣本,則該邊的值為1,否則,值為0,由此構(gòu)造樣本類別關(guān)系圖;相似的,構(gòu)造樣本特征關(guān)系圖,以頂點(diǎn)樣本的特征相似度作為邊值。以樣本類別關(guān)系圖作為樣本特征關(guān)系圖的訓(xùn)練目標(biāo)。
4.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(5)中所述實(shí)例對比學(xué)習(xí),在難適應(yīng)樣本的特征空間中根據(jù)樣本歸一化后的特征向量,通
5.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(6)中將訓(xùn)練進(jìn)程轉(zhuǎn)化為兩個訓(xùn)練階段的交替進(jìn)行,階段一包括對目標(biāo)域數(shù)據(jù)的劃分,偽標(biāo)簽優(yōu)化,自訓(xùn)練,和圖對比學(xué)習(xí),其作用在于將目標(biāo)域的特征分布與源模型學(xué)習(xí)的源域分布對齊;第二個訓(xùn)練階段包括易適應(yīng)樣本不同數(shù)據(jù)增強(qiáng)的一致性學(xué)習(xí)以及難適應(yīng)樣本的實(shí)例對比學(xué)習(xí),其作用在于優(yōu)化目標(biāo)域樣本的的特征分布,輔助階段一訓(xùn)練。兩個訓(xùn)練階段交替進(jìn)行,直至模型收斂。
...【技術(shù)特征摘要】
1.本發(fā)明涉及一種基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,包括如下步驟:
2.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(2)中的易適應(yīng)樣本篩選機(jī)制,根據(jù)模型的分類器預(yù)測,在每個類別選出預(yù)測概率最高的n個樣本作為候選樣本。計(jì)算候選樣本的信息熵,并對每個類別的候選樣本按照熵值由低到高進(jìn)行排列,選取前m個樣本作為最終的易適應(yīng)樣本,剩余樣本作為難適應(yīng)樣本。
3.如權(quán)利要求1所述的基于目標(biāo)域樣本劃分的漸進(jìn)式無源域適應(yīng)方法,其特征在于,步驟(3)中所述的圖對比學(xué)習(xí)損失,將一個batch的樣本作為圖的頂點(diǎn),以偽標(biāo)簽作為頂點(diǎn)的類別。如果邊的兩個頂點(diǎn)偽標(biāo)簽相同,且至少有一個頂點(diǎn)對應(yīng)易適應(yīng)樣本,則該邊的值為1,否則,值為0,由此構(gòu)造樣本類別關(guān)系圖;相似的,構(gòu)造樣本特征關(guān)系圖,以頂點(diǎn)樣本的特征相似度作為邊值。以樣本類別關(guān)系圖作為樣本特征關(guān)系圖的訓(xùn)練目標(biāo)。
4.如權(quán)利要求1所述的基...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李晶,劉攀,趙萌,陳勝勇,
申請(專利權(quán))人:天津理工大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。