【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于深度學(xué)習(xí),尤其涉及一種基于預(yù)訓(xùn)練大模型高效適配器的搜索方法與裝置。
技術(shù)介紹
1、近年來(lái),大模型的發(fā)展呈指數(shù)級(jí)增長(zhǎng),基于transformer的視覺(jué)模型在圖像分類、語(yǔ)義分割和內(nèi)容生成等各個(gè)領(lǐng)域都取得了優(yōu)異的性能。然而,由于下游任務(wù)的訓(xùn)練資源和數(shù)據(jù)通常十分受限,使得具有海量參數(shù)的大模型難以直接在下游任務(wù)進(jìn)行微調(diào)。在這種情況下,參數(shù)高效的適配器已經(jīng)成為一種有效解決方案。許多方法采用了參數(shù)高效微調(diào)(parameter-efficient?fine-tuning,peft)的范式。peft保持大模型的預(yù)訓(xùn)練權(quán)重不變,只微調(diào)一個(gè)高效的適配器,使模型能夠快速適應(yīng)下游任務(wù)。由于其高效性,peft在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用。
2、現(xiàn)有手工設(shè)計(jì)的視覺(jué)適配器通常使用并行或串行的方式添加可學(xué)習(xí)的嵌入向量來(lái)增強(qiáng)輸入,如vpt等;亦或是學(xué)習(xí)低秩矩陣從而對(duì)預(yù)訓(xùn)練權(quán)重進(jìn)行線性變換,如lora等。然而,這些手工設(shè)計(jì)的適配器不僅需要豐富的專家經(jīng)驗(yàn),而且缺乏通用性,需要對(duì)超參數(shù)進(jìn)行耗時(shí)費(fèi)力地調(diào)節(jié)。此外,一些適配器結(jié)構(gòu)如vpt和adaptformer,在微調(diào)后由于無(wú)法集成到大模型中,進(jìn)而引入了額外的推理開銷,進(jìn)一步加劇了大模型推理效率低的問(wèn)題。由于手工設(shè)計(jì)的適配器無(wú)法適應(yīng)多樣化的下游任務(wù),研究人員開始利用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neuralarchitecture?search,nas)對(duì)適配器進(jìn)行自動(dòng)化設(shè)計(jì)。
3、在自然語(yǔ)言處理領(lǐng)域,adalora和dylora提出利用nas搜索低秩矩陣最佳秩的方法。前者采用基于權(quán)重共享的梯度搜索方
4、通過(guò)調(diào)研已有的適配器工作,專利技術(shù)人發(fā)現(xiàn)現(xiàn)有的適配器搜索方法只是簡(jiǎn)單地利用nas技術(shù)基于手工設(shè)計(jì)的適配器搜索超參數(shù),既沒(méi)有系統(tǒng)地設(shè)計(jì)適配器的搜索空間,也沒(méi)有解決適配器搜索過(guò)程中的通道訓(xùn)練偏移問(wèn)題。并且,noah等方法搜索到的適配器仍然會(huì)帶來(lái)額外的推理成本。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述問(wèn)題,本專利技術(shù)提出一種基于預(yù)訓(xùn)練大模型的適配器搜索方法,包括:模型選取步驟,根據(jù)目標(biāo)數(shù)據(jù)集選取預(yù)訓(xùn)練大模型;搜索空間構(gòu)建步驟,構(gòu)建對(duì)適配器深度、寬度和通道組合的搜索空間;超網(wǎng)訓(xùn)練步驟,基于該搜索空間,構(gòu)建包含所有可學(xué)習(xí)的低秩矩陣的網(wǎng)絡(luò)為超網(wǎng),對(duì)該超網(wǎng)進(jìn)行采樣預(yù)訓(xùn)練;適配器搜索步驟,使用進(jìn)化算法基于該超網(wǎng)的預(yù)訓(xùn)練權(quán)重搜索匹配該目標(biāo)數(shù)據(jù)集的最終適配器。
2、進(jìn)一步的,該搜索空間構(gòu)建步驟具體包括:權(quán)重建模步驟,針對(duì)每個(gè)適配器的預(yù)訓(xùn)練權(quán)重以低秩矩陣進(jìn)行建模;深度設(shè)置步驟,設(shè)置搜索深度,并且在設(shè)置的深度內(nèi),每一層選擇可學(xué)習(xí)的低秩矩陣或以identity()函數(shù)進(jìn)行跳躍連接;寬度設(shè)置步驟,設(shè)置搜索寬度,并且在設(shè)置的寬度內(nèi),按升序排列構(gòu)成秩集合,搜索合適的秩ri作為第i個(gè)適配器的預(yù)訓(xùn)練權(quán)重wi的寬度;通道組合設(shè)置步驟,當(dāng)?shù)趇個(gè)適配器的預(yù)訓(xùn)練權(quán)重wi選擇秩大小ri時(shí),對(duì)于選定的秩大小ri,對(duì)預(yù)訓(xùn)練權(quán)重的改變量δw進(jìn)行建模,其中,ai和bi為低秩矩陣,表示從所有候選通道中不放回采樣得到的ri個(gè)通道。
3、進(jìn)一步的,該超網(wǎng)訓(xùn)練步驟包括:使用采樣概率pi進(jìn)行通道采樣,其中
4、
5、
6、t表示采樣訓(xùn)練次數(shù)的總和,tj表示第j個(gè)通道的采樣次數(shù),表示第i個(gè)適配器權(quán)重和第j個(gè)通道損失的梯度二范數(shù),rn表示探索采樣的寬度,c表示適配器的所有候選通道。
7、進(jìn)一步的,該適配器搜索步驟包括:初始搜索步驟,隨機(jī)生成符合參數(shù)約束的適配器,構(gòu)成初始的適配器種群;迭代搜索步驟,對(duì)上一輪適配器種群的適配器權(quán)重進(jìn)行準(zhǔn)確率排序,選取預(yù)設(shè)比例的高準(zhǔn)確率的適配器進(jìn)行交叉和變異,以生成本輪的適配器,構(gòu)成本輪的適配器種群;進(jìn)行指定輪次的迭代搜索;適配器選取步驟,將所有搜索到的適配器以準(zhǔn)確率和參數(shù)量形成帕累托曲線,以該帕累托曲線的最優(yōu)平衡點(diǎn)對(duì)應(yīng)的適配器為最終適配器。
8、本專利技術(shù)還提出一種基于預(yù)訓(xùn)練大模型的適配器搜索裝置,包括:預(yù)訓(xùn)練大模型選擇模塊,用于根據(jù)目標(biāo)數(shù)據(jù)集選取預(yù)訓(xùn)練大模型;層次化搜索空間構(gòu)建模塊,用于構(gòu)建對(duì)適配器深度、寬度和通道組合的搜索空間;超網(wǎng)采樣訓(xùn)練模塊,用于基于該搜索空間,構(gòu)建包含所有可學(xué)習(xí)的低秩矩陣的網(wǎng)絡(luò)為超網(wǎng),對(duì)該超網(wǎng)進(jìn)行采樣預(yù)訓(xùn)練;適配器搜索模塊,用于使用進(jìn)化算法基于該超網(wǎng)的預(yù)訓(xùn)練權(quán)重搜索匹配該目標(biāo)數(shù)據(jù)集的最終適配器。
9、進(jìn)一步的,該搜索空間構(gòu)建模塊包括:權(quán)重建模模塊,用于針對(duì)每個(gè)適配器的預(yù)訓(xùn)練權(quán)重以低秩矩陣進(jìn)行建模;深度設(shè)置模塊,用于設(shè)置搜索深度,并且在設(shè)置的深度內(nèi),每一層選擇可學(xué)習(xí)的低秩矩陣或以identity()函數(shù)進(jìn)行跳躍連接;寬度設(shè)置模塊,用于設(shè)置搜索寬度,并且在設(shè)置的寬度內(nèi),按升序排列構(gòu)成秩集合,搜索合適的秩ri作為第i個(gè)適配器的預(yù)訓(xùn)練權(quán)重wi的寬度;通道組合設(shè)置模塊,用于當(dāng)?shù)趇個(gè)適配器的預(yù)訓(xùn)練權(quán)重wi選擇秩大小ri時(shí),對(duì)于選定的秩大小ri,對(duì)預(yù)訓(xùn)練權(quán)重的改變量δw進(jìn)行建模,其中,ai和bi為低秩矩陣,表示從所有候選通道中不放回采樣得到的ri個(gè)通道。
10、進(jìn)一步的,該超網(wǎng)訓(xùn)練模塊包括:使用采樣概率pi進(jìn)行通道采樣,其中
11、
12、
13、t表示采樣訓(xùn)練次數(shù)的總和,tj表示第j個(gè)通道的采樣次數(shù),表示第i個(gè)適配器權(quán)重和第j個(gè)通道損失的梯度二范數(shù),rn表示探索采樣的寬度,c表示適配器的所有候選通道。
14、進(jìn)一步的,該適配器搜索模塊包括:初始搜索模塊,用于隨機(jī)生成符合參數(shù)約束的適配器,構(gòu)成初始的適配器種群;迭代搜索模塊,用于對(duì)上一輪適配器種群的適配器權(quán)重進(jìn)行準(zhǔn)確率排序,選取預(yù)設(shè)比例的高準(zhǔn)確率的適配器進(jìn)行交叉和變異,以生成本輪的適配器,構(gòu)成本輪的適配器種群;進(jìn)行指定輪次調(diào)用該迭代搜索模塊以完成迭代搜索;適配器選取模塊,用于將所有搜索到的適配器以準(zhǔn)確率和參數(shù)量形成帕累托曲線,以該帕累托曲線的最優(yōu)平衡點(diǎn)對(duì)應(yīng)的適配器為最終適配器。
15、本專利技術(shù)還提出一種電子設(shè)備,包括如前所述的基于預(yù)訓(xùn)練大模型的適配器搜索裝置。
16、本專利技術(shù)還提出一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,當(dāng)該計(jì)算機(jī)可執(zhí)行指令被執(zhí)行時(shí),實(shí)現(xiàn)如前所述的基于預(yù)訓(xùn)練大模型的適配器搜索方法。
17、本專利技術(shù)設(shè)計(jì)了一個(gè)從適配器深度、寬度和通道組合三種粒度的適配器搜索空間,從而使得適配器在各種下游任務(wù)具有良好的泛化能力,以及一種基于探索和利用的超網(wǎng)采樣訓(xùn)練機(jī)制,來(lái)平衡不同通道的訓(xùn)練,從而確保通道間的公平對(duì)比并實(shí)現(xiàn)更快的收斂速度,使得尚未訓(xùn)練充分但有潛力的通道可以得到充分的訓(xùn)練,從而增強(qiáng)了不同通道間的訓(xùn)練公平性,改善本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于預(yù)訓(xùn)練大模型的適配器搜索方法,其特征在于,包括:
2.如權(quán)利要求1所述的適配器搜索方法,其特征在于,該搜索空間構(gòu)建步驟具體包括:
3.如權(quán)利要求2所述的適配器搜索方法,其特征在于,該超網(wǎng)訓(xùn)練步驟包括:
4.如權(quán)利要求2所述的適配器搜索方法,其特征在于,該適配器搜索步驟包括:
5.一種基于預(yù)訓(xùn)練大模型的適配器搜索裝置,其特征在于,包括:
6.如權(quán)利要求5所述的適配器搜索裝置,其特征在于,該搜索空間構(gòu)建模塊包括:
7.如權(quán)利要求6所述的適配器搜索裝置,其特征在于,該超網(wǎng)訓(xùn)練模塊包括:
8.如權(quán)利要求6所述的適配器搜索裝置,其特征在于,該適配器搜索模塊包括:
9.一種電子設(shè)備,包括如權(quán)利要求5~8任一項(xiàng)所述的基于預(yù)訓(xùn)練大模型適配器的搜索裝置。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,當(dāng)該計(jì)算機(jī)可執(zhí)行指令被執(zhí)行時(shí),實(shí)現(xiàn)如權(quán)利要求1~4任一項(xiàng)所述的基于預(yù)訓(xùn)練大模型的適配器搜索方法。
【技術(shù)特征摘要】
1.一種基于預(yù)訓(xùn)練大模型的適配器搜索方法,其特征在于,包括:
2.如權(quán)利要求1所述的適配器搜索方法,其特征在于,該搜索空間構(gòu)建步驟具體包括:
3.如權(quán)利要求2所述的適配器搜索方法,其特征在于,該超網(wǎng)訓(xùn)練步驟包括:
4.如權(quán)利要求2所述的適配器搜索方法,其特征在于,該適配器搜索步驟包括:
5.一種基于預(yù)訓(xùn)練大模型的適配器搜索裝置,其特征在于,包括:
6.如權(quán)利要求5所述的適配器搜索裝置,其特征在于,該搜...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陸順,胡瑜,
申請(qǐng)(專利權(quán))人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。