• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種面向BERT模型的剪枝可視分析方法技術(shù)

    技術(shù)編號(hào):36691931 閱讀:28 留言:0更新日期:2023-02-27 20:00
    本發(fā)明專利技術(shù)公開(kāi)了一種面向BERT模型的剪枝可視分析方法,包括如下步驟:訓(xùn)練模型BERT,提取BERT模型結(jié)構(gòu)圖,并保存訓(xùn)練結(jié)果;訓(xùn)練結(jié)果可視化顯示;利用剪枝可視分析系統(tǒng)組件分析模型剪枝可能性,設(shè)置剪枝參數(shù),利用模型剪枝算法精簡(jiǎn)模型,再進(jìn)行訓(xùn)練,觀察模型各項(xiàng)評(píng)估指標(biāo);保存剪枝后模型及模型參數(shù),當(dāng)剪枝模型達(dá)到性能指標(biāo)以及模型參數(shù)量達(dá)到要求水平,保存剪枝模型及模型參數(shù)。該方法通過(guò)可視化的方式展示模型剪枝過(guò)程,利用多圖可視化分析技術(shù),了解模型訓(xùn)練數(shù)據(jù)集樣本,關(guān)注模型訓(xùn)練過(guò)程指標(biāo)變化,發(fā)現(xiàn)訓(xùn)練樣本自注意力分布情況,有助于加深模型研究人員對(duì)模型的了解,幫助研究人員對(duì)模型進(jìn)行剪枝研究,達(dá)到降低模型參數(shù)量及優(yōu)化模型的目的。模型的目的。模型的目的。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    一種面向BERT模型的剪枝可視分析方法


    [0001]本專利技術(shù)涉及計(jì)算機(jī)數(shù)據(jù)可視化
    ,具體指一種面向BERT模型的剪枝可視分析方法。

    技術(shù)介紹

    [0002]2017年,Google團(tuán)隊(duì)提出了Transformer模型,摒棄了以往基于RNN結(jié)構(gòu)的序列依賴特性,通過(guò)只利用注意力機(jī)制完成模型編碼器和解碼器的構(gòu)建,增強(qiáng)了數(shù)據(jù)特征的提取能力,讓處于輸入序列中的任意單元都能看到輸入序列的全局信息。2018年底,基于Transformer架構(gòu)的編碼器堆棧,提出了全新的模型BERT,成功在11項(xiàng)自然語(yǔ)言處理任務(wù)上取得最先進(jìn)的結(jié)果。與其他語(yǔ)言表示模型不同,BERT旨在通過(guò)聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示。針對(duì)具體任務(wù),例如問(wèn)答任務(wù)、語(yǔ)言推理和語(yǔ)言翻譯,不需要對(duì)訓(xùn)練模型做大幅架構(gòu)修改,僅需要連接一個(gè)額外的輸出層進(jìn)行微調(diào),就可以達(dá)到優(yōu)秀的模型結(jié)果。
    [0003]BERT模型在多種下游任務(wù)表現(xiàn)優(yōu)異,但龐大的模型參數(shù)也帶來(lái)了訓(xùn)練及推理速度過(guò)慢的問(wèn)題,難以滿足對(duì)實(shí)時(shí)響應(yīng)速度要求高的場(chǎng)景,模型壓縮就顯得非常重要。

    技術(shù)實(shí)現(xiàn)思路

    [0004]本專利技術(shù)針對(duì)現(xiàn)有技術(shù)的不足,提出一種面向BERT模型的剪枝可視分析方法,可以通過(guò)損失值(loss)和準(zhǔn)確度(accuracy)可視化揭示訓(xùn)練過(guò)程中模型的優(yōu)化收斂情況;自注意力頭的可視化幫助用戶了解模型整體的自注意力頭的重要性分?jǐn)?shù),可作為用戶剪枝模型的依據(jù);模型剪枝歷史可視化以迭代回溯圖的方式整合用戶剪枝歷史,方便用戶對(duì)剪枝歷史的回溯以及調(diào)整剪枝方案。
    [0005]為了解決上述技術(shù)問(wèn)題,本專利技術(shù)的技術(shù)方案為:
    [0006]一種面向BERT模型的剪枝可視分析方法,包括如下步驟:
    [0007]S1、訓(xùn)練模型BERT,提取BERT模型結(jié)構(gòu)圖,并保存訓(xùn)練結(jié)果,所述訓(xùn)練結(jié)果包括模型訓(xùn)練損失值、準(zhǔn)確度、訓(xùn)練樣本原始標(biāo)簽及預(yù)測(cè)標(biāo)簽、訓(xùn)練樣本自注意力值和模型結(jié)構(gòu)圖信息;
    [0008]S2、訓(xùn)練結(jié)果可視化顯示
    [0009]利用流程圖可視化模型結(jié)構(gòu)圖,利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息,利用折線圖可視化模型訓(xùn)練損失值和準(zhǔn)確度,利用矩陣圖可視化訓(xùn)練樣本自注意力值,利用樹形層次圖可視化模型剪枝歷史;
    [0010]S3、利用剪枝可視分析系統(tǒng)組件分析模型剪枝可能性,設(shè)置剪枝參數(shù),利用模型剪枝算法精簡(jiǎn)模型,再進(jìn)行訓(xùn)練,觀察模型各項(xiàng)評(píng)估指標(biāo);
    [0011]S4、保存剪枝后模型及模型參數(shù),當(dāng)剪枝模型達(dá)到性能指標(biāo)以及模型參數(shù)量達(dá)到要求水平,保存剪枝模型及模型參數(shù)。
    [0012]作為優(yōu)選,所述步驟S1中提取BERT模型結(jié)構(gòu)圖的方法為:
    [0013]S1
    ?
    1、通過(guò)深度學(xué)習(xí)框架提供的動(dòng)態(tài)圖提取api獲取動(dòng)態(tài)圖graph;
    [0014]S1
    ?
    2、通過(guò)graph.inputs()和graph.nodes()獲取動(dòng)態(tài)圖節(jié)點(diǎn)信息,構(gòu)建計(jì)算圖;
    [0015]S1
    ?
    3、確定需要展示的結(jié)構(gòu)圖層級(jí)名稱,記為NamedSet。
    [0016]S1
    ?
    4、進(jìn)行過(guò)濾操作,獲取計(jì)算圖節(jié)點(diǎn)信息uid,如果包含在NamedSet中,保留節(jié)點(diǎn);否則刪除節(jié)點(diǎn),并刪除與之連接的邊,更新結(jié)構(gòu)圖信息;
    [0017]S1
    ?
    5、迭代更新完成后,獲得最終的模型結(jié)構(gòu)圖。
    [0018]作為優(yōu)選,所述步驟S2中利用流程圖可視化模型結(jié)構(gòu)圖的方法為:獲取模型結(jié)構(gòu)圖后,解析結(jié)構(gòu)圖樹形數(shù)據(jù),以節(jié)點(diǎn)流程圖方式展示模型內(nèi)部結(jié)構(gòu),通過(guò)給不同類型的節(jié)點(diǎn)設(shè)置不同的顏色標(biāo)識(shí)不同的神經(jīng)網(wǎng)絡(luò)層,用戶可清晰了解構(gòu)建整個(gè)模型所需的網(wǎng)絡(luò)層種類及層數(shù)。支持用戶放大、縮小和拖拽移動(dòng)模型結(jié)構(gòu)圖,用戶可點(diǎn)擊自注意力層,查看所選擇樣本在該層的自注意力信息,選取不同自注意力頭查看多頭自注意力下文本信息自注意力的分布情況。
    [0019]作為優(yōu)選,所述步驟S2中利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息的方法為:訓(xùn)練數(shù)據(jù)集信息表包含文本實(shí)例信息、原始標(biāo)簽和預(yù)測(cè)標(biāo)簽,可滾動(dòng)查看信息表中的各個(gè)實(shí)例信息,進(jìn)而觀察原始標(biāo)簽與預(yù)測(cè)標(biāo)簽的一致性,若出現(xiàn)大量不一致標(biāo)簽,表明模型訓(xùn)練準(zhǔn)確度較低,模型未達(dá)到收斂狀態(tài),需要調(diào)整模型結(jié)構(gòu)或參數(shù)進(jìn)行再訓(xùn)練;
    [0020]同時(shí),訓(xùn)練數(shù)據(jù)集中降維散點(diǎn)圖通過(guò)將文本實(shí)例降維到二維平面上,以數(shù)據(jù)點(diǎn)的方式表示實(shí)例,以不同顏色標(biāo)識(shí)預(yù)測(cè)結(jié)果,通過(guò)降維可視化,用戶首先觀察降維實(shí)例的聚類結(jié)果,越相近的數(shù)據(jù)點(diǎn)表明在二維空間越相似,二維空間的相似性體現(xiàn)了文本實(shí)例在高維數(shù)據(jù)空間的相似性,進(jìn)而可重點(diǎn)觀察不同聚類鄰近區(qū)域,借此發(fā)現(xiàn)預(yù)測(cè)錯(cuò)誤的實(shí)例,觀察預(yù)測(cè)錯(cuò)誤實(shí)例的自注意力分布情況,探索預(yù)測(cè)錯(cuò)誤的可能原因,利用UMAP降維算法進(jìn)行數(shù)據(jù)降維,將高維流形特征降維到二維平面,達(dá)到聚類特征的目的。
    [0021]作為優(yōu)選,所述UMAP降維算法流程如下:
    [0022]設(shè)定n_neighbors=15,規(guī)定流形結(jié)構(gòu)局部逼近中相鄰點(diǎn)的個(gè)數(shù),保留高維空間中數(shù)據(jù)的全局信息和局部信息;
    [0023]構(gòu)建高維連接圖,設(shè)定local_connectivity=1,保證至少有每個(gè)點(diǎn)至少有一條邊相連,每個(gè)點(diǎn)通過(guò)與其他點(diǎn)的距離計(jì)算連接確定性,距離越遠(yuǎn),連接確定性越小;
    [0024]由于使用了不同距離的方法,會(huì)遇到邊緣權(quán)重不對(duì)齊的情況,取兩條邊的并集進(jìn)行合并,得到高維連接圖;
    [0025]將高維連接圖投影到二維平面,設(shè)定min_distance=0.1,表示兩點(diǎn)之間的最小距離,避免重疊帶來(lái)的視覺(jué)混亂。
    [0026]通過(guò)優(yōu)化函數(shù)其中e表示單條邊,E表示邊集合,c
    h
    (e)表示高維空間中邊的連接確定性,c
    l
    (e)表示低維空間中邊的連接確定性,利用交叉熵優(yōu)化函數(shù),配合隨機(jī)梯度下降法找到低維空間中的最優(yōu)連接確定性,得到低維空間的連接圖。
    [0027]作為優(yōu)選,所述步驟S2中利用折線圖可視化模型訓(xùn)練損失值和準(zhǔn)確度的方法為:通過(guò)折線圖的方式展示模型訓(xùn)練過(guò)程和測(cè)試過(guò)程中的損失值和準(zhǔn)確度,其中x軸表示訓(xùn)練step數(shù),雙y軸表示損失值和準(zhǔn)確度,通過(guò)觀察兩條折線的變化趨勢(shì),確定模型是否達(dá)到收
    斂狀態(tài),如果出現(xiàn)損失值升高或者周期性變化,則認(rèn)為模型訓(xùn)練不合理,需要調(diào)整模型結(jié)構(gòu)并模型參數(shù)重新訓(xùn)練;通過(guò)下拉框選擇train、test進(jìn)行切換數(shù)據(jù)集切換,訓(xùn)練集用于模型擬合的數(shù)據(jù)樣本,用來(lái)訓(xùn)練網(wǎng)絡(luò)中的參數(shù),測(cè)試集用于評(píng)估最終模型的泛化能力,進(jìn)而決定是否能應(yīng)用到具體任務(wù)上。
    [0028]作為優(yōu)選,所述步驟S2中利用矩陣圖可視化訓(xùn)練樣本自注意力值的方法為:自注意力頭的可視化以矩陣圖的形式可視化BERT模型中每個(gè)自注意力層中每個(gè)自注意力頭的重要性分?jǐn)?shù),重要性分?jǐn)?shù)較低的頭將在剪枝流程中被刪除,降低模型的參數(shù)量,通過(guò)點(diǎn)擊每個(gè)自注意力頭查看每個(gè)自注意力頭產(chǎn)生的自注意力矩陣,觀察每個(gè)輸入樣本在不同的自注意力頭所產(chǎn)生的自注意力分布,如果分布均勻,說(shuō)明該自注意力頭沒(méi)有捕捉到有效信息,在本文檔來(lái)自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】

    【技術(shù)特征摘要】
    1.一種面向BERT模型的剪枝可視分析方法,其特征在于,包括如下步驟:S1、訓(xùn)練模型BERT,提取BERT模型結(jié)構(gòu)圖,并保存訓(xùn)練結(jié)果,所述訓(xùn)練結(jié)果包括模型訓(xùn)練損失值、準(zhǔn)確度、訓(xùn)練樣本原始標(biāo)簽及預(yù)測(cè)標(biāo)簽、訓(xùn)練樣本自注意力值和模型結(jié)構(gòu)圖信息;S2、訓(xùn)練結(jié)果可視化顯示利用流程圖可視化模型結(jié)構(gòu)圖,利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息,利用折線圖可視化模型訓(xùn)練損失值和準(zhǔn)確度,利用矩陣圖可視化訓(xùn)練樣本自注意力值,利用樹形層次圖可視化模型剪枝歷史;S3、利用剪枝可視分析系統(tǒng)組件分析模型剪枝可能性,設(shè)置剪枝參數(shù),利用模型剪枝算法精簡(jiǎn)模型,再進(jìn)行訓(xùn)練,觀察模型各項(xiàng)評(píng)估指標(biāo);S4、保存剪枝后模型及模型參數(shù),當(dāng)剪枝模型達(dá)到性能指標(biāo)以及模型參數(shù)量達(dá)到要求水平,保存剪枝模型及模型參數(shù)。2.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S1中提取BERT模型結(jié)構(gòu)圖的方法為:S1
    ?
    1、通過(guò)深度學(xué)習(xí)框架提供的動(dòng)態(tài)圖提取api獲取動(dòng)態(tài)圖graph;S1
    ?
    2、通過(guò)graph.inputs()和graph.nodes()獲取動(dòng)態(tài)圖節(jié)點(diǎn)信息,構(gòu)建計(jì)算圖;S1
    ?
    3、確定需要展示的結(jié)構(gòu)圖層級(jí)名稱,記為NamedSet;S1
    ?
    4、進(jìn)行過(guò)濾操作,獲取計(jì)算圖節(jié)點(diǎn)信息uid,如果包含在NamedSet中,保留節(jié)點(diǎn);否則刪除節(jié)點(diǎn),并刪除與之連接的邊,更新結(jié)構(gòu)圖信息;S1
    ?
    5、迭代更新完成后,獲得最終的模型結(jié)構(gòu)圖。3.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S2中利用流程圖可視化模型結(jié)構(gòu)圖的方法為:獲取模型結(jié)構(gòu)圖后,解析結(jié)構(gòu)圖樹形數(shù)據(jù),以節(jié)點(diǎn)流程圖方式展示模型內(nèi)部結(jié)構(gòu),通過(guò)給不同類型的節(jié)點(diǎn)設(shè)置不同的顏色標(biāo)識(shí)不同的神經(jīng)網(wǎng)絡(luò)層。4.根據(jù)權(quán)利要求1所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述步驟S2中利用數(shù)據(jù)集信息表與降維散點(diǎn)圖可視化訓(xùn)練數(shù)據(jù)集信息的方法為:訓(xùn)練數(shù)據(jù)集信息表包含文本實(shí)例信息、原始標(biāo)簽和預(yù)測(cè)標(biāo)簽,可滾動(dòng)查看信息表中的各個(gè)實(shí)例信息,進(jìn)而觀察原始標(biāo)簽與預(yù)測(cè)標(biāo)簽的一致性,若出現(xiàn)大量不一致標(biāo)簽,表明模型訓(xùn)練準(zhǔn)確度較低,模型未達(dá)到收斂狀態(tài),需要調(diào)整模型結(jié)構(gòu)或參數(shù)進(jìn)行再訓(xùn)練;同時(shí),訓(xùn)練數(shù)據(jù)集中降維散點(diǎn)圖通過(guò)將文本實(shí)例降維到二維平面上,以數(shù)據(jù)點(diǎn)的方式表示實(shí)例,以不同顏色標(biāo)識(shí)預(yù)測(cè)結(jié)果,通過(guò)降維可視化,用戶首先觀察降維實(shí)例的聚類結(jié)果,越相近的數(shù)據(jù)點(diǎn)表明在二維空間越相似,二維空間的相似性體現(xiàn)了文本實(shí)例在高維數(shù)據(jù)空間的相似性,進(jìn)而可重點(diǎn)觀察不同聚類鄰近區(qū)域,借此發(fā)現(xiàn)預(yù)測(cè)錯(cuò)誤的實(shí)例,觀察預(yù)測(cè)錯(cuò)誤實(shí)例的自注意力分布情況,探索預(yù)測(cè)錯(cuò)誤的可能原因,利用UMAP降維算法進(jìn)行數(shù)據(jù)降維,將高維流形特征降維到二維平面,達(dá)到聚類特征的目的。5.根據(jù)權(quán)利要求4所述的面向BERT模型的剪枝可視分析方法,其特征在于,所述UMAP降維算法流程如下:設(shè)定n_neighbors=15,規(guī)定流形結(jié)構(gòu)局部逼近中相鄰點(diǎn)的個(gè)數(shù),保留高維空間中數(shù)據(jù)的全局信息和局部信息;
    構(gòu)建高維連接圖,設(shè)定local_connectivity=1,保證至少有每個(gè)點(diǎn)至少有一條邊相連,每個(gè)點(diǎn)通過(guò)與其他點(diǎn)的距離計(jì)算連接確定性,距離越遠(yuǎn),連接確定性越小;由于使用了不同距離的方法,會(huì)遇到邊緣權(quán)重不對(duì)齊的情況,取兩條邊的并集進(jìn)行合并,得到高維連接圖;將高維連接圖投影到二維平面,設(shè)定min_distance=0.1,表示兩點(diǎn)之間的最小距離,避免重疊帶來(lái)的視覺(jué)混亂;通過(guò)優(yōu)化函數(shù)其中e表示單條邊,E表示邊集合,c
    h
    (e)表示高維空間中邊的連接確定性,c
    l
    (e)表示低維空間中邊的連接確定性,利用交叉熵優(yōu)化函數(shù),配合隨機(jī)梯度下降法找到低維空間中的...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉真孫海波洪鑫宇徐崗吳向陽(yáng)徐景勝顏菁吳兆國(guó)
    申請(qǐng)(專利權(quán))人:杭州電子科技大學(xué)
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久久久亚洲精品无码网址| 精品久久久无码21p发布| 无码精品蜜桃一区二区三区WW| 亚洲?V无码乱码国产精品| 中文字幕人妻三级中文无码视频| 久久久亚洲精品无码| 亚洲av无码成人精品区| 91精品日韩人妻无码久久不卡| 无码喷水一区二区浪潮AV| 日韩精品少妇无码受不了| 久久久人妻精品无码一区| 人妻无码久久精品人妻| 人妻无码一区二区三区免费| 中文字幕人妻无码系列第三区| 精品亚洲av无码一区二区柚蜜| 蜜桃成人无码区免费视频网站| 日韩人妻无码一区二区三区综合部| 无码区日韩特区永久免费系列| 中文有码vs无码人妻| 国产午夜无码片免费| 国产精品无码翘臀在线观看| 亚洲av永久无码精品网址| 精品无码一区二区三区亚洲桃色| 一本大道东京热无码一区| 亚洲色偷拍区另类无码专区| 无码高潮少妇毛多水多水免费| 久久精品aⅴ无码中文字字幕重口| 国内精品无码一区二区三区| 日韩精品无码一区二区视频| 国产精品无码专区在线播放| 无码人妻av一区二区三区蜜臀| 亚洲AV无码一区二区三区性色 | 色综合久久中文字幕无码| 精品无码综合一区| 国精品无码一区二区三区在线蜜臀| 亚洲成av人片不卡无码久久| 无码专区国产无套粉嫩白浆内射 | 成人h动漫精品一区二区无码 | 曰韩精品无码一区二区三区| 日韩a级无码免费视频| 伊人久久精品无码av一区 |