• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>南京大學(xué)專利>正文

    二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程制造技術(shù)

    技術(shù)編號:15691604 閱讀:351 留言:0更新日期:2017-06-24 04:56
    本發(fā)明專利技術(shù)公開了一種用于二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程。其中,硬件架構(gòu)包含以下部分:三個雙端片上靜態(tài)隨機存儲器,分別用于緩存輸入神經(jīng)元以及一個卷積層的二值權(quán)重;四個卷積處理單元,能夠根據(jù)計算流程控制其中的運算部件完成主要的卷積計算操作;一個特征映射累積單元以及一個卷積累加陣列,用于進一步處理卷積處理單元的運算結(jié)果,以得到最終正確的輸出神經(jīng)元的值。整個設(shè)計通過動態(tài)隨機存儲器接口與片外存儲器交換數(shù)據(jù)。除了硬件架構(gòu)以外,本發(fā)明專利技術(shù)還包含了一個對該硬件架構(gòu)優(yōu)化了的,以四行輸入特征映射為一次完整計算單位的詳細計算流程。本發(fā)明專利技術(shù)最大化的復(fù)用了輸入數(shù)據(jù),盡可能的消除了片外存儲器的訪問,能夠有效降低進行深度二值卷積神經(jīng)網(wǎng)絡(luò)計算的功耗,且能夠支持深層網(wǎng)絡(luò),是一種可用于視覺應(yīng)用的嵌入式系統(tǒng)的合理方案。

    Hardware architecture and calculation flow of two valued weighted convolution neural network accelerator

    The invention discloses a hardware structure and a calculation flow of a two value weight convolution neural network accelerator. The hardware architecture consists of the following parts: static random access memory on three double end piece, were used to cache the input neurons and two value weight of a roll laminated; four convolution processing unit can be calculated according to the calculation operation process control arithmetic unit which completes the main convolution; a feature mapping unit and a cumulative the accumulation volume with array, for further processing of convolution processing unit operation results, to get the final correct values of the output neurons. The whole design exchanges data with off chip memory via dynamic random access memory interface. In addition to the hardware architecture, the present invention also includes a detailed calculation flow that optimizes the hardware architecture and maps the four input features into a complete computing unit. The present invention maximizes the reuse of input data, as far as possible to eliminate the external memory access, can effectively reduce the power consumption of the depth value of two convolutional neural network computing, and can support the deep web, is a can be used for reasonable application of the embedded system side visual case.

    【技術(shù)實現(xiàn)步驟摘要】
    二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程
    本專利技術(shù)設(shè)計計算機及電子信息
    ,特別涉及一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)專用加速器的硬件架構(gòu)及其計算流程。
    技術(shù)介紹
    深度卷積神經(jīng)網(wǎng)絡(luò)模型在諸多領(lǐng)域譬如圖像分類、動作檢測、語音識別以及其他大數(shù)據(jù)分析的任務(wù)中取得了極大的突破和成功。一方面,隨著卷積神經(jīng)網(wǎng)絡(luò)的效果變得越來越好,其本身拓撲結(jié)構(gòu)也在不斷加深,參數(shù)數(shù)量也達到了10的6次方及以上級別,這帶來了計算復(fù)雜度的極大提升,所需的計算能力爆炸性增長。另一方面,嵌入式系統(tǒng)僅能夠提供有限的資源,其功耗也受限在一定范圍內(nèi),現(xiàn)有常用的使用大規(guī)模GPU的解決方案雖然有較高的吞吐率,但其功耗過高(約250W),難以應(yīng)用于嵌入式系統(tǒng)中。二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)是一種簡化的卷積神經(jīng)網(wǎng)絡(luò)模型,其最早由加拿大蒙特利爾大學(xué)的MatthieuCourbariaux等人提出,后又經(jīng)過Itayhubara、MohammadRasteg等人的改進。此模型通過特別的訓(xùn)練方式將卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重訓(xùn)練為二值的+1和-1,這使得模型的計算復(fù)雜度大大降低,模型的大小也能夠被壓縮達到32倍。然而盡管如此,對于深度卷積神經(jīng)網(wǎng)絡(luò),即使參數(shù)二值化能夠使得復(fù)雜度有所降低,其仍然需要大量的計算,直接應(yīng)用于嵌入式系統(tǒng)中很難滿足實時性的要求。因此設(shè)計一款二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器是進一步推動深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于嵌入式系統(tǒng)的理想解決方案之一。目前尚未出現(xiàn)理想的二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器。AndriR,CavigelliL,RossiD,etal.YodaNN:AnUltra-LowPowerConvolutionalNeuralNetworkAcceleratorBasedonBinaryWeights[J].2016:236-241.中提出了一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器,其能耗比遠超現(xiàn)有的高精度權(quán)重神經(jīng)網(wǎng)絡(luò)的加速器。然而此架構(gòu)由于大量的訪問片外的主存儲器,在400MHz的頻率下IO的功耗需要大約328毫瓦,甚至比片上計算的功耗還高。因此,針對降低訪問片外主存(動態(tài)隨機存儲器)的IO功耗的計算流程和對應(yīng)架構(gòu)亟待提出。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)旨在解決卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于功耗受限的嵌入式系統(tǒng)的技術(shù)問題,或至少提出一種有用的商業(yè)選擇。為此,本專利技術(shù)的目的在于提出一種針對二值卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化的硬件加速器架構(gòu)和計算流程,最大化數(shù)據(jù)復(fù)用的同時,盡可能的降低訪問片外隨機存儲器的帶寬和功耗,將大量的數(shù)據(jù)訪問限制在片上訪問功耗最低的寄存器上。同時本專利技術(shù)能夠適應(yīng)深度網(wǎng)絡(luò)的需求,能夠適應(yīng)具有最好分類精度之一的VGG-16Net、VGG-19Net等網(wǎng)絡(luò)拓撲的二值化版本。另外,由于二值卷積神經(jīng)網(wǎng)絡(luò)的全連接層主要為IO密集型需求,卷積計算是計算密集型需求,因此本專利技術(shù)著眼于二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)的卷積層的加速。本專利技術(shù)主要包含兩部分,一部分是整體的硬件架構(gòu),另一部分是優(yōu)化的計算流程。硬件架構(gòu)包含以下部分:1.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機存儲器,即輸入神經(jīng)元緩存器IMEM1,IMEM2,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)的設(shè)置能應(yīng)用于卷積核大小為3×3的二值卷積神經(jīng)網(wǎng)絡(luò)。2.一個用于保存二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的靜態(tài)隨機存儲器,即卷積核緩存器FMEM,其容量大小能夠?qū)⑷我庖粚泳矸e層的所有二值權(quán)重緩存下來,期中每個權(quán)重占用1比特;其有益效果是能夠顯著降低片外動態(tài)隨機存儲器的訪問,降低功耗。計算到每一層的權(quán)重都只需要從動態(tài)隨機存儲器中讀取一次。3.四個卷積處理單元PU1~PU4。用于輸入神經(jīng)元以及卷積核的緩沖存儲,初步的卷積操作。每個卷積處理單元處理一個輸入通道的某4行輸入神經(jīng)元。4.一個連接于四個卷積處理單元之后的特征映射累積單元ISU,能夠進一步處理四個卷積處理單元的計算結(jié)果。5.一個卷積累加陣列ACCA。由于深度卷積神經(jīng)網(wǎng)絡(luò)每個卷積層往往都有極多通道,因此只能以部分并行方式進行累加求和處理,最終通過卷積累加陣列對之前計算的數(shù)據(jù)進行串行組合。其中,卷積處理單元為本硬件架構(gòu)的主要計算單元,其中包括:1.四個針對對應(yīng)行的數(shù)據(jù)緩沖單元DBF,其中包括兩列寄存器,每列寄存器可保存4個輸入數(shù)據(jù),數(shù)據(jù)可在兩列寄存器中流動。2.一個卷積核緩沖單元KernelBuffer,由512個移位寄存器組成,每個移位寄存器為9比特,可保存一個3×3的卷積核,因此卷積核緩沖單元可緩存針對所有輸出通道的某一輸入通道的卷積核。卷積核緩沖單元可以將緩沖的卷積核同時送至任意入多出濾波器。3.用于卷積計算中乘累加計算的多入多出濾波器MFIR,其中第一第四輸入行有1×32個MFIR,第二第三行有2×32個MFIR,每行的MFIR的輸入共用對應(yīng)行數(shù)據(jù)緩沖單元DBF中的輸入神經(jīng)元。4.將卷積處理單元前3行及后三行對應(yīng)輸出神經(jīng)元累加的快速加法單元FAU。上述硬件架構(gòu)為配合本專利技術(shù)的計算流程所涉及的計算流程,其有益效果是進行高效的卷積計算,盡可能的提高數(shù)據(jù)復(fù)用和降低片外動態(tài)存儲器的訪問。本專利技術(shù)的計算流程,包含以下步驟:步驟一,從動態(tài)隨機存儲器中讀取待處理的所有輸入通道的4行數(shù)據(jù),緩存進IMEM中,每個IMEM緩存2行。除此之外,從動態(tài)隨機存儲器中讀取該卷積層的所有權(quán)重保存進FMEM中。步驟二,將4個輸入通道的4行,每行4個輸入神經(jīng)元分別讀取進卷積處理單元的數(shù)據(jù)緩沖單元DBF里的寄存器中,同時將對應(yīng)輸入通道的二值權(quán)重讀入卷積處理單元的卷積核緩沖單元中。步驟三,從卷積核緩沖單元的寄存器中取出對應(yīng)32個輸出通道的卷積核分別送入對應(yīng)的MFIR中,每個MFIR完成一行的卷積計算,并通過FAU進行累加。每個卷積處理單元的FAU輸出再通過特征映射累加單元進行累加后,再在卷積累加陣列中與舊有累加結(jié)果進行相加。步驟四,重復(fù)步驟三,改變送入各個MFIR的卷積核,直到所有輸出通道被處理,共需要n/32次迭代,其中n為總的輸出通道數(shù)。與此同時,繼續(xù)從IMEM中讀取下一次迭代需要的每行的接下來4個輸入神經(jīng)元進入對應(yīng)DBF中的未在卷積中使用的一列寄存器。步驟五,由于步驟四中已經(jīng)將接下來4個輸入神經(jīng)元讀入,因此可以對這些輸入神經(jīng)元進行卷積。重復(fù)步驟三、四,直到當(dāng)前的4個輸入通道的4行全部處理完畢。步驟六,更換接下來4個輸入通道,重復(fù)步驟二、三、四、五,直到所有輸入通道都被處理完畢,此時在卷積累加陣列中的輸出神經(jīng)元就已經(jīng)計算完全,也即已經(jīng)得到了所有輸出通道的2行輸出。步驟七,重復(fù)步驟一到步驟六,直到完成整個卷積層的所有輸入行的計算,得到所有輸出,并保存回動態(tài)隨機存儲器,等待下一次讀取進行下一層卷積層的計算。其中步驟一中的讀取權(quán)重的過程可以跳過,因為此過程僅需一次。補充說明:在上述的步驟五和步驟六的處理過程中,同時還從動態(tài)隨機存儲器中預(yù)讀取接下來的兩行數(shù)據(jù)進入IMEM中,以覆蓋當(dāng)前處理的4行中的前兩行已被處理過的輸入神經(jīng)元。具體預(yù)讀取和替換的時序為:一旦當(dāng)前處理的4行中的前兩行某個數(shù)據(jù)被讀入卷積處理單元的數(shù)據(jù)緩沖單元后,即從片外動態(tài)隨機存儲器中讀入對應(yīng)的數(shù)據(jù)覆蓋片上靜態(tài)隨機存儲器IMEM中的該數(shù)據(jù)。本專利技術(shù)上述的硬件架構(gòu)配合計算流程,有益效果如下:首先,由于二值卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的二值化,因此每個權(quán)重可以使用1比特保存,因此相比高精度權(quán)重的卷積本文檔來自技高網(wǎng)
    ...
    二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程

    【技術(shù)保護點】
    一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及計算流程,其特征在于,硬件架構(gòu)部分包括:11.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機存儲器,即輸入神經(jīng)元緩存器IMEM,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)所針對的卷積核大小為3×3;12.一個用于保存二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的靜態(tài)隨機存儲器,即卷積核緩存器FMEM,其容量大小能夠?qū)⑷我庖粚泳矸e層的所有二值權(quán)重緩存下來,期中每個權(quán)重占用1比特;13.四個卷積處理單元,主要根據(jù)計算流程完成卷積處理計算;14.一個特征映射累加單元;15.一個卷積累加陣列。

    【技術(shù)特征摘要】
    1.一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及計算流程,其特征在于,硬件架構(gòu)部分包括:11.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機存儲器,即輸入神經(jīng)元緩存器IMEM,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)所針對的卷積核大小為3×3;12.一個用于保存二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的靜態(tài)隨機存儲器,即卷積核緩存器FMEM,其容量大小能夠?qū)⑷我庖粚泳矸e層的所有二值權(quán)重緩存下來,期中每個權(quán)重占用1比特;13.四個卷積處理單元,主要根據(jù)計算流程完成卷積處理計算;14.一個特征映射累加單元;15.一個卷積累加陣列。2.權(quán)利要求1所述的卷積處理單元,其特征在于,包括:21.4個針對對應(yīng)行的數(shù)據(jù)緩沖單元DBF,其中包括兩列寄存器,每列寄存器可保存4個輸入數(shù)據(jù),數(shù)據(jù)可在兩列寄存器中流動;22.一個卷積核緩沖單元kernelbuffer,由512個移位寄存器組成,每個移位寄存器為9比特,可保存一個3×3的卷積核,因此卷積核緩沖單元可緩存對應(yīng)于所有輸出通道的某一輸入通道的卷積核;23.用于卷積計算中乘累加計算的多入多出濾波器MFIR,每一行有32個MFIR,這32個MFIR的輸入共用對應(yīng)行數(shù)據(jù)緩沖單元DBF中的輸入神經(jīng)元;24.將卷積處理單元前3行及后三行對應(yīng)輸出神經(jīng)元累加的快速加法單元FAU。3.二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器硬件架構(gòu)及計算流程,其特征在于,卷積計算流程部分包括以下步驟(其中的英文縮寫的指代意義如權(quán)利要求1、2中所述):步驟一,從動態(tài)隨機存儲器中讀取待處理的所有輸入通道的4行數(shù)據(jù),緩存進IMEM中,每個IMEM緩存2行;除此之外,從動態(tài)隨機存儲器中讀取該卷積層的所有權(quán)重保存進如權(quán)利要求1所述的FMEM中;步驟二,將4個輸入通道的的4行,每行...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王中風(fēng)王逸致林軍
    申請(專利權(quán))人:南京大學(xué)
    類型:發(fā)明
    國別省市:江蘇,32

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲VA成无码人在线观看天堂| 蜜桃无码AV一区二区| 无码国产精成人午夜视频一区二区 | 亚洲日韩精品A∨片无码| 亚洲aⅴ无码专区在线观看春色 | 久久精品无码午夜福利理论片| 亚洲Av无码乱码在线观看性色| 亚洲熟妇无码八AV在线播放| 久久激情亚洲精品无码?V| 国产激情无码一区二区| 久久久久久国产精品免费无码| 亚洲AV无码专区亚洲AV桃| 国外AV无码精品国产精品| 亚洲成a人片在线观看无码专区| 久久AV高潮AV无码AV| 国产精品无码A∨精品影院| 免费无码不卡视频在线观看| 中文字幕人妻无码一夲道 | 国产成人无码AV麻豆| 无码人妻熟妇AV又粗又大| 深夜a级毛片免费无码| 亚洲Av永久无码精品一区二区| 日韩人妻无码一区二区三区| 无码高潮爽到爆的喷水视频app | 久久久久无码精品国产h动漫| 国产午夜无码专区喷水| 人妻少妇AV无码一区二区| 国产强伦姧在线观看无码| V一区无码内射国产| 中文无码喷潮在线播放| 国产精品成人无码久久久久久 | 在线观看无码AV网址| 永久免费av无码网站yy| 国产亚洲AV无码AV男人的天堂| 无码 免费 国产在线观看91 | 无码人妻精品中文字幕| 久久国产精品无码HDAV| 人妻精品久久无码区| 一本色道无码道在线| 国产爆乳无码视频在线观看| 久久精品中文无码资源站|