The invention discloses a hardware structure and a calculation flow of a two value weight convolution neural network accelerator. The hardware architecture consists of the following parts: static random access memory on three double end piece, were used to cache the input neurons and two value weight of a roll laminated; four convolution processing unit can be calculated according to the calculation operation process control arithmetic unit which completes the main convolution; a feature mapping unit and a cumulative the accumulation volume with array, for further processing of convolution processing unit operation results, to get the final correct values of the output neurons. The whole design exchanges data with off chip memory via dynamic random access memory interface. In addition to the hardware architecture, the present invention also includes a detailed calculation flow that optimizes the hardware architecture and maps the four input features into a complete computing unit. The present invention maximizes the reuse of input data, as far as possible to eliminate the external memory access, can effectively reduce the power consumption of the depth value of two convolutional neural network computing, and can support the deep web, is a can be used for reasonable application of the embedded system side visual case.
【技術(shù)實現(xiàn)步驟摘要】
二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及其計算流程
本專利技術(shù)設(shè)計計算機及電子信息
,特別涉及一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)專用加速器的硬件架構(gòu)及其計算流程。
技術(shù)介紹
深度卷積神經(jīng)網(wǎng)絡(luò)模型在諸多領(lǐng)域譬如圖像分類、動作檢測、語音識別以及其他大數(shù)據(jù)分析的任務(wù)中取得了極大的突破和成功。一方面,隨著卷積神經(jīng)網(wǎng)絡(luò)的效果變得越來越好,其本身拓撲結(jié)構(gòu)也在不斷加深,參數(shù)數(shù)量也達到了10的6次方及以上級別,這帶來了計算復(fù)雜度的極大提升,所需的計算能力爆炸性增長。另一方面,嵌入式系統(tǒng)僅能夠提供有限的資源,其功耗也受限在一定范圍內(nèi),現(xiàn)有常用的使用大規(guī)模GPU的解決方案雖然有較高的吞吐率,但其功耗過高(約250W),難以應(yīng)用于嵌入式系統(tǒng)中。二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)是一種簡化的卷積神經(jīng)網(wǎng)絡(luò)模型,其最早由加拿大蒙特利爾大學(xué)的MatthieuCourbariaux等人提出,后又經(jīng)過Itayhubara、MohammadRasteg等人的改進。此模型通過特別的訓(xùn)練方式將卷積神經(jīng)網(wǎng)絡(luò)的權(quán)重訓(xùn)練為二值的+1和-1,這使得模型的計算復(fù)雜度大大降低,模型的大小也能夠被壓縮達到32倍。然而盡管如此,對于深度卷積神經(jīng)網(wǎng)絡(luò),即使參數(shù)二值化能夠使得復(fù)雜度有所降低,其仍然需要大量的計算,直接應(yīng)用于嵌入式系統(tǒng)中很難滿足實時性的要求。因此設(shè)計一款二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器是進一步推動深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于嵌入式系統(tǒng)的理想解決方案之一。目前尚未出現(xiàn)理想的二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器。AndriR,CavigelliL,RossiD,etal.YodaNN:AnUltra-LowPowerConvolutionalNeur ...
【技術(shù)保護點】
一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及計算流程,其特征在于,硬件架構(gòu)部分包括:11.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機存儲器,即輸入神經(jīng)元緩存器IMEM,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)所針對的卷積核大小為3×3;12.一個用于保存二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的靜態(tài)隨機存儲器,即卷積核緩存器FMEM,其容量大小能夠?qū)⑷我庖粚泳矸e層的所有二值權(quán)重緩存下來,期中每個權(quán)重占用1比特;13.四個卷積處理單元,主要根據(jù)計算流程完成卷積處理計算;14.一個特征映射累加單元;15.一個卷積累加陣列。
【技術(shù)特征摘要】
1.一種二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器的硬件架構(gòu)及計算流程,其特征在于,硬件架構(gòu)部分包括:11.兩個用于存儲卷積層輸入的雙端靜態(tài)隨機存儲器,即輸入神經(jīng)元緩存器IMEM,其容量分別能夠存儲該網(wǎng)絡(luò)每一層輸入的所有通道中的2行,共計4行,此行數(shù)所針對的卷積核大小為3×3;12.一個用于保存二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)權(quán)重的靜態(tài)隨機存儲器,即卷積核緩存器FMEM,其容量大小能夠?qū)⑷我庖粚泳矸e層的所有二值權(quán)重緩存下來,期中每個權(quán)重占用1比特;13.四個卷積處理單元,主要根據(jù)計算流程完成卷積處理計算;14.一個特征映射累加單元;15.一個卷積累加陣列。2.權(quán)利要求1所述的卷積處理單元,其特征在于,包括:21.4個針對對應(yīng)行的數(shù)據(jù)緩沖單元DBF,其中包括兩列寄存器,每列寄存器可保存4個輸入數(shù)據(jù),數(shù)據(jù)可在兩列寄存器中流動;22.一個卷積核緩沖單元kernelbuffer,由512個移位寄存器組成,每個移位寄存器為9比特,可保存一個3×3的卷積核,因此卷積核緩沖單元可緩存對應(yīng)于所有輸出通道的某一輸入通道的卷積核;23.用于卷積計算中乘累加計算的多入多出濾波器MFIR,每一行有32個MFIR,這32個MFIR的輸入共用對應(yīng)行數(shù)據(jù)緩沖單元DBF中的輸入神經(jīng)元;24.將卷積處理單元前3行及后三行對應(yīng)輸出神經(jīng)元累加的快速加法單元FAU。3.二值權(quán)重卷積神經(jīng)網(wǎng)絡(luò)加速器硬件架構(gòu)及計算流程,其特征在于,卷積計算流程部分包括以下步驟(其中的英文縮寫的指代意義如權(quán)利要求1、2中所述):步驟一,從動態(tài)隨機存儲器中讀取待處理的所有輸入通道的4行數(shù)據(jù),緩存進IMEM中,每個IMEM緩存2行;除此之外,從動態(tài)隨機存儲器中讀取該卷積層的所有權(quán)重保存進如權(quán)利要求1所述的FMEM中;步驟二,將4個輸入通道的的4行,每行...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王中風(fēng),王逸致,林軍,
申請(專利權(quán))人:南京大學(xué),
類型:發(fā)明
國別省市:江蘇,32
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。