• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    在卷積神經網絡中的1x1卷積的加速制造技術

    技術編號:39852023 閱讀:49 留言:0更新日期:2023-12-30 12:52
    本公開涉及在卷積神經網絡中的1x1卷積的加速。卷積加速器包括特征行緩沖器,內核緩沖器,乘累加集群和模式控制電路裝置。在第一操作模式中,模式控制電路裝置將特征數據存儲在特征行緩沖器中并將內核數據存儲在內核緩沖器中。存儲在緩沖器中的數據被傳輸到卷積加速器的MAC集群進行處理。在第二操作模式中,模式控制電路裝置將特征數據存儲在內核緩沖器中,并將內核數據存儲在特征行緩沖器中。存儲在緩沖器中的數據被傳輸到卷積加速器的MAC集群進行處理。第二操作模式可用于有效地處理1

    【技術實現步驟摘要】
    在卷積神經網絡中的1x1卷積的加速


    [0001]本公開一般涉及卷積加速器,諸如在學習/推理機(例如,人工神經網絡(ANN),諸如卷積神經網絡(CNN))中使用的卷積加速器。

    技術介紹

    [0002]各種計算機視覺,語音識別和信號處理應用可以受益于學習/推理機的使用,學習/推理機可以快速地執行數百,數千乃至數百萬的并發操作。如本公開中所討論的,學習/推理機可以屬于機器學習,人工智能,神經網絡,概率推理引擎,加速器等的技術名稱。傳統的學習/推理機可以提供數百teraflops(例如,每秒一百萬(10
    12
    )個浮點運算)的計算能力。
    [0003]這種學習/推理機可以包括或利用CNN,例如深度卷積神經網絡(DCNN)。DCNN是一種基于計算機的工具,其處理大量的數據,并且通過將數據中的相關特征向近端整合,對數據進行廣泛的預測,以及基于可靠的結論和新的整合來改進預測,從而自適應地“學習”。DCNN被安排在多個“層”中,并且在每一層進行不同類型的預測。通常采用包括卷積加速器的硬件加速器來加速DCNN對大量數據的處理。

    技術實現思路

    [0004]在一個實施例中,卷積加速器包括特征行緩沖器,與特征行緩沖器分離的內核緩沖器,乘累加(MAC)集群,以及耦合到特征行緩沖器、內核緩沖器和MAC集群的模式控制電路裝置。在卷積加速器的第一操作模式中,模式控制電路裝置將特征數據存儲在特征行緩沖器中,將內核數據存儲在內核緩沖器中,將特征數據從特征行緩沖器傳輸到MAC集群,并且將內核數據從內核緩沖器傳輸到MAC集群。在卷積加速器的第二操作模式中,模式控制電路裝置將特征數據存儲在內核緩沖器中,將內核數據存儲在特征行緩沖器中,將特征數據從內核緩沖器傳輸到MAC集群,并且將內核數據從特征行緩沖器傳輸到MAC集群。第二操作模式可用于有效地處理1
    ×
    N內核,其中N是大于或等于1的整數。
    [0005]在一個實施例中,一種系統包括:流引擎,其在操作中流式傳輸特征和內核數據;以及卷積加速器,其耦合到所述流引擎,其中所述卷積加速器在操作中從所述流引擎接收特征和內核數據的流。卷積加速器包括特征行緩沖器,內核緩沖器,耦合到特征行緩沖器和內核緩沖器的乘累加集群,耦合到特征行緩沖器,內核緩沖器和MAC集群的模式控制電路裝置。在卷積加速器的第一操作模式中,模式控制電路裝置將特征數據存儲在特征行緩沖器中,將內核數據存儲在內核緩沖器中,將特征數據從特征行緩沖器傳輸到MAC集群,并且將內核數據從內核緩沖器傳輸到MAC集群。在卷積加速器的第二操作模式中,模式控制電路裝置將特征數據存儲在內核緩沖器中,將內核數據存儲在特征行緩沖器中,將特征數據從內核緩沖器傳輸到MAC集群,并且將內核數據從特征行緩沖器傳輸到MAC集群。第二操作模式可用于有效地處理1
    ×
    N內核,其中N是大于或等于1的整數。
    [0006]在一個實施例中,一種方法包括將特征數據和內核數據流式傳輸到卷積加速器,以及將流式傳輸內核數據與流式傳輸特征數據進行卷積。卷積包括:在卷積加速器的第一
    操作模式中,將特征數據存儲在卷積加速器的特征行緩沖器中,將內核數據存儲在卷積加速器的內核緩沖器中,將特征數據從特征行緩沖器傳輸到卷積加速器的MAC集群,以及將內核數據從內核緩沖器傳輸到MAC集群。在卷積加速器的第二操作模式中,卷積包括將特征數據存儲在內核緩沖器中,將內核數據存儲在特征行緩沖器中,將特征數據從內核緩沖器傳輸到MAC集群,以及將內核數據從特征行緩沖器傳輸到MAC集群。第二操作模式可用于有效地處理1
    ×
    N內核,其中N是大于或等于1的整數。
    [0007]在一個實施例中,非暫態計算機可讀介質的內容配置具有多個操作模式的卷積加速器,以將流式傳輸內核數據與流式傳輸特征數據進行卷積。卷積包括:在卷積加速器的多個操作模式中的第一操作模式中,將特征數據存儲在卷積加速器的特征行緩沖器中,將內核數據存儲在卷積加速器的內核緩沖器中,將特征數據從特征行緩沖器傳輸到卷積加速器的MAC集群,以及將內核數據從內核緩沖器傳輸到MAC集群。在卷積加速器的多個操作模式中的第二操作模式中,卷積包括將特征數據存儲在內核緩沖器中,將內核數據存儲在特征行緩沖器中,將特征數據從內核緩沖器傳輸到MAC集群,以及將內核數據從特征行緩沖器傳輸到MAC集群。第二操作模式可用于有效地處理1
    ×
    N內核,其中N是大于或等于1的整數。在一個實施例中,所述內容包括由卷積加速器執行的指令。
    附圖說明
    [0008]下文將參照附圖描述一個或多個實施例。
    [0009]圖1是說明數字識別任務的概念圖。
    [0010]圖2是示出圖像識別任務的概念圖。
    [0011]圖3是示出CNN的示例的概念圖。
    [0012]圖4是示出CNN的示例卷積層的概念圖。
    [0013]圖5是示出CNN的卷積層的跨步的概念圖。
    [0014]圖6是示出在卷積期間應用輸入特征映射的填充以保持高度和寬度尺寸的概念圖。
    [0015]圖7是示出批量加載特征數據的概念圖。
    [0016]圖8是說明分批卷積處理的概念圖。
    [0017]圖9是采用卷積加速器模式控制電路裝置的電子設備或系統的實施例的功能框圖。
    [0018]圖10是示出使用卷積加速器的實施例的具有3
    ×
    3內核的卷積操作的處理的概念圖。
    [0019]圖11是示出分別具有3
    ×
    3和1
    ×
    1內核的卷積層的概念圖。
    [0020]圖12是示出在其中卷積加速器的組件被關斷的操作模式中,使用在特征行緩沖器中存儲特征行數據和在內核緩沖器中存儲內核數據的卷積加速器的實施例來處理具有1
    ×
    1內核的卷積操作的概念圖。
    [0021]圖13A和圖13B(這里統稱為圖13)是示出根據實施例的卷積加速器的兩種操作模式的概念圖。
    [0022]圖14是示出在卷積加速器的深層操作模式中使用將特征行數據存儲在內核緩沖器中并將內核數據存儲在特征行緩沖器中的卷積加速器的實施例來處理具有1
    ×
    1內核的
    卷積操作的概念圖。
    [0023]圖15是卷積加速器的實施例的功能框圖,該卷積加速器包括控制卷積加速器在深層操作模式中的操作的模式控制電路裝置。
    [0024]圖16是示出根據實施例的卷積加速器的深層操作模式中的特征和內核數據流路徑的概念圖。
    [0025]圖17是示出根據實施例的在深層操作模式中操作的卷積加速器的操作周期中每個1
    ×
    1內核的內核值的三個卷積操作的性能的概念圖。
    [0026]圖18是示出根據實施例的以深層操作模式操作的卷積加速器中的特征數據的數據路徑的概念圖。
    [0027]圖19是示出根據實施例的以深層操作模式操作的卷積加速器中的內核數據的數據路徑的概念圖。
    [0028]圖20是示出根據實施例的在以深層操作模式操作的卷積加速器中利用本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種卷積加速器,包括:特征行緩沖器;內核緩沖器,與特征行緩沖器分離;乘法累加MAC集群;以及模式控制電路裝置,耦合到所述特征行緩沖器,所述內核緩沖器和所述MAC集群,其中所述模式控制電路裝置:在所述卷積加速器的第一操作模式中:將特征數據存儲在所述特征行緩沖器中;將內核數據存儲在所述內核緩沖器中;從所述特征行緩沖器向所述MAC集群傳輸特征數據;以及從所述內核緩沖器向所述MAC集群傳輸內核數據;以及在所述卷積加速器的第二操作模式中:在將特征數據存儲在所述內核緩沖器中;將內核數據存儲在所述特征行緩沖器中;從所述內核緩沖器向所述MAC集群傳輸特征數據;以及從所述特征行緩沖器向所述MAC集群傳輸內核數據。2.根據權利要求1所述的卷積加速器,其中所述模式控制電路裝置在所述第一操作模式中:在所述特征行緩沖器中存儲深度達1024個元素的三行特征行數據;以及在所述內核緩沖器中存儲3
    ×
    3內核。3.根據權利要求2所述的卷積加速器,其中所述模式控制電路裝置在所述第二操作模式中:在所述內核緩沖器中存儲深度達128個元素的六行特征行數據;以及在所述特征行緩沖器中存儲1
    ×
    1內核。4.根據權利要求3所述的卷積加速器,其中所述模式控制電路裝置在所述第二操作模式中:在周期中將三行特征行數據從所述內核緩沖器傳輸到所述MAC集群;以及在所述周期中將24個內核數據值傳輸到MAC集群。5.根據權利要求4所述的卷積加速器,其中所述MAC集群在操作中在所述周期中生成72個輸出值。6.根據權利要求1所述的卷積加速器,其中:所述特征行緩沖器是單端口存儲器;以及所述內核緩沖器包括多個雙端口緩沖器。7.根據權利要求6所述的卷積加速器,其中所述模式控制電路裝置在所述第二操作模式中:將特征行數據存儲在所述多個雙端口緩沖器的第一子集中;以及在所述多個雙端口緩沖器的第二子集中緩沖內核數據。8.根據權利要求7所述的卷積加速器,其中在所述多個雙端口緩沖器的所述第二子集中緩沖內核數據包括:
    將內核數據存儲在所述第二子集的第一雙端口緩沖器中;將內核數據從所述第二子集的所述第一雙端口緩沖器傳輸到所述特征行緩沖器;將內核數據從所述特征行緩沖器傳輸到所述第二子集的第二雙端口緩沖器;以及將內核數據從所述第二子集的所述第二雙端口緩沖器傳輸到所述MAC集群。9.根據權利要求7所述的卷積加速器,其中在所述多個雙端口緩沖器的所述第二子集中緩沖內核數據包括:將內核數據從所述特征行緩沖器傳輸到所述雙端口緩沖器的所述第二子集的雙端口緩沖器;以及將內核數據從所述雙端口緩沖器的所述第二子集的所述雙端口緩沖器傳輸到所述MAC集群。10.根據權利要求1所述的卷積加速器,其中在所述第二操作模式中,所述模式控制電路裝置串行化由所述MAC集群生成的輸出值。11.根據權利要求1所述的卷積加速器,包括配置寄存器,其中所述模式控制電路裝置在操作中基于存儲在所述配置寄存器中的配置參數來確定是在所述第一操作模式中操作還是在所述第二操作模式中操作。12.根據權利要求1所述的卷積加速器,其中在所述第二操作模式中,所述內核數據具有1
    ×
    N的尺寸,其中N是大于或等于1的整數。13.一種系統,包括:流引擎,其在操作中流式傳輸特征和內核數據;以及卷積加速器,耦合到所述流引擎,其中所述卷積加速器在操作中從所述流引擎接收特征的流和內核數據的流,所述卷積加速器包括:特征行緩沖器;內核緩沖器;乘法累加集群,耦合到所述特征行緩沖器和所述內核緩沖器;以及模式控制電路裝置,耦合到所述特征行緩沖器、所述內核緩沖器和所述MAC集群,其中所述模式控制電路裝置:在所述卷積加速器的第一操作模式中:將特征數據存儲在所述特征行緩沖器中;將內核數據存儲在所述內核緩沖器中;從所述特征行緩沖器向所述MAC集群傳輸特征數據;以及從所述內核緩沖器向所述MAC集群傳輸內核數據;以及在所述卷積加速器的第二操作模式中:將特征數據存儲在所述內核緩沖器中;將內核數據存儲在所述特征行緩沖器中;從所述內核緩沖器向所述MAC集群傳輸特征數據;以及從所述特征行緩沖器向所述MAC集群傳輸內核數據。14.根據權利要求13所述...

    【專利技術屬性】
    技術研發人員:M
    申請(專利權)人:意法半導體國際有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 红桃AV一区二区三区在线无码AV| 日韩精品中文字幕无码专区| 自拍偷在线精品自拍偷无码专区| 亚洲av永久无码制服河南实里| 亚洲成A人片在线观看无码不卡| 无码人妻精品一区二区三区蜜桃| 日韩成人无码影院| 日韩乱码人妻无码系列中文字幕| 国语成本人片免费av无码| 国产亚洲精久久久久久无码| 亚洲AV无码一区二区三区久久精品| 国产精品99久久久精品无码| 无码粉嫩小泬无套在线观看| 中文字幕人妻无码专区| 国产AV无码专区亚洲AV蜜芽| 无码少妇一区二区| 亚洲日韩精品一区二区三区无码| 无码中文字幕人妻在线一区二区三区 | 亚洲精品无码av天堂| 久久精品国产亚洲AV无码麻豆| 国产成人无码一区二区在线观看 | 日韩精品无码一本二本三本| 亚洲精品无码激情AV| 无码少妇丰满熟妇一区二区| 91精品久久久久久无码| 日韩人妻精品无码一区二区三区| 国产亚洲精品无码专区| 亚洲精品无码AV中文字幕电影网站| 无码人妻丰满熟妇片毛片| 亚洲国产av高清无码| 无码av免费一区二区三区| 亚洲精品无码不卡在线播HE| 97无码人妻福利免费公开在线视频| 亚洲av中文无码| 蕾丝av无码专区在线观看| 国产精品无码久久av不卡 | 日韩乱码人妻无码中文字幕视频| 亚洲av无码专区亚洲av不卡| 久久精品无码专区免费青青 | 无码人妻一区二区三区精品视频| 亚无码乱人伦一区二区|