基于FPGA的卷積層并行加速方案

作者：時間：2018-02-06 來源：電子產品世界

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

作者 / 肖昱姚天堯顧嘉盼張延軍北京理工大學信息與電子學院（北京 100081）

本文引用地址：http://www.czjhyjcfj.com/article/201802/375426.htm

＊第一屆（2016-2017）全國大學生集成電路創新創業大賽全國總決賽FPGA設計方向獲獎作品

　　卷積神經網絡(Convolutional Neural Networks)是一種主要應用于圖像處理領域的人工智能算法。尤其是在計算機視覺領域，CNN在包括識別(recognition)、檢測(detection)、分割(segmentation)等很多任務中占主流地位。

　　卷積神經網絡的基本元素：卷積層(convolutional layer)、池化層(pooling)、激活函數(activation)、全連接層(fully-connected layer)。卷積神經網絡(例如LeNet[3])對于神經網絡(Neural Networks)最大的創新在于卷積層。卷積層在整幅圖像上使用相對很小的卷積核(convolutional kernel)進行特征檢測，實現了將原始圖像直接輸入神經網絡而不會引發維數災難?？朔酥盎谑止ぬ卣骱头诸惼鞯南到y需要分別訓練的缺點，使得圖像分類任務實現了端到端(end-to-end)。

　　想要將卷積神經網絡投入實際應用，例如在移動端利用服務器訓練好的卷積核參數進行實時的物體或者人臉識別，需要對CNN進行許多改進。其中，卷積層運算需要消耗大量計算資源，使用串行計算方式速度不快。因此，提高CNN卷積層的計算速度是CNN進行實際應用時需要解決的一個重要問題。

　　1設計標準與約束

　　1.1設計問題

0.01.jpg

　　“將上述算法在硬件平臺上實現并優化，主要考慮總線帶寬，內部緩存，Pipeline設計，計算單元等因素，給出不同緩存下，總線帶寬計算公式和典型案例下的數據。”

　　由賽題分析，本設計方案主要分為兩部分：實現方案、優化方案。實現方案涉及系統架構的設計、計算單元的設計等;優化方案涉及總線帶寬和片上緩存在不同情況下的設計等。

　　1.2設計標準

　　競賽題目中提到的標準：

　　1)運算速率：100GMAC，每秒100G次乘加運算;

　　2)輸入圖像數量：1024 channel，1024個輸入feature map

　　3)卷積核數量：1024，1024個輸出feature map

　　4)輸入輸出圖像分辨率：150*150

　　我們對細節進行的假設：

　　1)數據寬度：8位，像素點取值范圍(0~255)

　　2)卷積核尺寸：3*3

　　1.3約束條件

　　本設計方案基于Altera公司的Stratix IV EP4SGX230KF40C2，其有兩項硬件資源約束：

　　1)硬件乘法器;

　　2)片上RAM;

　　本設計方案在設計時對不同DDR在不同數據總線帶寬下給出相應的緩存方案，在實現中使用DDR2 SRAM。實現中的DDR2數據總線帶寬通過實驗測出，其他類型的DDR數據帶寬通過查閱資料進行估算。圖一列出了Micron公司不同DDR在FPGA平臺上的參數，我們將根據這些數據進行隨后的計算。

　　圖0 不同DDR SRAM參數(Micron)

　　2設計總體架構

　　2.1硬件架構

　　我們會使用如下圖中的總體架構：數據開始存放在DDR中;由DDR讀寫IP核將數據從DDR中讀出;數據由DDR讀寫IP通過FIFO進行跨時鐘域操作送給片上RAM緩存;再將數據由RAM中讀出送給并行計算單元陣列進行卷積運算，得到運算結果;運算結果暫存在片上RAM中;再從RAM中將運算結果讀出，通過FIFO送給DDR讀寫IP寫回DDR中。

　　圖1 系統架構設計

　　在設計的過程中，我們將在計算單元和緩存中采取兩種不同層次的數據復用策略，以降低系統對于帶寬資源的需求。

　　2.2優化問題的數學模型

　　我們認為，對卷積運算進行加速的關鍵在于：在充分利用讀寫帶寬的前提下，通過使用片上緩存和并行策略，盡量提高系統的并行度以達到設計標準。

　　顯然地，系統對于DDR的讀寫速度將遠慢于并行運算的速度，所以最大化地利用讀寫帶寬將是不可避免的。根據查詢到的資料，以任何現有內存設備的讀寫速度，都是不能支持100GMAC的串行卷積運算的。因此，并行地進行卷積運算也將是不可避免的。此時，帶寬資源還有可能不足，可以使用片上RAM緩存對已讀取的數據進行復用以進一步減小對于帶寬的需求。

　　總而言之，我們希望最大化地利用帶寬資源，并使用并行設計和RAM緩存使系統達到100GMAC的設計標準。

　　考慮到片上RAM成本較高，目前的FPGA普遍不具備很大的片上RAM容量，所以在設計中我們希望使用盡可能少的片上RAM資源。由此，可以用數學語言描述本次設計中的優化問題：

1.1.jpg

　　(定義復用率X：若一次讀取的一個輸入圖像與若干數量的卷積核進行卷積運算，則此卷積核的數量占全部卷積核數量的比例為X。)

　　從以上問題中可以分析得出，RAM資源需求是復用率X的線性函數;運算速率與X無關;數據速率是X的反比例函數。因此本優化問題是關于變量X的非線性優化問題。

　　3設計細節分析

　　3.1計算單元設計：串行輸入，并行計算

　　3.1.1計算單元設計的目標：數據復用

　　在卷積運算的計算單元中，我們希望對數據進行復用，

　　并行計算的可能性根植于卷積層的設計中。在全連接的神經網絡的每一層中，每一個輸入和每一個輸出之間都有一個權重(w)，每一個輸出都與全部輸入的信息相關;而在卷積神經網絡中，存在著卷積核的共用(shared-weight)，這使得每個輸出圖像都包含著一個卷積核對于所有輸入圖像中特征提取的信息。具體而言，每個卷積核會對所有輸入圖像的各個區域進行運算處理。于是這種卷積核在卷積計算過程中的重復使用，為并行計算提供了可能。如果我們能夠由這種重復使用的性質，盡量減少對于卷積核數據的讀取次數，那么卷積運算的時間將大大減少。

　　輸入圖像在每一個點上的數據參與卷積運算的次數(乘法)是卷積核的尺寸(3×3)，不僅卷積核的數據在串行計算的過程中被反復讀取，輸入圖像的數據也在被反復讀取。在串行計算中，卷積計算的滑動窗口(sliding window)在讀取端，每一個點都被反復讀取了相應的次數。我們希望把通過設置一些寄存器，將滑動窗從數據的讀取端移動到計算端，實現對輸入圖像的每一個點進行一次數據讀取就完成其在滑動窗中所需進行的所有乘法運算(9次)。也就是說，我們希望能夠串行得從內存中讀取數據，每一個點僅進行一次讀取就足以完成其在卷積運算的滑動窗中所要進行的9次乘法。

　　3.1.2計算單元的設計

　　現在，我們暫且假設從內存中讀取來的數據是均勻的流(每個時鐘周期讀取一個像素點的數據);我們也暫且假設卷積核是不更換的，也就是指僅有一個卷積核的情形。本節中，我們對于數據是均勻的流以及只有一個卷積核的情況，設計一個高效的并行計算單元。

　　在計算端設置一些緩存以實現卷積核數據和輸入圖像數據的復用是通過圖2和圖3中的設計實現的。

　　圖2 計算單元(processing element)的設計

　　圖3 計算子(processing unit)的設計

　　3.1.3計算單元的工作原理

　　卷積核的值直接被保存在計算子的寄存器中，而輸入圖像從由SRAM構成的移存器一端輸入(同時送給第三行的寄存器)。由SRAM移存輸出的圖像數據也分別送向第一行和第二行的寄存器。每行的計算子的寄存器之間也被設計為移存關系，數據由第三列送向第二列，再送向第一列。

　　在這種設計下，每一次計算單元在一個時鐘周期可以完成9次乘加運算。由此，可以根據設計標準，在合理的時鐘頻率下得到系統所需要達到的并行度。經過綜合考慮，并行度n為64時可以保證時鐘周期的合理且達到100GMAC的運算速率?？梢郧蟮盟璧臅r鐘周期：

3.1.jpg

　　3.2優化緩存和帶寬

　　3.2.1使用緩存實現進一步數據復用

　　在100GMAC的計算速度下，通過簡單的計算可以得知，如果不對已讀取的輸入圖像數據與多個卷積核進行運算，則不可滿足帶寬資源的需求。根據公式②和圖像和卷積核的尺寸以及運算速率得出這種情況下系統所需的最小數據速率：

3.2.jpg

　　以上這個大約11G的帶寬需求是難以滿足的。因此，必須降低系統對于帶寬的需求，片上RAM提供了一種合理的途徑。

　　通過RAM降低帶寬需求的想法如下：卷積核的尺寸遠小于輸入圖像的尺寸，將大量的卷積核數據儲存在片上的代價并不大。如果在讀取完一個輸入圖像后，將其與若干個不同的卷積核進行運算，相當于將同樣的數據復用了若干次，使得DDR讀寫IP有更多時間進行下一幅輸入圖像數據的讀取。這樣就降低了系統對于帶寬的要求。需要注意的是，同一幅輸入圖像與不同的卷積核進行運算的結果需要分別儲存在片上，這就造成了對于片上RAM的需求。

　　3.2.2不同復用率下的緩存和帶寬需求

　　正如之前所述，如何在帶寬資源需求和片上RAM資源需求之間取舍是本次設計的重點。

　　下面根據查詢到的數據大致計算不同的復用策略下所需的最小片上RAM容量。

3.3.jpg

　　表1 不同復用率下的緩存和帶寬需求

3.4.jpg

　　(*第一列表示不同的并行策略，X表示每次讀入一幅輸入圖像，與其進行卷積運算的卷積核數量占全部卷積核數量(1024)的比例;第二列表示不同并行策略下所需的最小片上RAM空間;第三列表示不同策略下的最小數據讀取速率)

　　3.2.3不同數據帶寬下的最小緩存需求

　　下面根據DDR產品(以Micron公司為例)的用戶說明中的數據對于四種DDR在不同運行設置下的數據帶寬進行計算，并估計最大復用率時所需的片上RAM容量：

　　表2 不同DDR的最低緩存需求

3.4.jpg

　　(*各列交替表示不同類型的DDR的讀寫速度和相應的最小片上RAM容量;各行表示各類DDR在不同工作狀態下的不同情況：Long Max(16位寬數據總線，最大數據速率)，Long Avr(16位寬數據總線，平均數據速率)，Short Max(8位數據總線，最大數據速率)，Short Avr(8位寬數據總線，平均數據速率))

　　4實現結構

　　4.1 DDR2的接口設計和測試

　　“我是誰?我從哪里來?我要到哪里去?”這是哲學三大終極問題。對于數字系統架構設計，亦是如此：我們不能僅僅關注數據的固有性質和系統的運算方式，更不能忽視數據的讀寫速度和系統的存儲結構。

　　在本系統中，輸入圖像、卷積核和運算結果都存儲在DDR中，而且輸入圖像的規模和數據帶寬是比較大的，因此DDR的傳輸速率勢必會對整個系統的效率產生非常大的影響。所以設計DDR接口與系統總線并測試其傳輸速率是非常有必要的。

　　在Altera FPGA中，使用Avalon總線接口可以簡單高效的組件系統，Avalon總線接口適用于高速數據流，讀寫寄存器，存儲器，以及控制片外設備。這些標準接口在Qsys中有效地設計到組件中，其架構示意圖如圖4所示。

　　圖4 Avalon總線示意圖

　　在此圖中，NIOS II處理器使用Avalon-MM接口存取片內組件的控制寄存器和狀態寄存器。分散集中DMA使用Avalon-ST接口發送和接收數據。四個組件包括利用軟件運行在NIOS II處理器上的中斷接口服務程序。PLL通過Avalon clock sink接口接受一個時鐘，并提供兩個時鐘源。兩個組件包括Avalon-TC接口存取片外存儲器。最后，DDR控制器使用Avalon conduit接口存取外部DDR3存儲器。

　　DDR-SDRAM存儲體采用突發傳輸模式[2]。在此模式下，把多個傳遞作為一個單元執行，不是獨立地處理每個字。突發可提高從器件端口在一個時間處理多個字時達到較大效率的能力。突發中的純粹作用是為了突發的持續而鎖定仲裁。支持讀寫突發的Avalon-MM接口，必須都支持讀寫突發。其讀寫時序規則如圖5和圖6所示。

　　圖5 Avalon Burst模式讀時序

　　時序圖中的序號，表示隨后的變化：

　　1. 在CLK上升沿之后，主器件斷言address(A0)，burstcount，和read。從器件斷言waitrequest，引起除beginbursttransfer之外的所有輸入直到另一個時鐘周期保持不變。

　　2. 在CLK上升沿從器件捕獲A0和burstcount。在下一個周期可啟動新的傳遞。

　　3. 主器件B驅動address(A1)，burstcount和read。從器件斷言waitrequest，引起除beginbursttransfer之外的所有輸入保持不變。此時，從器件最早從第一個讀請求返回讀數據。

　　4. 從器件傳送有效的readdata和斷言readdatavalid，給主器件A傳遞數據的第一個字。

　　5. 給主器件A的第二個字已經傳遞。從器件解除readdatavalid暫停讀突發。從器件端口可保持解除readdatavalid任意時鐘周期數。

　　6. 給主器件B的第一個字已經返回。

　　圖6 Avalon Burst模式寫時序

　　時序圖中的序號，表示隨后的變化：

　　1. 主器件斷言address，burstcount，write，并驅動writedata的第一個單元。從器件立即斷言waitrequest，表示其沒有準備好進行傳遞。

　　2. waitrequest為低電平。從器件捕獲addr1，burstcount和writedata的第一個單元。在傳遞隨后的周期，address和burstcount都被忽略。

　　3. 在CLK時鐘上升沿從器件捕獲數據的第二個單元。

　　4. 突發被暫停直到write被解除。

　　5. 在CLK時鐘上升沿從器件捕獲數據的第三個單元。

　　6. 從器件斷言waitrequest。在響應中，所有輸出直到另一個時鐘周期都保持不變。

　　7. 在CLK時鐘上升沿從器件捕獲數據的最后一個單元。從器件寫突發結束。

　　按照以上規范設計DDR2接口[3]，仿真結果如圖7所示。

　　圖7 DDR讀取的ModelSim-Altera仿真波形

　　在圖7中，可以看到讀取6個Bank的64位數據需要16個時鐘周期的時間，因此可以計算DDR的讀取速率為

7.1.jpg

　　4.2系統實現設計結構圖

　　圖7 系統實現設計結構

　　(*IP READ/IP WRITE分別為讀端和寫端控制DDR IP的狀態機，均通過AVALON標準總線與DDR IP相連;FIFO用于跨時鐘域傳輸數據，DDR接口部分與卷積運算部分使用不同的時鐘。)

　　5實驗

　　5.1 MATLAB算法驗證

　　我們實現對于卷積算法進行了MATLAB驗證，并使用隨機生成的卷積核對灰度圖像進行了卷積運算，結果如圖5所示。

　　圖8 卷積算法的MATLAB驗證

　　5.2計算單元設計的MATLAB驗證

　　為了證實卷積計算單元設計的可行性，我們在MATLAB上編寫了計算單元的代碼，并使用MNIST數據集中的圖片和隨機生成的卷積核進行了實驗。實驗結果如圖6所示。

　　圖9 計算單元設計的MATLAB驗證

　　參考文獻：

　　[1]中星微電子集團：深度學習——卷積神經網絡(CNN)優化

　　[2]Chen Zhang, Peng Li, Guangyu Sun, Yijin Guan, Bingjun Xiao, Jason Cong. Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks.

　　[3] Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Processing of the IEEE, 86(11):2278-2324, 1998.

　　[4] Xilinx/Micron: Micron DRAM Memory Support for Xilinx Platforms

　　附錄

　　附錄A：卷積算法MATLAB驗證代碼：

　%small scale test for convolutional unit

　　%fixed size: 224*300, image: 'bbtest.jpg', fixed number of channels: in:3, out:3

　　%read image

　　im = imread('bbtest.jpg');

　　im_input = permute(im, [3, 1, 2]); %exchanging dimension

　　%initialize kernel

　　kernels = rand(3, 3, 3, 3) .* 0.005 %kernel size: 3*3, range: 1~0.005

　　%initialize output figure

　　output_fm = zeros(3, 300, 224);

　　%image processing

　　R = 300, C = 224, M = 3, N = 3, S = 1; %size of input image and input, output channels

　　for row = 1:R-3

　　for col = 1:C-3

　　for to = 1:M

　　for ti = 1:N

　　for i = 1:3

　　for j = 1:3

　　output_fm(to, row, col) = output_fm(to, row, col)...

　　+ kernels(to, ti, i, j) * im_input(ti, S * row + i, S * col + j);

　　end

　　%show the images

　　output_fm;

　　output_show = permute(output_fm, [2, 3, 1]);

　　imshow(output_show);

　　附錄B：計算單元設計MATLAB驗證代碼：

　　% testing the processing element

　　% time: 13:40; 3.16.2017

　　% initializing buffers

　　procwin = zeros(3, 3);

　　kernel = rand(3, 3) * 0.005;

　　buffer1 = zeros(25);

　　buffer2 = zeros(25);

　　R_pixel = zeros(1,784); % cauculating result for single pixels

　　% loading data

　　data = ones(784);

　　im = imread('test.jpg');

　　data = reshape(im,1,784);

　　% initializing data

　　procwin(1, :) = data(1: 3);

　　buffer1 = data(4: 28);

　　procwin(2, :) = data(29: 31);

　　buffer2 = data(32: 56);

　　procwin(3, :) = data(57: 59);

　　%cauculating

　　for i = 60:784

　　% cauculating pixel level result

　　for m = 1:3

　　for n = 1:3

　　R_pixel(i-59) = R_pixel(i-59) + procwin(m,n) * kernel(m,n);

　　end

　　% moving data in processing window

　　reg2 = procwin(2, 1); % preserve for moving into ram

　　reg3 = procwin(3, 1); % preserve for moving inro ram

　　for j = 1:2

　　procwin(:, j) = procwin(:, j+1);

　　end

　　procwin(1, 3) = buffer1(1);

　　procwin(2, 3) = buffer2(1);

　　procwin(3, 3) = data(i);

　　% moving data in ram

　　for j = 1:24

　　buffer1(j) = buffer2(j+1);

　　buffer2(j) = buffer2(j+1);

　　end

　　buffer1(25) = reg2;

　　buffer2(25) = reg3;

　　end

　　im_output = reshape(R_pixel,28,28);

　　imshow(im_output);

新聞中心

基于FPGA的卷積層并行加速方案

評論

相關推薦

技術專區