?
9.1??FPGA系統(tǒng)設(shè)計的3個基本原則
9.1.1??面積與速度的平衡互換原則?
在FPGA設(shè)計領(lǐng)域,面積通常指的是FPGA的芯片資源,包括邏輯資源和I/O資源等。速度一般指的是FPGA工作的最高頻率。和DSP或者ARM芯片不同,F(xiàn)PGA設(shè)計的工作頻率不是固定的,而是和設(shè)計本身的延遲緊密相聯(lián)。
在實際設(shè)計中,使用最小的面積設(shè)計出最高的速度當(dāng)然是每一個開發(fā)者追求的目標。但往往面積和速度是不可兼得的。想使用最低的成本設(shè)計出最高性能的產(chǎn)品是不現(xiàn)實的,只有兼顧面積和速度,在成本和性能之間有所取舍,才能夠達到設(shè)計者的產(chǎn)品需求。
1.速度換面積
速度優(yōu)勢可以換取面積的節(jié)約。面積越小,就意味可以用更低的成本來實現(xiàn)產(chǎn)品的功能。
所謂的速度優(yōu)勢指的是在整個FPGA設(shè)計中,有一部分模塊的算法運行周期較其他部分快很多,這部分模塊就相對與其他的部分具有速度優(yōu)勢。利用這部分模塊的速度優(yōu)勢來降低整個FPGA設(shè)計的使用資源就是速度換面積原則的體現(xiàn)。
速度換面積原則在一些較復(fù)雜的算法設(shè)計中常常會用到。在這些算法設(shè)計中,流水線設(shè)計常常是必須用到的技術(shù)。在流水線的每一級,常常有同一個算法被重復(fù)的使用,但是使用的次數(shù)不一樣的現(xiàn)象。在正常的設(shè)計中,這些被重復(fù)使用但是使用次數(shù)不同的模塊將會占用大量的FPGA資源。
隨著FPGA技術(shù)的不斷發(fā)展,F(xiàn)PGA內(nèi)部越來越多的內(nèi)嵌了DSP乘法模塊,為一些常用算法的實現(xiàn)提供了很大的方便,也大大提高了運算的速度和能力。因此,在以往設(shè)計中那些被重復(fù)使用的算法模塊的速度可以很高,即相對其他部分具有速度優(yōu)勢。
利用這個特點,重新對FPGA的設(shè)計進行改造。將被重復(fù)使用的算法模塊提煉出最小的復(fù)用單元,并利用這個最小的高速單元代替原設(shè)計中被重復(fù)使用但次數(shù)不同的模塊。當(dāng)然在改造的時候必然會增加一些其他的資源來實現(xiàn)這個代替的過程。但是只要速度具有優(yōu)勢,那么增加的這部分邏輯依然能夠?qū)崿F(xiàn)降低面積、提高速度的目的。
如圖9.1所示,是一個流水線的n個步驟,每個步驟都相應(yīng)地運算一定次數(shù)的算法,每個步驟的算法都占用獨立的資源實現(xiàn)。其中運算次數(shù)方框的大小表示占用的設(shè)計資源。
圖9.1??未使用速度換面積的流水線算法
假設(shè)這些算法中有可以復(fù)用的基本單元,并且具有速度優(yōu)勢,那么就可以使用如圖9.2所示的方式實現(xiàn)面積的節(jié)省。在這種方法中,通過將算法提取出最小單元,配合算法次數(shù)計數(shù)器及流水線的輸入輸出選擇開關(guān),即可實現(xiàn)將原設(shè)計中復(fù)雜的算法結(jié)構(gòu)簡化的目的。
圖9.2??使用速度換面積的流水線算法
可以看到,速度換面積的關(guān)鍵是高速基本單元的復(fù)用。
2.面積換速度
面積換速度正好和速度換面積相反。在這種方法中,面積的復(fù)制可以換取速度的提高。支持的速度越高,就意味著可以實現(xiàn)更高的產(chǎn)品性能。在某些應(yīng)用領(lǐng)域,比如軍事、航天等,往往關(guān)注的是產(chǎn)品的性能,而不是成本。這些產(chǎn)品中,可以采用并行處理技術(shù),實現(xiàn)面積換速度。
如圖9.3所示是利用并行技術(shù)、面積(資源)復(fù)制的方法實現(xiàn)了高速的處理能力。
在進行FPGA進行設(shè)計時,我們必須注意到,F(xiàn)PGA的工作頻率是有限的。因為FPGA是工作在TTL電平下,該電平結(jié)構(gòu)(晶體管-晶體管)所能支持的切換頻率是有限的。但是在實際的產(chǎn)品設(shè)計中,高頻的處理需求越來越多,如何解決這個矛盾?
首先使用簡單的串/并轉(zhuǎn)換實現(xiàn)多路的速度降頻,如圖9.3所示,450Mbit/s的頻率分為3路,每路150Mbit/s;其次在每一路上使用相同算法但各占設(shè)計資源的處理模塊進行低頻(相對)的處理;最后再將每一路的處理結(jié)果進行并/串轉(zhuǎn)換成為高頻的輸出數(shù)據(jù)。
圖9.3??面積換速度實現(xiàn)并行高速處理
串/并和并/串轉(zhuǎn)換能夠支持那么高的頻率嗎?這個問題的解決得益于FPGA技術(shù)的發(fā)展。如今主流的FPGA器件中,都帶有高速的I/O資源及內(nèi)部RAM供用戶使用。這些高速I/O資源及內(nèi)部RAM能夠?qū)崿F(xiàn)I/O接口的穩(wěn)定高速切換和數(shù)據(jù)總線寬度的轉(zhuǎn)換。這部分的詳細介紹參見9.3節(jié)。
?
9.1.2??硬件可實現(xiàn)原則
FPGA設(shè)計通常會采用HDL語言,比如Verilog?HDL或者VHDL。當(dāng)采用HDL語言來描述一個硬件電路功能的時候,一定要保證代碼描述的電路是硬件可實現(xiàn)的。Verilog?HDL語言的語法與C語言很相似,但是它們之間有本質(zhì)的區(qū)別。
C語言是基于過程的高級語言,編譯后可以在CPU上運行。而Verilog?HDL語言描述的本身就是硬件結(jié)構(gòu),編譯后是硬件電路。因此,有些語句在C語言的環(huán)境中應(yīng)用沒有問題,但是在HDL語言環(huán)境下就會導(dǎo)致結(jié)果不正確或者不理想。
比如for語句,以下代碼在C語言下是一段普通代碼:
for?(i=0;?i<16;?i++)
????DoSomething(); //實現(xiàn)函數(shù)的重復(fù)調(diào)用
在C語言下運行沒有任何問題,但是在Verilog?HDL的環(huán)境下編譯就會導(dǎo)致綜合后的資源嚴重浪費。所以for語句在Verilog?HDL環(huán)境下一般只用來做仿真或者行為級的描述。那么for語句在HDL語言中如何實現(xiàn)呢?有幾種不同的模式,其中最常見的是以下方式。
reg[3:0]?counter; //調(diào)用次數(shù)計數(shù)器
always?@?(posedge?clk) //計數(shù)器計數(shù)模塊?
?????if?(syn_rst)
??????????counter?<=?4’b0;
?????else
??????????counter?<=?counter?+?1;
always?@?(posedge?clk) begin //使用case語句實現(xiàn)分支調(diào)用,
?????case?(counter) //配合計數(shù)器計數(shù),各分支可使用同樣的執(zhí)行語句
??????????4’b000: DoSomething; //實現(xiàn)該語句的重復(fù)調(diào)用
??????????4’b0001:?DoSomething; //等同于高級語言中的for語句
??????????…?…
??????????default:?DoSomething;
?????endcase
end
在counter計數(shù)器的不同狀態(tài)可以設(shè)計不同的動作。如果都是完成一樣的操作,就是循環(huán)for語句了。
9.1.3??同步設(shè)計原則
同步電路和異步電路是FPGA設(shè)計的兩種基本電路結(jié)構(gòu)形式。
異步設(shè)計的核心電路是由組合邏輯電路構(gòu)成的,比如異步的SRAM、FIFO的讀寫控制信號,地址譯碼電路等。這類電路的輸出信號不依賴于任何時鐘信號。異步電路最大缺陷就是會產(chǎn)生毛刺。
同步設(shè)計的核心電路是由各種觸發(fā)器構(gòu)成的。這類電路的任何輸出都是在某個時鐘的邊沿驅(qū)動觸發(fā)器產(chǎn)生的。所以,同步設(shè)計可以很好地避免毛刺的產(chǎn)生。
在專用芯片(ASIC)的設(shè)計過程中,同步設(shè)計一般會比異步設(shè)計占用更多的資源。但是在FPGA設(shè)計過程中并不是這樣。FPGA內(nèi)部的最小單元是LE,每個LE里面既包括了實現(xiàn)異步電路需要的查找表資源,也包括了實現(xiàn)同步電路需要的寄存器資源。
如圖9.4所示是Altera公司的Cyclone系列FPGA的LE結(jié)構(gòu)圖。從圖中可以看出,這個LE中包含了輸入輸出的MUX,同步和異步的控制邏輯,LUT以及可編程寄存器。如果使用這個系列的FPGA(其他的FPGA類似)進行同步電路或異步電路的設(shè)計,那么不管使用的是LE中的LUT還是寄存器,綜合工具綜合的結(jié)果都是消耗一個LE。
圖9.4??Cyclone?LE結(jié)構(gòu)圖
?
因此,單純的使用異步電路也并不會節(jié)省觸發(fā)器的資源?;蛘哒f,使用同步設(shè)計電路,并不會帶來FPGA資源的浪費。但是全同步的設(shè)計對于FPGA的仿真驗證是有好處的。因為電路的所有動作都是在相同的時鐘邊沿來觸發(fā),可以減少整個設(shè)計的延遲,提高系統(tǒng)的工作頻率。