FPGA系統(tǒng)設計原則和技巧之:FPGA系統(tǒng)設計的3種常用技巧
9.2FPGA系統(tǒng)設計的3種常用技巧
9.2.1乒乓操作技巧
1.乒乓操作的原理
乒乓操作是FPGA設計中最常用的一種數(shù)據(jù)緩沖方法,簡單而且實用,其原理示意圖如圖9.5所示。
圖9.5乒乓操作原理
輸入的數(shù)據(jù)經過選擇開關后,分別進入緩沖模塊1和緩沖模塊2。當數(shù)據(jù)寫入緩沖模塊1的時候,數(shù)據(jù)處理單元從緩沖模塊2讀取數(shù)據(jù)進行處理;當數(shù)據(jù)寫入緩沖模塊2的時候,數(shù)據(jù)處理單元從緩沖區(qū)模塊1讀取數(shù)據(jù)進行處理。
這樣做的目的是給數(shù)據(jù)處理單元贏得更多的處理時間,避免因為數(shù)據(jù)處理時無法持續(xù)接收而丟失有效數(shù)據(jù)。因此,乒乓操作適合那些數(shù)據(jù)處理以幀為單位,而且每幀的處理最長時間小于幀周期的情況。
2.乒乓操作的特點
(1)乒乓操作的最大特點是無縫緩沖與處理。
通過“輸入數(shù)據(jù)選擇開關”和“輸出數(shù)據(jù)選擇開關”按節(jié)拍、相互配合的切換,將經過緩沖的數(shù)據(jù)流沒有時間停頓地送到“數(shù)據(jù)處理單元”,被運算與處理。
把乒乓操作模塊當作一個整體,站在這個模塊的兩端看數(shù)據(jù),輸入數(shù)據(jù)流和輸出數(shù)據(jù)流都是連續(xù)不斷的,沒有任何停頓。因此非常適合對數(shù)據(jù)流進行流水線式處理,常常被應用于流水線式算法。
(2)乒乓操作的第二個特點是節(jié)約緩沖區(qū)空間。
比如在WCDMA基帶應用中,1幀(Frame)是由15個時隙(Slot)組成的。有時需要將1整幀的數(shù)據(jù)延時一個時隙后處理,比較直接的辦法是將這幀數(shù)據(jù)緩存起來,然后延時1個時隙,進行處理。這時緩沖區(qū)的長度是1整幀數(shù)據(jù)長,假設數(shù)據(jù)速率是3.84Mbit/s,1幀長10ms,則此時需要緩沖區(qū)長度是38400bit。
如果采用乒乓操作,只需定義兩個能緩沖1個slot數(shù)據(jù)的RAM(單口RAM即可)。當向一塊RAM寫數(shù)據(jù)的時候,從另一塊RAM讀數(shù)據(jù),然后送到處理單元處理。此時,每塊RAM的容量僅需2560bit即可,2塊RAM加起來也只有5120bit的容量。
3.乒乓操作的靈活應用
巧妙地運用乒乓操作,還可以達到用低速模塊處理高速數(shù)據(jù)流的效果。
如圖9.6所示,數(shù)據(jù)緩沖模塊采用了雙口RAM,并在DPRAM后引入了一級處理模塊。這個數(shù)據(jù)預處理根據(jù)需要可以是各種數(shù)據(jù)運算。比如在WCDMA設計中,對輸入數(shù)據(jù)流的解擴、解擾、去旋轉等。
圖9.6使用低速處理模塊處理高速數(shù)據(jù)流
假設端口A的輸入數(shù)據(jù)流的速率為100Mbit/s,乒乓操作的緩沖周期是10ms。我們下面一起分析一下各個節(jié)點端口的數(shù)據(jù)速率。
輸入數(shù)據(jù)流A端口處數(shù)據(jù)速率為100Mbit/s,在第1個緩沖周期10ms內,通過“輸入數(shù)據(jù)選擇開關”,從B1到達DPRAM1。B1的數(shù)據(jù)速率也是100Mbit/s,在10ms內,DPRAM1要寫入1Mbit/s數(shù)據(jù)。
同理在第2個10ms,數(shù)據(jù)流被切換到DPRAM2,端口B2的數(shù)據(jù)速率也是100Mbit/s,DPRAM2在第2個10ms被寫入Mbit/s數(shù)據(jù)。周而復始,在第3個10ms,數(shù)據(jù)流又切換到DPRAM1,DPRAM1被寫入1Mbit/s數(shù)據(jù)。
仔細分析一下,就會發(fā)現(xiàn)到第3個緩沖周期時,留給DPRAM1讀取數(shù)據(jù)并送到“處理模塊1”的時間一共是20ms。
(1)首先在第2個緩沖周期,向DPRAM2寫數(shù)據(jù)的10ms內,DPRAM1可以進行讀操作。
(2)其次在第1個緩沖周期的第5ms起(絕對時間為5ms時刻),DPRAM1就可以邊向500Kbit/s以后的地址寫數(shù),邊從地址0讀數(shù),到達10ms時,DPRAM1剛好寫完了1Mbit/s數(shù)據(jù),并且讀了500Kbit/s數(shù)據(jù),這個緩沖時間內DPRAM1讀了5ms的時間。
(3)另外在第3個緩沖周期的第5ms起(絕對時間為35ms時刻),同理可以邊向500Kbit/s以后的地址寫數(shù),邊從地址0讀數(shù),又讀取了5個ms,所以截止DPRAM1第一個周期存入的數(shù)據(jù)被完全覆蓋以前,DPRAM1最多可以讀取了20ms時間,而所需讀取的數(shù)據(jù)為1Mbit/s,所以端口C1的數(shù)據(jù)速率為:1Mbit/s/20ms=50Mbit/s。
因此“處理模塊1”的最低數(shù)據(jù)吞吐能力也僅僅要求為50Mbit/s。同理“處理模塊2”的最低數(shù)據(jù)吞吐能力也僅僅要求為50Mbit/s。換言之,通過乒乓操作,“處理模塊”的時序壓力減輕了,所要求的數(shù)據(jù)處理速率僅僅為輸入數(shù)據(jù)速率的1/2。
通過乒乓操作實現(xiàn)低速模塊處理高速數(shù)據(jù)的實質是:通過DPRAM這種緩存單元,實現(xiàn)了數(shù)據(jù)流的串并轉換,并行用“處理模塊1”和“處理模塊2”處理分流的數(shù)據(jù),是面積與速度互換原則的有一個體現(xiàn)。
9.2.2串并/并串轉換技巧
串并轉換是FPGA設計的一個重要技巧,從小的著眼點講,它是數(shù)據(jù)流處理的常用手段;從大的著眼點講,它是面積與速度互換思想的直接體現(xiàn)。
串并轉換的實現(xiàn)方法多種多樣,根據(jù)數(shù)據(jù)的排序和數(shù)量的要求,可以選用寄存器、RAM等實現(xiàn)。如圖9.5所示的乒乓操作舉例,就是通過DPRAM實現(xiàn)了數(shù)據(jù)流的串并轉換,而且由于使用了DPRAM,數(shù)據(jù)的緩沖區(qū)可以開得很大。
對于數(shù)量比較小的設計,可以采用寄存器完成串并轉換。如無特殊需求,應該用同步時序設計完成串并之間的轉換。比如數(shù)據(jù)從串行到并行,數(shù)據(jù)排列順序是高位在前,可以用下面的編碼實現(xiàn):
prl_temp={prl_temp,srl_in};
其中,prl_temp是并行輸出緩存寄存器,srl_in是串行數(shù)據(jù)輸入。
對于排列順序有規(guī)定的串并轉換,可以用case語句判斷實現(xiàn)。對于復雜的串并轉換,還可以用狀態(tài)機實現(xiàn)。串并轉換的方法總的來說比較簡單,在此不做更多的解釋。
9.2.3硬件流水線操作技巧
流水線處理是高速設計中的一個常用設計手段。如果某個設計的處理流程分為若干步驟,而且整個數(shù)據(jù)處理是“單流向”的,即沒有反饋或者迭代運算,前一個步驟的輸出是下一個步驟的輸入,則可以考慮采用流水線設計方法提高系統(tǒng)的工作頻率。
流水線設計的結構示意圖如圖9.7所示。
圖9.7流水線設計的結構示意圖
它的基本結構為:將適當劃分的n個操作步驟單流向串聯(lián)起來。
流水線操作的最大特點和要求是:數(shù)據(jù)流在各個步驟的處理從時間上看是連續(xù)的。如果將每個操作步驟假設為通過一個D觸發(fā)器(就是用寄存器打一個節(jié)拍),那么流水線操作就類似一個移位寄存器組,數(shù)據(jù)流依次流經D觸發(fā)器,完成每個步驟的操作。流水線設計時序示意圖如圖9.8所示。
圖9.8流水線設計時序示意圖
流水線設計的一個關鍵在于整個設計時序的合理安排。要求每個操作步驟的劃分合理。如果前級操作時間恰好等于后級的操作時間,設計最為簡單,只要前級的輸出直接匯入后級的輸入即可。如果前級操作時間大于后級的操作時間,則需要對前級的輸出數(shù)據(jù)適當緩存,才能匯入后級的輸入端。如果前級操作時間恰好小于后級的操作時間,則必須通過復制邏輯,將數(shù)據(jù)流分流,或者在前級對數(shù)據(jù)采用存儲、后處理方式,否則會造成后級數(shù)據(jù)溢出。
在WCDMA設計中經常使用到流水線處理的方法,如RAKE接收機、搜索器、前導捕獲等。
流水線處理方式之所以頻率較高,是因為復制了處理模塊,它是面積換取速度思想的又一具體體現(xiàn)。
評論