基于Stratix系列FPGA的FFT模塊設(shè)計與實(shí)現(xiàn)
1 引言
對于地面上的遠(yuǎn)距離微波通信,當(dāng)通信距離超過一定范圍時,電磁波傳播會受到地面的阻擋,隨著通信距離的增加通信信號則會衰減。為了延長通信距離和提高通信質(zhì)量,需要在通信二地之間設(shè)立若干微波中繼設(shè)備(例如微波接力機(jī)),進(jìn)行電磁波轉(zhuǎn)接并對信號進(jìn)行逐段接收和放大后再發(fā)送給下一段。在微波接力通信中,通常采用擴(kuò)頻方式提高系統(tǒng)的抗干擾能力。但是,擴(kuò)頻系統(tǒng)過寬的頻帶帶寬很容易在通信設(shè)備密集的地方受到其他設(shè)備的干擾(窄帶干擾)。所以在微波接力機(jī)工作過程中,需要對接收信號中的窄帶干擾信號進(jìn)行快速識別并利用相應(yīng)的自適應(yīng)陷波等技術(shù)對窄帶干擾進(jìn)行抑制。由于在頻域上窄帶干擾的功率譜呈現(xiàn)尖峰狀,而擴(kuò)頻信號大致呈現(xiàn)平坦特性且并容易識別。所以要在微波接力機(jī)中設(shè)計FFT模塊用于計算信號的功率譜。
對實(shí)現(xiàn)FFT的工程,目前通用的方法是采用DSP、FFT處理電路及FPGA。用DSP實(shí)現(xiàn)FFT的處理速度較慢,不能滿足某些高速信號實(shí)時處理的要求;專用的FFT處理器件雖然速度較快,但是價格相對昂貴且外圍電路相對復(fù)雜;采用新一代的FP-GA來實(shí)現(xiàn)FFT兼有二者的優(yōu)點(diǎn)。FPGA資源豐富、易于借助并行流水的特點(diǎn)來實(shí)現(xiàn)FFT,不但性能穩(wěn)定、經(jīng)濟(jì)性好,而且可以大大縮短計算的耗時。以Altera公司的Stratix系列FPGA為例,它具有多達(dá)79 040個邏輯單元、7 MB的嵌入式存儲器、優(yōu)化的數(shù)字信號處理器和高性能的I/O能力,非常方便以全并行流水方式進(jìn)行FFT處理。
筆者選用Stratix系列中的EPlS25型FPGA來實(shí)現(xiàn)FFT,在系統(tǒng)主頻大于52 MHz的環(huán)境下穩(wěn)定工作后,完成1次256點(diǎn)的FFT所需要的時間小于5μs,完成1次1024點(diǎn)的FFT所需時間小于20μs,完全滿足實(shí)時處理的要求。
2 模塊的設(shè)計與實(shí)現(xiàn)
2.1 FFT算法選擇
自從1965年J.W.Tuky和T.W.Coody在《計算機(jī)數(shù)學(xué)》上發(fā)表了著名的《機(jī)器計算傅立葉級數(shù)的一種算法》論文后,經(jīng)過幾十年來的不斷改進(jìn),形成了很多FFT的高效算法。這些算法基本上分為二大類:時域抽取法FFT(DIT-FFT)和頻域抽取法FFT(DIF-FFT)。時域抽取法是把變換模塊的輸入數(shù)據(jù)在時域上按一定的倒序規(guī)則打亂,經(jīng)過變換后,輸出的FFT頻域信號是順序排列的。而頻域抽取法是把變換模塊的輸入數(shù)據(jù)在時域上按順序輸入,經(jīng)過變換后,輸出的FFT頻域信號按照倒序列規(guī)則輸出。根據(jù)運(yùn)算基的不同,又可以分為基2、基4、基8及混合基算法等。
在該變換模塊的處理過程中,可以在預(yù)加窗單元方便地完成倒序操作,而且在全并行流水方式處理的過程中,采用時域抽取可以充分利用原址存儲,節(jié)省內(nèi)存。所以,在設(shè)計中選擇簡單實(shí)用的時域抽取基2FFT算法。
2.2 FFT模塊與外部電路的接口
FFT模塊與外部電路的接口如圖1所示。圖中,輸入信號Xin為復(fù)數(shù)零中頻信號,數(shù)據(jù)寬度為18bit,編碼格式為二進(jìn)制補(bǔ)碼。Xout是復(fù)數(shù)變換輸出信號,數(shù)據(jù)寬度為18 bit,編碼格式也是二進(jìn)制補(bǔ)碼。CLK和HCLK分別是系統(tǒng)的主時鐘和2倍時鐘。HCLK主要用于數(shù)據(jù)的輸入、輸出。當(dāng)CLK為‘1’時,由Xin在HCLK的上升沿輸入實(shí)部數(shù)據(jù)并在Xout輸出變換數(shù)據(jù)的實(shí)部;當(dāng)CLK為‘O’時,由Xin在HCLK的上升沿輸入虛部數(shù)據(jù)并在Xout輸出變換數(shù)據(jù)的虛部。iFSyne為變換輸入幀同步控制信號,oFSync為變換輸出幀同步控制信號。2個信號為‘1’時分別表示模塊輸入/輸出變換幀的第1個數(shù)據(jù)開始輸入/輸出。
2.3 全并行流水方式的實(shí)現(xiàn)
在FFT工作方式的設(shè)計上,充分利用FPGA內(nèi)嵌乘法器和存儲器資源豐富的特點(diǎn).采用全并行的流水工作方式。如圖2所示,圖中N為進(jìn)行FFT運(yùn)算的點(diǎn)數(shù),M=log2N。以N=256,M=8為例,當(dāng)系統(tǒng)穩(wěn)定工作之后,在256個時鐘之內(nèi),同時有l(wèi)O組數(shù)據(jù)在做不同的運(yùn)算。當(dāng)?shù)?組數(shù)據(jù)輸入的時候,第10組數(shù)據(jù)正在輸出,而中間的8組數(shù)據(jù)正在進(jìn)行各級蝶形運(yùn)算。因此,當(dāng)模塊進(jìn)入穩(wěn)定工作狀態(tài)后,每隔256個時鐘就有一組數(shù)據(jù)完成256點(diǎn)的FFT,從輸出RAM中輸出。
2.4 FFT變換模塊的內(nèi)部設(shè)計
FFT內(nèi)部變換模塊的設(shè)計如圖3所示。下面以N=256點(diǎn)的FFT為例分別予以說明。
2.4.1 加窗并倒序存儲單元
為了減少時域截斷造成的頻譜泄漏誤差,在進(jìn)行FFT變換前應(yīng)對模塊輸入的數(shù)據(jù)進(jìn)行加窗處理??紤]到本模塊主要用來分析疊加有窄帶干擾的擴(kuò)頻信號,它要求精確給出每個窄帶干擾的中心頻率及其干擾強(qiáng)度的相對大小,所以,這里選用帶外衰減為80 dB的Chebyshev窗以獲取良好的頻譜效果。經(jīng)過加窗之后的數(shù)據(jù)按照倒序的規(guī)則存儲在RAM中,等待進(jìn)入蝶形運(yùn)算單元進(jìn)行運(yùn)算。
2.4.2 控制單元
控制單元是整個FFT變換模塊的核心。它主要負(fù)責(zé)以下二方面的工作。
(1)提供各個模塊的運(yùn)算使能
當(dāng)檢測到輸入口的iFSync信號為高電平后,立即啟動“加窗并倒序存儲單元”和“窗因子ROM”單元進(jìn)行數(shù)據(jù)輸入、加窗、倒序存儲處理。在256個時鐘之后,啟動“各級蝶形運(yùn)算”單元,并控制地址產(chǎn)生單元產(chǎn)生當(dāng)前需要的各類地址。中間各級蝶形運(yùn)算的使能由上l級蝶算單元產(chǎn)生。在第8級運(yùn)算結(jié)束時,提供數(shù)據(jù)輸出的標(biāo)志oFSync,并控制輸出RAM同步輸出數(shù)據(jù)。
(2)產(chǎn)生各級運(yùn)算過程中所需的地址
倒序地址:用模為N的同步計數(shù)器的輸出來實(shí)現(xiàn),把當(dāng)前計數(shù)器輸出的高位與低位的對應(yīng)位進(jìn)行全部對調(diào)即可得到當(dāng)前數(shù)據(jù)的倒序地址。
各級運(yùn)算的地址:把RAM取數(shù)地址和ROM取數(shù)地址對應(yīng)起來。原則是先把1個旋轉(zhuǎn)因子所對應(yīng)的所有數(shù)據(jù)計算完畢再轉(zhuǎn)到下1個旋轉(zhuǎn)因子所對應(yīng)的數(shù)據(jù)上。這樣的話,可以在產(chǎn)生ROM地址的同時產(chǎn)生所有RAM取數(shù)的地址。把二者的地址建立關(guān)聯(lián)之后,可以使RAM數(shù)據(jù)和ROM數(shù)據(jù)嚴(yán)格對應(yīng)起來。
2.4.3 RAM模塊
在256點(diǎn)的FFT中,要進(jìn)行8級蝶算,對全并行的工作方式而言需要8個不同的RAM來存儲各級的中間結(jié)果。其中,第8級的RAM可以作為輸出RAM。再加上前面加窗和倒序的1個RAM,整個系統(tǒng)共需要9個RAM。對于256點(diǎn)的復(fù)數(shù),把實(shí)部和虛部分開共需要512個存儲單元。在某一級的蝶算中,由于信號及運(yùn)算的延遲,不可能就在256個時鐘之內(nèi)完成本級運(yùn)算,而下一組的數(shù)據(jù)在256個時鐘之后就要進(jìn)行本級運(yùn)算并將結(jié)果存儲在該RAM中,這樣就有可能造成數(shù)據(jù)還沒有被完全讀取就被新數(shù)據(jù)覆蓋的沖突。為了確保在全并行工作方式中實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確存取,可以把9個RAM都設(shè)置成1024?8 bit的存儲格式,即:把每個RAM分為二部分,地址為0~511的為前半部分,地址為512~l 023的為后半部分,用一個MSB的信號作為地址最高位來控制前后二部分存儲器。當(dāng)?shù)?組數(shù)據(jù)進(jìn)行本級運(yùn)算時,其結(jié)果保存在RAM的前半部分;256個時鐘之后,對MSB求反,并以此控制把第I+1組數(shù)據(jù)進(jìn)行本級運(yùn)算的結(jié)果寫入RAM的后半部分,此時對第1組數(shù)據(jù)的讀取在前半部分進(jìn)行,互不沖突。Altera的FPGA器件里有豐富的RAM資源,采用雙端口RAM可以很方便地實(shí)現(xiàn)上述操作。
2.4.4 ROM模塊
整個模塊共需3個ROM,一個用來存儲Chebyshev窗因子,另外二個分別用來存儲旋轉(zhuǎn)因子的實(shí)部和虛部。事先在MATLAB中計算出這些因子,并將它們按照*.mif文件格式輸出。在QuartusⅡ軟件中,例化3個ROM,并把由MATLAB產(chǎn)生的*.mif文件寫入各自ROM的初始化文件中,完成對ROM的初始化工作。
2.4.5 蝶形運(yùn)算單元
(1)基本蝶形運(yùn)算單元。把復(fù)數(shù)運(yùn)算分解為實(shí)數(shù)運(yùn)算之后,每個基本的蝶形運(yùn)算單元都可由4個乘法器、1個加法器和1個減法器構(gòu)成。其中,乘法器是決定系統(tǒng)運(yùn)算速度的關(guān)鍵因素。對256點(diǎn)FFT在全并行的工作方式下,最多要求在同一時鐘并行完成33個18x18 bit的乘法運(yùn)算。而EPlS25系列FPGA有非常豐富的乘法器資源,僅DSP就可以并行完成40個18x18 bit的乘法運(yùn)算,完全滿足系統(tǒng)的要求。
(2)可化簡的蝶形運(yùn)算單元。在對各級蝶形進(jìn)行研究的基礎(chǔ)上發(fā)現(xiàn),第1級和第2級的蝶形經(jīng)過化簡完全可以不用進(jìn)行乘法操作。
第1級只有1個旋轉(zhuǎn)因子won,其實(shí)部為1、虛部為O,代入基本蝶形運(yùn)算單元化簡之后可得:
mx1=xl+x2;my1=yl+y2
mx2=x1-x2;my2=y1-y2
其中:x1、x2為輸入數(shù)據(jù)實(shí)部,y1、y2為輸入數(shù)據(jù)虛部,mx1、mx2為變換之后的數(shù)據(jù)實(shí)部,my1、my2為變換之后的數(shù)據(jù)虛部。
第2級有2個旋轉(zhuǎn)因子,won和w64n,對won可以沿用第一級的簡化方法。
對于w64n,其實(shí)部為0、虛部為-l,代入基本蝶算單元化簡之后可得:mx1=x1+y2;my1=y1+x2;mx2=x1-xz;my2=y1+x2這樣,總共8級的蝶形運(yùn)算有2級可以不用乘法器和存儲旋轉(zhuǎn)因子的ROM,節(jié)省了25%的乘法器和ROM資源。
2.5 誤差的分析與控制
對FPGA而言,采用浮點(diǎn)運(yùn)算帶來的硬件開銷太大。而如果采用文獻(xiàn)[3]所提出的塊浮點(diǎn)防溢出方案,在每一級蝶形運(yùn)算結(jié)束之后,都需要找出該級計算結(jié)果中的最大值來判斷溢出的狀態(tài),并以此確定進(jìn)行下一級運(yùn)算時每個數(shù)據(jù)需要移位的位數(shù)。這對全并行的工作方式而言,意味著每一級數(shù)據(jù)都會帶來更大的延遲,影響整個運(yùn)算的速度。而對定點(diǎn)運(yùn)算而言,雖然存在有限字長效應(yīng)的影響,但是,只要對數(shù)據(jù)進(jìn)行適當(dāng)?shù)囊莆惶幚砭涂梢苑乐挂绯?;在?shù)據(jù)舍棄時,進(jìn)行類似4舍5入的運(yùn)算就可以有效的控制誤差。在綜合考慮之后,系統(tǒng)采用定點(diǎn)運(yùn)算方案。在定點(diǎn)運(yùn)算中,誤差主要體現(xiàn)在以下兩方面:
(1)乘法截斷誤差。2個18位的數(shù)據(jù)相乘得到36位的積,把該積舍入為18位就會產(chǎn)生誤差。由于來自零中頻的18位數(shù)據(jù)實(shí)際表征的是模值不大于‘1’的復(fù)小數(shù),所以相乘不會產(chǎn)生溢出。去掉次高位多余的符號位并截去后17位。當(dāng)被截去的各位是‘1’的時候,誤差最大;被截去的各位為‘O’時,沒有誤差。對被截去的部分作類似4舍5入的處理,第20位為‘1’則向上進(jìn)位,為‘O’則直接舍去,可以有效減小誤差。
(2)加減法溢出誤差。2個18位的數(shù)據(jù)相加減得到19位的結(jié)果,在進(jìn)行下一級運(yùn)算之前,必須舍去l位,對舍棄的這l位也進(jìn)行上述的4舍5入運(yùn)算。2個小數(shù)的加減運(yùn)算而言,把結(jié)果全部右移1位就可以防止溢出。
3 波形仿真與性能分析
波形仿真選用的輸入信號為
x(n)=Xxexp[j?03+2x127xnxπ)/256]
式中。X根據(jù)測試的需要分別取18 bit信號的最大值和達(dá)到80 dB信噪比所需的最小值13,n的取值范圍為0:255。設(shè)計工具選用VHDL93版硬件描述語言,在QuartusⅡ4.1平臺上進(jìn)行邏輯綜合和時序分析,把仿真結(jié)果保存為*.tbl文件格式。在MATLAB中,讀取*.tbl文件,并與MATLAB的計算結(jié)果進(jìn)行比較。由于8級運(yùn)算都作了右移1位的處理,所以實(shí)際結(jié)果比用MATLAB的計算結(jié)果縮小256倍。把MATLAB的計算結(jié)果縮小256倍與0uartusⅡ4.1的計算結(jié)果比較,如圖4所示。圖中,左上圖為原始序列,右上圖為用MATLAB計算的結(jié)果,右下圖為用FPGA計算的實(shí)際結(jié)果。在左下圖中,把二個結(jié)果進(jìn)行局部放大,MATLAB的計算結(jié)果用實(shí)線表示,Quartus4.1的仿真結(jié)果用“+”表示??梢钥闯龆M結(jié)果的吻合性非常好,驗(yàn)證了程序的正確性。仿真采用60 MHz系統(tǒng)主頻,在系統(tǒng)進(jìn)入穩(wěn)定狀態(tài)之后(經(jīng)過38.34μs),每完成1次256點(diǎn)FFT所用時間為4.26μs。對EPlS25器件資源占用情況為:邏輯單元使用15%,內(nèi)部存儲器使用18%,專用DSP使用62.5%。雖然專用DSP塊使用較多,但是邏輯單元使用得很少,可以用邏輯單元來構(gòu)成18x18的乘法器和專用DSP一起完成更多的并行乘法運(yùn)算。這說明系統(tǒng)還具有很好的可擴(kuò)展性,要完成更多點(diǎn)數(shù)的FFT,只需增加相應(yīng)蝶形運(yùn)算的級數(shù)即可。
從結(jié)果可以看出,由于運(yùn)算中采用有效措施防止誤差和溢出,在最大數(shù)據(jù)運(yùn)算時沒有溢出,而且最終運(yùn)算結(jié)果的誤差小于10-9。在用達(dá)到80 dB信噪比所需最小數(shù)據(jù)進(jìn)行運(yùn)算時,也有很好的分辨率。
4 結(jié)束語
本文討論了微波接力機(jī)中FFT模塊的設(shè)計與實(shí)現(xiàn)過程。全部電路設(shè)計已經(jīng)過功能仿真、邏輯綜合、時延分析并成功下載到FPGA中投入實(shí)踐應(yīng)用。實(shí)踐應(yīng)用表明用Stratix系列FPGA實(shí)現(xiàn)FFT的速度快、穩(wěn)定性高、易于擴(kuò)展。在微波接力通信,特別是在接力機(jī)對窄帶干擾快速識別的應(yīng)用中有很大的優(yōu)越性。
評論