面向對稱體系結構的FPGA仿真模型研究
采用FPGA EP2S180(擁有143 520 ALUT,相當于18萬邏輯門)實現(xiàn)了多種結構(計算節(jié)點的數(shù)目不同)的目標系統(tǒng)和基于仿真模型的仿真系統(tǒng),并利用相應的硬件綜合工具Quartus分析仿真系統(tǒng)的FPGA資源開銷。系統(tǒng)采用包含1個cluster的MASA流處理器作為計算節(jié)點。為更好地驗證仿真模型,流處理器中采用功能裁剪的cluster,如圖4所示,cluster中僅包含3個計算單元和1個I/O單元,并相應降低指令和數(shù)據(jù)存儲器的容量。在仿真系統(tǒng)中,VAU中的processor為流處理器中的核心計算部件,context backup代替了片上存儲部件,其容量為SRF的p倍。該實驗的目的是分析所提出的仿真模型對仿真系統(tǒng)的硬件資源消耗和仿真速度的影響。
3.1 資源消耗分析
圖5是目標系統(tǒng)和仿真系統(tǒng)的FPGA資源消耗統(tǒng)計。由于布局布線的需求,F(xiàn)PGA芯片的資源使用率最高通常只能達到70%~80%。圖5中“×”標識表示當前配置超出EP2S180的仿真能力??梢钥闯觯诓徊捎梅抡鎯?yōu)化技術時,EP2S180可仿真的最大規(guī)模目標系統(tǒng)為24個計算節(jié)點。基于本文的仿真模型,當p值等于4時,EP2S180的仿真能力提高至64個節(jié)點;當p值等于8時,其仿真能力提高至96個節(jié)點。當p值增大時,其仿真能力可進一步提升。實驗結果表明,本文提出的仿真模型能夠增大FPGA芯片可仿真系統(tǒng)的規(guī)模。
3.2 仿真速度分析
本文采用矩陣乘運算,分別在8、16、32個節(jié)點的目標系統(tǒng)和仿真系統(tǒng)上執(zhí)行,測試二者的仿真速度。目標系統(tǒng)和仿真系統(tǒng)的工作頻率為75 MHz。圖6展示了二者的執(zhí)行時間。
可以看出,仿真系統(tǒng)的執(zhí)行時間大于目標系統(tǒng)。其時間增量主要是由于仿真系統(tǒng)將目標系統(tǒng)中多個processor并行處理的任務移植到一個VAU上串行執(zhí)行造成。仿真系統(tǒng)沒有改變目標系統(tǒng)的數(shù)據(jù)傳輸路徑和模式,因此,數(shù)據(jù)傳輸?shù)臅r間并沒有增加。另外,由于VAU虛擬的p個pro-cessor共享了存儲空間,仿真系統(tǒng)中消除了p個processor之間的數(shù)據(jù)傳輸時間。雖然仿真系統(tǒng)相對于目標系統(tǒng)執(zhí)行時間有所增加,但其時間增量處于秒級。相對于緩慢的軟件模擬器,并綜合考慮仿真模型對FPGA仿真規(guī)模帶來的好處,因此認為該仿真模型帶來的仿真時間增量是可以接受的。
4 結束語
本文提出了面向對稱多核體系結構的FPGA仿真模型,以及基于該模型的多核/眾核、SIMD體系結構的執(zhí)行模式。相對于軟硬件聯(lián)合仿真方法,該仿真模型減少了軟硬件協(xié)同邏輯并避免了設計復雜的軟件劃分算法。實驗結果表明,面向對稱多核體系結構的FPGA仿真模型能有效地減少仿真系統(tǒng)FPGA資源的需求,增大FPGA的仿真規(guī)模,并且其帶來的仿真時間增量是可接受的。但該仿真模型主要是面向對稱體系結構,而不適用于異構多核系統(tǒng)等非對稱結構。
評論