在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            新聞中心

            EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核比較

            FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核比較

            作者: 時(shí)間:2018-09-10 來源:網(wǎng)絡(luò) 收藏

            如果在兩者之間沒有使用 FSL總線的情況下添加這個(gè)IP,您必須對項(xiàng)目的MHS文件進(jìn)行如下修改:
            BEGIN microblaze
            ...
            PARAMETER C_FSL_LINKS = 1
            ...
            PORT FSL0_S_EXISTS = net_vcc
            PORT FSL0_S_DATA = FSL0_S_DATA
            PORT FSL0_M_DATA = FSL0_M_DATA
            PORT FSL0_M_WRITE = FSL0_M_EXISTS
            PORT FSL0_M_Full = net_gnd
            END
            BEGIN fsl_bitrev
            PARAMETER INSTANCE = fsl_bitrev_0
            PARAMETER HW_VER = 1.00.a
            PORT FSL_S_DATA = FSL0_M_DATA
            PORT FSL_S_EXISTS = FSL0_M_EXISTS
            PORT FSL_M_Data = FSL0_S_DATA
            PORT FSL_M_Full = net_gnd
            PORT FSL_Clk = clk_50_0000MHz
            END

            本文引用地址:http://www.biyoush.com/article/201809/388779.htm

              現(xiàn)在效率顯著提高。硬核僅在兩個(gè)周期內(nèi)可完成位反轉(zhuǎn)操作:一個(gè)周期用于把數(shù)據(jù)寫入IP,另一個(gè)周期則負(fù)責(zé)讀回結(jié)果。處理2萬個(gè)位反轉(zhuǎn)操作現(xiàn)在只需0.8ms。

              與最初采用的算法相比,效率提升了110倍。與效率最高的最新軟件算法相比,此算法仍使系統(tǒng)性能提升了11倍。

              當(dāng)然,本例只有在您的CPU不提供位反轉(zhuǎn)尋址功能的情況下才有效。大多數(shù) DSP都有此功能,但大多數(shù)微控制器都不具備這個(gè)功能。具備增加這個(gè)功能的特性可大幅度提升這種算法的處理速度。

              雖然修改不大,但收效十分明顯。我們甚至將代碼壓縮到兩個(gè)字大小。當(dāng)然,現(xiàn)在硬件要求增加一些芯片。不過以此為代價(jià)獲得比任何微控制器更高的速度,是值得的。

             案例2:高速浮點(diǎn)性能

              現(xiàn)在我們給出另一個(gè) MicroBlaze算法加速示例。一個(gè)客戶聲稱他的浮點(diǎn)處理在MicroBlaze系統(tǒng)上運(yùn)行非常慢。他使用的算法可采用簡單的環(huán)路同時(shí)得出幾個(gè)結(jié)果。

            for (i=0;i512;i++) {
            f_sum += farr[i];
               f_sum_prod += farr[i] * farr[i];
            f_sum_tprod += farr[i] *
            farr[i] * farr[i];
              f_sqrt + =
            sqrt(farr[i]);
              if (min_f > farr[i]) { min_f =
            farr[i]; }
              if (max_f farr[i]) { max_f =
            farr[i]; }
            }

              所有數(shù)值均是單精度浮點(diǎn)值。我們首先想到的是最基礎(chǔ)的一個(gè)問題:浮點(diǎn)單元 (FPU) 激活了嗎?檢查項(xiàng)目設(shè)置后,我們發(fā)現(xiàn)FPU仍然處于未啟用狀態(tài)。這就是為什么永遠(yuǎn)無法計(jì)算出這幾個(gè)數(shù)的原因。FPU可在 MicroBlaze屬性設(shè)置中加以激活。

              FPU支持共有兩種。我們也選擇擴(kuò)展FPU (Extended FPU)來支持求平方根運(yùn)算。現(xiàn)在,在50MHz 的MicroBlaze上需要 1,108,685個(gè)周期才能完成 512個(gè)值的全部循環(huán)。查看生成的匯編程序代碼后,可以了解到創(chuàng)建平方根是仍然在使用數(shù)學(xué)庫(Math-lib)功能。其在數(shù)學(xué)功能中的定義為:

              double sqrt(double);

              不過客戶使用平方根函數(shù)僅為處理浮點(diǎn)數(shù)值。因此,MicroBlaze FPU定義了一個(gè)新的函數(shù)來取代原來的函數(shù),解決這個(gè)問題:

              float sqrtf(float);

              把表達(dá)式f_sqrt += sqrt(farr[i])變?yōu)閒_sqrt += sqrtf(farr[i]),就會調(diào)用MicroBlaze內(nèi)部的FPU內(nèi)部平方根功能?,F(xiàn)在執(zhí)行代碼只需要35,336個(gè)周期。特別是與第一個(gè)根本沒有使用FPU的相比,我們再次通過小小的調(diào)整就實(shí)現(xiàn)了31倍的提升。在相同的執(zhí)行時(shí)間內(nèi),可能需要大約1.5GHz的CPU才能給出上述這些結(jié)果。

             不過客戶仍不滿意,客戶要求更高的速度。在這種情況下,把算法從浮點(diǎn)運(yùn)算變?yōu)楣厅c(diǎn)運(yùn)算并不適合。因此,我們開發(fā)了一款新型專用硬件加速器(新型FSL IP)來加快對循環(huán)的處理。

              新的FSL IP使用CORE Generator模塊浮點(diǎn)_v4_0來為4x ADD、2x MUL、1x GREATER、1x LESS和1x SQRT等操作創(chuàng)建9個(gè)示例。所有這些示例都可以實(shí)體化,并對相同的輸入數(shù)據(jù)進(jìn)行完全并行處理(圖2)。

              FSL IP中實(shí)例的創(chuàng)建帶有部分時(shí)延,但吞吐率僅為1。這要求為加速器內(nèi)部的控制器硬件準(zhǔn)備更多的芯片,不過這樣可以在每個(gè)時(shí)鐘周期內(nèi)向協(xié)處理器提供新數(shù)據(jù)。

              在取回結(jié)果前,只有在處理循環(huán)末端才需要增加周期。

              我們采用直連方式把MicroBlaze連接到FSP IP時(shí)不需要FIFO。傳輸?shù)乃袛?shù)據(jù)都將緩存在IP內(nèi),并隨即加以處理。

              從FSL IP返回到MicroBlaze的連接是使用FSL總線創(chuàng)建的。由于我們必須發(fā)回一些結(jié)果,因而這更加容易實(shí)現(xiàn),而且可以更加簡單地在IP內(nèi)完成。部分CoreGen模塊有一些已被添加到執(zhí)行時(shí)間中的時(shí)延,并被getfsl()調(diào)用完全覆蓋。MicroBlaze只需要等到所有結(jié)果都存入FSL總線FIFO。不過,只要數(shù)據(jù)率是1,即可完全實(shí)現(xiàn)所要求的吞吐率。

              FSL總線的額外延遲僅會占用為數(shù)不多的一些周期。使用FSL硬件加速器的C代碼如下:for (i=0;i512;i++) {
            putfsl(farr[i],fsl0_id);
            }
            // get the min,max values:
            getfsl(min_f,fsl0_id);
            getfsl(max_f,fsl0_id);
            // get the sum and products:
            getfsl(f_sum,fsl0_id);
            getfsl(f_sum_prod,fsl0_id);
            getfsl(f_sum_tprod,fsl0_id);
            getfsl(f_sqrt,fsl0_id);

              算法的最終實(shí)施僅需大約4,630個(gè)周期,而且依然是全浮點(diǎn)實(shí)施。

              硬件需要本來應(yīng)該用于實(shí)施硬件加速器的更多芯片才能并行計(jì)算出所有結(jié)果。不過與擴(kuò)展FPU實(shí)施相比,我們最終提升了大約7.6倍。否則,如果使用處理器來替換這個(gè)50MHz的處理器,可能需要大約380MHz的CPU才能勝任(假設(shè)硬件自帶有浮點(diǎn)平方根函數(shù))。

              更為顯著的是與使用PFU的最初,而非平方根函數(shù)的對比效果:總體提升了大約239倍。這種效果可能需要12GHz左右的浮點(diǎn)處理器才能實(shí)現(xiàn)。

              如上述例子所示,有時(shí)候小小的調(diào)整就會顯著影響算法的處理效果。實(shí)施這些調(diào)整,可以讓您的50MHz MicroBlaze系統(tǒng)與高性能DSP相媲美。

              首先,找出執(zhí)行時(shí)間過長的核心算法,然后對其加速——通過簡單調(diào)整軟件,使用硬件,或使用硬件加速器進(jìn)行更為復(fù)雜的調(diào)整。如此一來,您的處理器系統(tǒng)會強(qiáng)于控制器。


            上一頁 1 2 下一頁

            關(guān)鍵詞: FPGA 方案 標(biāo)準(zhǔn) 比較

            評論


            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉