在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            新聞中心

            EEPW首頁(yè) > 嵌入式系統(tǒng) > 設(shè)計(jì)應(yīng)用 > 利用高效的編程技術(shù)發(fā)揮多內(nèi)核架構(gòu)優(yōu)勢(shì)

            利用高效的編程技術(shù)發(fā)揮多內(nèi)核架構(gòu)優(yōu)勢(shì)

            作者: 時(shí)間:2014-01-07 來(lái)源:網(wǎng)絡(luò) 收藏

            TI的OMAP 44xx平臺(tái)整合了ARM Cortex-A9、PowerVR SGX 540 GPU、C64x DSP和圖像信號(hào)處理器。每個(gè)內(nèi)核有專(zhuān)門(mén)的功能,處理器之間的通信不是對(duì)稱的。OMAP只工作在AMP模式,而P4080的內(nèi)核是系統(tǒng),但也能夠?qū)?nèi)核劃分為AMP模式。8內(nèi)核芯片可以像8個(gè)獨(dú)立內(nèi)核那樣運(yùn)行,在許多配置中也可以聯(lián)合起來(lái)使用(如一對(duì)雙內(nèi)核子系統(tǒng),或四個(gè)單內(nèi)核子系統(tǒng))。

            OMAP和P4080在高層架構(gòu)的主要區(qū)別是OMAP功能是固定的,內(nèi)核針對(duì)各自的事務(wù)做了優(yōu)化。這將使編程容易得多,因?yàn)榭梢愿鶕?jù)匹配功能將應(yīng)用程序劃分到特定內(nèi)核。

            每個(gè)子系統(tǒng)的性能水平受架構(gòu)的限制,但P4080可以調(diào)整劃分方案,雖然劃分通常是在系統(tǒng)啟動(dòng)時(shí)完成的。系統(tǒng)設(shè)計(jì)師可以調(diào)整P4080中內(nèi)核的分配,前提是有足夠多的內(nèi)核。市場(chǎng)上也有內(nèi)核數(shù)量較少的QorIQ平臺(tái),因此可以選用更經(jīng)濟(jì)的芯片。

            IBM的Cell處理器填補(bǔ)了中間的空白。它采用了1個(gè)64位的Power內(nèi)核和8個(gè)增效處理單元(SPE)。所有SPE都是相同的(每個(gè)有256KB的內(nèi)存),它們工作在隔離狀態(tài),這與上述討論的共享內(nèi)存系統(tǒng)有所不同。SPE內(nèi)沒(méi)有緩存,也不支持虛擬內(nèi)存。

            對(duì)軟硬件設(shè)計(jì)來(lái)說(shuō),這種方式既有優(yōu)點(diǎn)又有缺點(diǎn)。優(yōu)點(diǎn)為是簡(jiǎn)化了硬件實(shí)現(xiàn),但從多個(gè)角度看都使軟件復(fù)雜化了。例如,內(nèi)存管理受應(yīng)用程序控制,就像內(nèi)核間的通信一樣。數(shù)據(jù)在能夠操作之前必須要移進(jìn)SPE的本地內(nèi)存。完全開(kāi)發(fā)Cell這樣的架構(gòu)很花時(shí)間,因?yàn)樗鼈冇袆e于更傳統(tǒng)的SMP或AMP平臺(tái)。多年來(lái)在像索尼的PlayStation 3這樣的基于Cell的平臺(tái)上所作的軟件改進(jìn)突顯了和經(jīng)驗(yàn)的變化。

            GPU等專(zhuān)用處理器

            改變是使用圖形處理單元(GPU)是否成功的關(guān)健。來(lái)自ATI和Nvidia等公司的GPU在單個(gè)芯片內(nèi)有上百個(gè)內(nèi)核,這些GPU可以被整合進(jìn)多芯片解決方案,向開(kāi)發(fā)人員提供上千個(gè)內(nèi)核。例如,集成進(jìn)1U機(jī)箱的4個(gè)Nvidia Tesla T10就可以提供960個(gè)內(nèi)核(圖4)。
            利用高效的編程技術(shù)發(fā)揮多內(nèi)核架構(gòu)優(yōu)勢(shì)

            對(duì)Tesla或其它任何兼容的Nvidia GPU芯片進(jìn)行編程都極具挑戰(zhàn)性,但類(lèi)似Nvidia的CUDA這樣的架構(gòu)或基于CUDA的運(yùn)行時(shí)利用可以使工作變得更加輕松。部分挑戰(zhàn)來(lái)自于Nvidia GPU的單指令、多線程(SIMT)架構(gòu)。與許多高性能系統(tǒng)一樣,這種GPU喜歡處理數(shù)組數(shù)據(jù)。對(duì)許多應(yīng)用來(lái)說(shuō)這是不錯(cuò)的選擇,但并非都是這樣,這正是GPU經(jīng)常要與多內(nèi)核CPU匹配的原因之一。

            另一種并行編程架構(gòu),CUDA和OpenCL(開(kāi)放計(jì)算語(yǔ)言),則完全匹配GPU方法(使用與主處理器分開(kāi)的存儲(chǔ)器)。這意味著數(shù)據(jù)在能被操作之前必須從一個(gè)地方移動(dòng)到另一個(gè)地方。C編程語(yǔ)言有一定擴(kuò)展,但也有限制。例如,它是自由遞歸的,不支持函數(shù)指針。其中一些限制源自SIMT方法。

            許多應(yīng)用程序使用CUDA,但與傳統(tǒng)SMP平臺(tái)相比,性能增益有很大的變化,從2倍到100倍不等。造成這種變化的原因是,線程以32為組運(yùn)行時(shí)的效率最高。分支不影響性能,前提是32線程組在同一分支內(nèi)。

            像GPU這樣的專(zhuān)用處理器,其采用的方案是同時(shí)提供圖形和多內(nèi)核處理。另外一種方案是使用許多傳統(tǒng)內(nèi)核,如Intel的Larrabee(圖5)。Larrabee使用專(zhuān)門(mén)針對(duì)矢量處理優(yōu)化過(guò)的x86兼容內(nèi)核。
            利用高效的編程技術(shù)發(fā)揮多內(nèi)核架構(gòu)優(yōu)勢(shì)



            評(píng)論


            相關(guān)推薦

            技術(shù)專(zhuān)區(qū)

            關(guān)閉