將大小計算引擎完美地整合在-起

作者：時間：2016-11-10 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文介紹了ARM最新型的Cortex－A7＋Cortex－A15處理器的異構多核配置，以實現(xiàn)性能和功耗的最優(yōu)。在當今移動世界里，特別是在超便攜移動世界（尤以智能手機和平板電腦為主）里出現(xiàn)了一些令人抓狂的類似事件。這些手機運行或設想運行的應用程序類型，像現(xiàn)實增強和內(nèi)容創(chuàng)建，使用更大屏幕的設備需要在極其重要的移動熱能和電池限制條件下使處理能力的性能得到巨大的提升。由于這些設備還長期處于開機狀態(tài)，并時常與 twitter feeds和facebook保持連接并推送電子郵件更新，因此它們還需要連續(xù)的低強度性能。最后，由于這些設備正在成為通信、消費和計算平臺的主流設備，因此我們希望能夠延長電池壽命來維持我們終日繁忙的工作。

在汽車設計方面，即使您仍然希望將大型車的高性能與經(jīng)濟轎車的高能效合而為一，但您在組合大小引擎時會發(fā)現(xiàn)第二個引擎太重了，這種做法太不現(xiàn)實。

本文引用地址：http://www.biyoush.com/article/201611/317420.htm

而在移動CPU世界里，我們已運用了這種概念：手機可以在同一芯片上集成CPU、圖形處理器、視頻引擎和音頻引擎等。每一組件可以在每單位的能耗中提供最大的性能和功能。因此如果在"V8引擎"CPU 中增加其他經(jīng)濟型 CPU 引擎，那么就會產(chǎn)生芯片占用面積上的投資回報率的問題。但如果添加 ARM 的最新款 ARM Cortex-A7 CPU，即我們最小型的、最節(jié)能的應用處理器到至高端的 ARM Cortex-A15 CPU，則可以實現(xiàn)性價比最優(yōu)的理想產(chǎn)品，這具有非常重要的意義。我們稱此概念為 big.LITTLE 處理：即將小型的、高能效的 ARM CPU 與完全兼容的高性能 ARM CPU 緊密地同步整合在一起。Cortex-A7 處理器以作為 big.LITTLE 對中的一款小型 CPU 與高端 Cortex-A15 CPU 完美地整合在一起為宗旨而設計。我將在本次簡述中與您分享我們的實現(xiàn)過程。

我們首先要確保在引擎切換過程中不會出現(xiàn)"間歇性的運行狀態(tài)"。

在 big.LITTLE處理中，就意味著必須確保小型CPU和大型CPU之間具有百分之百的軟件兼容性。從用戶和操作系統(tǒng)軟件的角度而言，大小內(nèi)核必須保持外觀上的一致性。具體來說，就是在架構上保持一致。也就是說，Cortex-A15 和 Cortex-A7 處理器必須具有完全相同的指令、數(shù)據(jù)類型和尋址模式，并且它們能夠產(chǎn)生相同的結果。在設計的其他領域也必須保持一致。如緩存線大小、40位物理地址空間、硬件虛擬化以及 128b AMBA 4 本地總線接口。

第二個關鍵要素就是確保具有最優(yōu)化的引擎…即在小型引擎上實現(xiàn)每加侖燃油的最大行程，而在 V8 引擎上實現(xiàn)最高的性能，并且不卡齒輪。

我們在 big.LITTLE 處理中使用的方法是在新一代移動平臺的移動剖面圖以及不同的功率剖面圖中確定關鍵的性能點。大 CPU (Cortex-A15) 旨在提供比當今高端 CPU 還要高的性能，并且滿足可使用在移動電源裝置中。它由更復雜的、并行的、15 級或更高級的亂序管線組成，具體要根據(jù)指令流來確定。我們?yōu)樾⌒?CPU (Cortex-A7) 開發(fā)了一種截然不同的由有序的 8 級管線組成的內(nèi)核微體系架構，它能夠并發(fā)執(zhí)行大部分常用的指令對。與高性能內(nèi)核的 NEON SIMD 單位相比，針對更大介質的 NEON SIMD 單位和浮點性能都有所降低。較小的 CPU 僅支持執(zhí)行有序的指令，但仍支持所有相同的運算，如 64b 雙精度浮點計算、針對整數(shù)和單精度浮點數(shù)據(jù)類型的雙字和四字 SIMD 運算。如果較小 CPU 的功耗和使用面積接近于較大的 CPU，那么通過切換所節(jié)省的能耗并不足以證明添加另一個 CPU 群集的必要性。類似地，如果較小 CPU 的性能不能與高性能內(nèi)核相對媲美，那么它們之間的處理能力差異會因性能的不穩(wěn)定而出現(xiàn)非連續(xù)性業(yè)務處理。因此，我們必須在性能和功效方面實現(xiàn)最優(yōu)化才能提供適合于 big.LITTLE 的 CPU。

我們需要確保的第三個問題是恒定的線性加速和減速。在引擎切換之間沒有交接問題。

arm.com/index.php?app=core&module=attach§ion=attach&attach_rel_module=blogentry&attach_id=1200" rel="nofollow" >

ARM 實現(xiàn) big.LITTLE 處理的核心就是在較大 CPU 和較小 CPU 之間實現(xiàn)飛快的任務遷移。但是快速環(huán)境遷移所遇到的最大障礙是時間，也就是需要足夠的時間來清除出站 CPU 群集上的緩存并使其無效，同時使用有效的環(huán)境來替換無效的環(huán)境。較小 Cortex-A7 和較大 Cortex-A15 處理器均具有 AMBA 一致性擴展 (ACE) 接口，這些處理器可跨 ARM 緩存一致性互聯(lián)結構 (CCI-400)查看，在其他 CPU 群集的一級和二級緩存中執(zhí)行查找操作。此功能的優(yōu)點就在于出站 CPU 群集只需要保存由寄存器文件、CP15 寄存器值以及安全狀態(tài)組成的小環(huán)境信息即可。然后在典型實現(xiàn)中，可以在總保存/恢復時間不到 20 微秒內(nèi)，在入站CPU群集中恢復這一小環(huán)境信息（如較大 CPU 運行于 1GHz 或更快）。這種快速的環(huán)境切換具有很多優(yōu)點。由于切換的成本開銷很低，因此電源管理框架可以確定是切換到小群集，即使很短的時間，也會節(jié)省能耗，還是切換到大 CPU 群集，以便在極短的時間里使性能瞬間達到最高。這種切換控制非常簡單，因而進行切換控制的軟件也非常簡單。同時，您可以在應用的中途進行環(huán)境切換，如 CPU 開始呈現(xiàn)網(wǎng)頁時可以啟用大 CPU，而在網(wǎng)頁得到呈現(xiàn)后可以切換到較小的 CPU，直至需要載入新網(wǎng)頁時才切換到大 CPU。因此無需把應用程序跨CPU 切割，SoC 的電源管理設備可以瞬間切換到相應大小的 CPU 元件中。

第四個也是最后一個需要確保的是這些引擎可以在一般情況下也能工作。

我們需要確保有一種簡單的軟件方法來控制 big.LITTLE 切換，與現(xiàn)成的電源管理機制保持一致。當今的智能手機和平板設備將動態(tài)電壓與頻率調節(jié) (DVFS) 技術和多個空閑模式應用于應用處理器 SoC內(nèi)單個 CPU 內(nèi)核和 IP 模塊上。我們所實施的 big.LITTLE 修改了后端驅動程序來控制處理器的 DVFS 運行點（例如 Linux/Android 中的 cpu_freq）。現(xiàn)在不再使用三個或四個 DVFS 運行點，而是通過驅動程序來感知兩個 CPU 群集，每個群集都可能具有三至四個獨立的電壓和頻率運行點，從而擴大了現(xiàn)有智能手機電源管理解決方案使用的性能調節(jié)的范圍。big.LITTLE CPU 群集可以在純切換模式下進行操作，即每一時刻只有一個 CPU 群集在 DVFS 驅動程序的控制下處于活動狀態(tài)，也可以在異構多處理模式下進行操作，即操作系統(tǒng)可以為大型或小型 CPU 群集提供顯式線程分配控制，并因此感知不同內(nèi)核的存在。

總而言之，ARM big.LITTLE 處理所具有的這些屬性可以為現(xiàn)代移動設備提供最佳的兩種切換解決方案：與當今高端的智能手機應用處理器相比，其能耗節(jié)省了 70%，并且其最高性能比 2011款的最高端智能手機高很多。請注意這不是一個非此即彼的方案，而是在同樣的工作負載下使性能和能耗均達到最優(yōu)的解決方案。由于智能手機和平板電腦的工作負載具有高度動態(tài)性，因此很有可能需要兩種切換模式。對于網(wǎng)絡瀏覽、視頻流、休閑游戲和 mp3 播放等重要的工作負載，應用 CPU 在最低的 DVFS 運行點中所用的運行時間占 70% 至 90%，而在最高的 DVFS 運行點中所用的運行時間僅不到 5% 左右。即使是高端的游戲工作負載或負載過重的互動網(wǎng)站，其最高運行點也通常只占 CPU 運行時間的 20~30%，這樣便有機會切換到或將線程分配至小 CPU 中，使其 CPU 運行時間達到 70~80% 或更高。這可以很好地與 big.LITTLE 處理保持一致，其中較小 Cortex-A7 可以處理所有一般的任務，但不能處理當前發(fā)售的高端應用處理器 CPU 的兩個最高運行點。這可以確保 Cortex-A7 在 80% 以上的 CPU 運行時間里提供所需的同一級別性能，這樣便大大地減少了能耗，然后再根據(jù)需要瞬間切換到高性能 Cortex-A15 CPU 以實現(xiàn)最大的性能。讓我們再回到汽車類比中，這就像有一個處于待機狀態(tài)的渦輪增壓 V8 引擎在需要爬坡時從停止狀態(tài)突然加速，然后當您稍稍松開油門時，在不到一眨眼的功夫便切換到節(jié)能的引擎中。

如今在工程業(yè)界，我已領略到這世界上還真沒有免費的午餐。您不可能在既有高性能又有高能效的同時，不付出一點代價。就本例而言我們需付出的是占用面積，相對于高性能的 CPU 本身而言，附加的 CPU 群集只占用很少的一點額外區(qū)域。而在 28nm 等現(xiàn)代工藝結構中，Cortex-A7 CPU 的每個內(nèi)核所占用的面積不到一平方毫米的一半，因此片上成本的費用很低并且整合后的系統(tǒng)完全符合專為 CPU 群集定制的芯片空間大小要求。為了使平均能耗比當今主流智能手機更低，性能比當今具有最高性能的智能手機還高，即使必須在 SoC 上占用很少的一點額外區(qū)域也是相當劃算的。我只希望這種做法也能應用在汽車上：經(jīng)濟高效、長行程、至高性能的夢想車！

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

新聞中心

將大小計算引擎完美地整合在-起

評論

相關推薦

技術專區(qū)