加速實現(xiàn)網絡邊緣低功耗人工智能應用
架構轉變和網絡邊緣日益增長的智能需求
本文引用地址:http://www.biyoush.com/article/201805/380325.htm自第一臺電腦發(fā)明以來,尋求最理想系統(tǒng)架構的路途始終充滿坎坷。從計算發(fā)展史中可以看出,系統(tǒng)架構始終在計算資源遠離用戶的集中式架構和處理資源靠近用戶的分布式架構之間反復搖擺。曾于20世紀70年代和80年代流行的基于服務器的方案則采用高度集中化的方法積蓄計算資源和存儲能力。但是這一理念很快在低成本個人電腦和互聯(lián)網快速發(fā)展的80和90年代衰落了。在這種新的架構模式下,計算任務不斷向個人電腦傾斜。
圍繞個人電腦構建的高度分布式方案似乎無懈可擊,直到以智能手機、平板電腦和筆記本電腦為代表的高流動性工具大行其道。四處攜帶計算硬件和存儲資源瞬間成為了一種累贅。系統(tǒng)架構隨之緩慢地將任務移到云端,利用其近乎無限的計算和存儲資源、高可靠性以及低成本。
企業(yè)也在使用云端削減資本成本和更高效地管理IT基礎設施相關的運維成本。隨著他們采用機器學習和更高級的人工智能技術,云端將扮演著至關重要的角色。即將來臨的新一代智能工廠、智慧城市和智能家居需要云端來高效管理機器視覺系統(tǒng)、協(xié)調交通模式以及最小化功耗。
但并非所有應用都將在云端運行。行業(yè)專家提出,另一輪從集中式到分布式的系統(tǒng)架構轉變的征兆已經顯而易見了。無論到來與否,有一點確信無疑。那就是低延遲要求、不斷加劇的隱私問題和通信帶寬限制將驅動網絡邊緣對智能化的需求。隨著設計人員向網絡邊緣應用加入高級智能,他們需要能夠快速響應環(huán)境條件變化的系統(tǒng)。例如,當一輛無人駕駛汽車駛入智慧城市,它不可能詢問云端如何避免沖撞事故,而是必須立即做出反應,自主做出判斷。同樣,當AI安全攝像頭在家中檢測到異動,它必須利用設備現(xiàn)有資源做出決定,如有人闖入,則立刻報警。
這些新型應用需要基于AI或機器學習的、靠近IoT傳感器數據源而非云端的計算解決方案。這樣的需求有多大?有人認為潛力非??捎^。Gartner的分析師估計到2022年,多達50%的企業(yè)數據將在傳統(tǒng)的集中式數據中心或云端以外的地方處理(參見圖1)。
圖1. 為避免受延遲、隱私和網絡帶寬限制而快速興起的網絡邊緣計算
網絡邊緣計算的要求
設計人員在開發(fā)網絡邊緣計算解決方案時面臨的最嚴峻的挑戰(zhàn)是要滿足高靈活性、低功耗、小尺寸和低成本等一系列獨特要求(參見圖2)。
圖2. 新一代基于AI的網絡邊緣計算應用需要滿足一系列獨特要求
開發(fā)人員如何構建功耗低、尺寸小、成本低而又不影響性能的網絡邊緣解決方案呢?首先,他們需要具備最大化設計靈活性、支持廣泛I/O接口的芯片,還需要能夠助其利用快速演進的神經網絡架構和算法的半導體解決方案。最后他們還需要能通過自定義量化平衡精度和功耗的解決方案。
考慮到網絡邊緣設備的尺寸限制,設計人員需要適當的芯片來設計小巧高性能的AI設備,在輸出卓越性能的同時又能滿足尺寸或散熱管理的要求。成本也是一個關鍵要素。任何一種解決方案都必須能與其他批量生產的網絡邊緣解決方案一較高下。最后,即便是在網絡邊緣,快速上市的規(guī)則依然適用。第一個將解決方案推向市場的企業(yè)必然擁有巨大優(yōu)勢。因此,任何有潛力的解決方案必須有機會獲得必要的資源實現(xiàn)定制化,并縮短開發(fā)周期——無論是演示示例、參考設計還是設計服務。
網絡邊緣基于FPGA的機器學習推理
FPGA在網絡邊緣扮演何種角色?機器學習通常要求兩種類型的計算工作量。訓練系統(tǒng)通過現(xiàn)有數據習得新能力。例如,人臉檢測功能通過采集和分析成千上萬張圖片來學習識別人臉。這種早期訓練階段實質上是高度計算密集的。開發(fā)人員通常會在數據中使用高性能硬件處理數量龐大的數據。
機器學習的第二階段推理通過識別圖案和執(zhí)行任務將系統(tǒng)能力用于處理新數據。例如,之前討論的人臉檢測功能將在投入現(xiàn)場工作后持續(xù)優(yōu)化其能力,以正確識別人臉。在此階段系統(tǒng)邊運行邊學習,隨著時間推移變得愈加智能。鑒于網絡邊緣的任務執(zhí)行存在諸多限制,設計人員不可能在云端進行推理。相反他們須通過在網絡邊緣執(zhí)行靠近數據源的計算任務來提升系統(tǒng)的智能程度。
那么如何替代云端龐大的計算資源從而在網絡邊緣執(zhí)行推理呢?一種方式就是利用FPGA固有的并行處理能力來加速神經網絡的性能。設計人員可以使用經過特別優(yōu)化的低功耗低密度FPGA滿足網絡邊緣對嚴苛性能和功耗限制的要求。萊迪思的ECP5和iCE40 UltraPlus FPGA可滿足這一需求。設計人員可通過功耗不足1W 的ECP5 FPGA和毫瓦級iCE40 UltraPlus FPGA來加速神經網絡,構建高效、基于AI的網絡邊緣計算應用。(參見圖3)
圖3. 基于萊迪思FPGA的低功耗(1mW-1W)機器學習推理
Lattice sensAI? 簡介
除了計算硬件外,設計人員還需要各類IP、工具、參考設計和設計專業(yè)知識來構建有效的解決方案并將其快速推向市場。
為幫助開發(fā)人員應對這一日益嚴峻的挑戰(zhàn),萊迪思現(xiàn)推出基于iCE40 UltraPlus和ECP5 FPGA系列的新型全套開發(fā)生態(tài)系統(tǒng)。Lattice sensAI旨在幫助開發(fā)人員快速構建適用于智能家居、智慧城市、智能工廠、智能汽車和移動應用的AI網絡邊緣解決方案,為網絡邊緣提供優(yōu)化靈活的推理。
正如下列圖4所示,Lattice sensAI通過集成模塊化硬件平臺、神經網絡IP核、軟件工具、參考設計和來自合作伙伴生態(tài)系統(tǒng)的定制設計服務,簡化了靈活推理解決方案的開發(fā),經優(yōu)化具有低功耗(1mW-1W)、封裝尺寸小(小至5.5mm2)、批量價格低(約1-10美元)等優(yōu)勢。
圖4. Lattice sensAI為開發(fā)人員構建網絡邊緣計算解決方案提供了堅實的基礎
如圖4所示,Lattice sensAI以萊迪思的硬件套件為基礎。為實現(xiàn)這一功能,萊迪思提供全新的模塊化硬件平臺,加速機器學習的原型設計,滿足廣泛的性能和功耗需求。萊迪思還提供基于低功耗iCE40 UltraPlus FPGA的移動開發(fā)平臺(MDP),可用于毫瓦級功耗AI設計。MDP重點包括一系列板載傳感器,如圖像傳感器、麥克風、羅盤、壓力傳感器和陀螺儀等。針對功耗稍高但總體低于1W的應用,萊迪思則提供基于ECP5 FPGA系列的模塊化視頻接口平臺(VIP)。VIP可實現(xiàn)包括MIPI CSI-2、嵌入式DisplayPort(eDP)、HDMI、GigE Vision和USB3在內的廣泛接口的互連。屢獲殊榮的嵌入式視覺開發(fā)套件是萊迪思首批硬件平臺之一。該模塊化平臺包含了一塊CrossLink輸入板、一塊ECP5處理器板和一塊HDMI輸出板。隨著全新eDP和USB3 GigE I/O板的加入,設計人員可輕易置換輸出板以支持其他應用。
除開發(fā)板外,萊迪思還提供新的神經網絡加速器IP核,便于開發(fā)人員在FPGA上進行演示。該軟IP包括一個針對iCE40 UltraPlus FPGA優(yōu)化后的二值神經網絡(BNN)加速器,可讓開發(fā)人員使用iCE40 UltraPlus FPGA通過二值神經網絡算法實現(xiàn)深度學習應用。萊迪思還提供一個卷積神經網絡加速器(CNN)核。該核可靈活設置參數,適用于萊迪思的ECP5 FPGA,它還支持不同量化,讓設計人員實現(xiàn)精度和功耗的平衡。
如圖5所示,Lattice sensAI能讓用戶通過易用的工具流程實現(xiàn)快速設計空間探索和平衡。使用Caffe和TensorFlow等行業(yè)標準框架可實現(xiàn)網絡訓練。然后神經網絡編譯器工具能將經過訓練的網絡模型映射成定點數值表示,支持不同的權重和激活量化。此外,神經網絡編譯器能幫助分析、模擬和編譯不同類型的網絡,從而在萊迪思的CNN/BNN加速器IP核上實現(xiàn),無需RTL設計經驗。然后使用Radiant和Diamond等傳統(tǒng)的FPGA設計軟件工具可實現(xiàn)總體的FPGA設計,包括剩下的預/后處理模塊。
圖5. 通過易用的Lattice sensAI工具流程實現(xiàn)快速設計空間探索和平衡
為簡化常用AI功能的實現(xiàn),Lattice sensAI包含了各類使用該產品硬件平臺、IP核以及軟件工具的參考設計和演示示例,例如:
低功耗人臉檢測——該演示包含適用于網絡邊緣、使用神經網絡模型的、低功耗快速人臉檢測功能。該基于iCE40 UltraPlus FPGA的演示使用了二值權重和激活,能幫助設計人員實現(xiàn)低于1mW功耗的人臉識別。
汽車后裝市場攝像頭——該演示主要針對新興的汽車后裝市場中的攝像頭領域。它展示了設計人員如何通過FPGA本身的并行計算實現(xiàn)速度標志牌檢測。在此示例中,在ECP5 FPGA上實現(xiàn)的卷積神經網絡被訓練讀取過往的交通指示牌信息。訓練完成后,該攝像頭可在經過交通標志時檢測并顯示速度限制。
將聲音指令轉換為系統(tǒng)操作——該演示向設計人員展示了如何將聲音指令轉化為系統(tǒng)操作。這項功耗不足5mW的關鍵詞識別功能使用了集成到iCE40 UltraPlus FPGA的二值神經網絡。示例描述了如何將數字麥克風直連到萊迪思推理引擎,從而使用關鍵詞檢測實現(xiàn)“實時在線”的監(jiān)聽功能。
用于面部跟蹤的目標檢測解決方案——該演示探索了適用于面部跟蹤應用、基于AI實現(xiàn)的目標檢測解決方案。演示描述了使用萊迪思ECP5-85 FPGA進行卷積神經網路加速,其中8個卷積層在8個神經網絡引擎中實現(xiàn)。該方案在萊迪思的嵌入式視覺開發(fā)套件上獨立運行,上電后在90 x 90 RGB輸入下以14fps運行。ECP5的總功耗僅為0.85 W。
定制化設計服務
開發(fā)團隊通常需要設計服務合作伙伴的專業(yè)能力來協(xié)助開發(fā)定制化解決方案。AI市場也不例外。為滿足這種需求,萊迪思與智能工廠、智慧城市、智能汽車、智能家居和移動應用等眾多領域的設計服務伙伴展開了合作。例如,萊迪思經認證的合作伙伴之一VectorBlox是一家基于神經網絡的推理解決方案開發(fā)商。近來,VectorBlox和萊迪思合作在iCE40 UltraPlus FPGA上用不到5000個LUT的神經網絡實現(xiàn)了人臉檢測應用。該解決方案使用了開源RISC V軟處理器和定制加速器,大大降低了功耗,同時縮短了響應時間。
為了更快地在萊迪思FPGA中實現(xiàn)推理解決方案,開發(fā)人員可能需要求助于具備神經網絡設計和訓練相關知識的設計服務專家。這些知識通常需要與Caffe和TensorFlow框架以及傳統(tǒng)的RTL設計經驗相結合。為了讓這些專業(yè)知識更易獲取,萊迪思推出了Lattice sensAI設計服務計劃,推薦設計服務公司,從而加速設計,在萊迪思FPGA上實現(xiàn)深入學習應用。這些公司提供開發(fā)和訓練網絡的專業(yè)知識,且能開發(fā)RTL實現(xiàn)特定應用。
參與該計劃的第三方企業(yè)已經與萊迪思進行合作,展示了其在神經網絡開發(fā)、訓練和硬件實施方面的強大實力。
結論
網絡邊緣計算革命蓄勢待發(fā),只有具備AI系統(tǒng)專長的開發(fā)人員方可駕輕就熟。隨著用戶尋求更高級別的智能,對于靠近IoT數據源的低功耗推理的需求將與日俱增。Lattice sensAI提供靈活、超低功耗、小尺寸和批量價格低的網絡邊緣優(yōu)化解決方案。萊迪思的超低功耗FPGA由廣泛的硬件平臺、軟IP、設計工具、參考設計和第三方專家提供支持,為您打開通往成功最可靠、最快捷的途徑。
評論