完全卷積神經(jīng)網(wǎng)絡IP——DPU “聽濤”系列 SoC
作者/深鑒科技ASIC副總裁 陳忠民
本文引用地址:http://www.biyoush.com/article/201805/379458.htm算法、數(shù)據(jù)和算力并稱為新AI時代三大驅(qū)動力。如何在追求更好性能的同時實現(xiàn)低功耗、低延遲和低成本,逐漸成為擺在所有AI從業(yè)者面前的艱巨挑戰(zhàn)之一。
很多硬件平臺都展示了自身所具備的強大算力,然而當用戶在真正運行一個應用時,卻發(fā)現(xiàn)在讀取數(shù)據(jù)時會產(chǎn)生比較明顯的卡頓現(xiàn)象。這表明,即便用戶在掌握大量數(shù)據(jù)的前提下,依然不能將AI運算單元填滿,從而導致計算硬件的計算效力低下。以谷歌第一代TPU為例,其平均硬件乘法陣列使用率只有28%,這意味著72%的硬件在大部分時間內(nèi)是沒有任何事情可以做的?! ×硗?,如果將完成16位整數(shù)加法能量消耗定義為1,那么將32比特的數(shù)據(jù)從DDR內(nèi)存?zhèn)鬏數(shù)叫酒?,就將花費1萬倍的能量消耗。因此,過大的訪問帶寬增加了數(shù)據(jù)的復用性,導致AI芯片功耗高居不下。
而要提升計算效率、降低功耗,總結起來有三條路徑:首先,優(yōu)化計算引擎,增加計算并行度;其次,優(yōu)化訪存系統(tǒng);第三,利用神經(jīng)網(wǎng)絡稀疏性,實現(xiàn)軟硬件協(xié)同設計。這樣的產(chǎn)品規(guī)劃路線能走得通的一個關鍵因素,就在于用戶在未來的ASIC芯片和之前的FPGA模組上使用的是同樣的編程和軟件開發(fā)環(huán)境,能實現(xiàn)在應用上的無縫切換。
DPU “聽濤”系列 SoC
深鑒科技正式發(fā)布基于自主研發(fā)的人工智能處理器核心DPU 的“聽濤”系列 SoC。該DPU屬于完全卷積神經(jīng)網(wǎng)絡IP,支持傳統(tǒng)的1X1和3X3卷積層,能夠?qū)崿F(xiàn)高效的目標識別和加速。在該架構基礎之上,深鑒科技做出了第一代5X5 FPGA產(chǎn)品,并在攝像頭市場實現(xiàn)了批量出貨。
DPU計算核心采用全流水設計結構設計,內(nèi)部集成了大量的卷積運算器、加法器、非線性Pulling/ReLu之類的運算算子,在確保每一個運算單元都能夠被充分的調(diào)動起來的前提下,可同時支持不同動態(tài)精度的量化方法。像VGG16比較重的應用中,深鑒科技DPU的運算器利用率可以達到85%,對主流算法可以達到50%以上,功耗方面則低出競爭對手一個數(shù)量級。
相比Zynq 7020每瓦230 GOPS的算力、ZU9 2.7 TOPS的峰值算力,將于年中交付的“聽濤”SoC產(chǎn)品的預期功耗約為3 W,峰值算力4 TOPS,考慮到網(wǎng)絡壓縮部分,這個數(shù)字應該再擴大5~10倍。
評論