ISSCC 2025上的存算一體芯片

作者：時(shí)間：2025-02-26 來源：半導(dǎo)體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

當(dāng)前, 邊緣智能計(jì)算設(shè)備部署神經(jīng)網(wǎng)絡(luò)時(shí), 往往需要通過訓(xùn)練微調(diào)以提升網(wǎng)絡(luò)精度。但基于遠(yuǎn)程云端訓(xùn)練的方法存在高延遲、高功耗以及存在隱私泄露風(fēng)險(xiǎn)等缺點(diǎn), 因此, 實(shí)現(xiàn)支持本地訓(xùn)練的存算一體技術(shù)至關(guān)重要。

本文引用地址：http://www.biyoush.com/article/202502/467330.htm

存算一體（Computing-in-Memory, CIM）技術(shù)是一種革命性的計(jì)算架構(gòu)，通過將計(jì)算和存儲(chǔ)功能集成在同一芯片中，解決了傳統(tǒng)馮?諾依曼架構(gòu)中的「內(nèi)存墻」問題。隨著人工智能、邊緣計(jì)算和數(shù)據(jù)中心等領(lǐng)域的快速發(fā)展，存算一體技術(shù)因其高效能、低功耗的特點(diǎn)，成為未來計(jì)算架構(gòu)的重要方向

傳統(tǒng)的存算一體宏僅支持網(wǎng)絡(luò)推理, 無法進(jìn)行網(wǎng)絡(luò)訓(xùn)練所需要的轉(zhuǎn)置運(yùn)算。現(xiàn)有方案無法對(duì)訓(xùn)練中的前向與反向傳播過程中的乘累加電路進(jìn)行有效的復(fù)用, 造成了功耗和面積上的浪費(fèi), 且僅支持定點(diǎn)數(shù)制的模擬存算方案, 在精度上也存在較大的缺陷。如何有效實(shí)現(xiàn)支持轉(zhuǎn)置操作的高能效、高精度的存算一體宏, 是當(dāng)前存算一體領(lǐng)域亟須解決的問題。

針對(duì)以上問題, 集成電路制造技術(shù)全國(guó)重點(diǎn)實(shí)驗(yàn)室張鋒研究員團(tuán)隊(duì)設(shè)計(jì)出可轉(zhuǎn)置的近似精確雙模浮點(diǎn)存算一體宏芯片。

通過提出的循環(huán)權(quán)重映射 SRAM 方案, 芯片可在前向與反向傳播時(shí)復(fù)用乘加單元, 在實(shí)現(xiàn)了轉(zhuǎn)置功能的同時(shí), 相對(duì)之前的轉(zhuǎn)置存算一體宏單元大大提升了能效與算力密度。

通過提出的有符號(hào)定點(diǎn)尾數(shù)編碼方式與向量粒度預(yù)對(duì)齊方案, 芯片實(shí)現(xiàn)了多種浮點(diǎn)、定點(diǎn)數(shù)制的兼容支持, 相較于傳統(tǒng)的粗粒度浮點(diǎn)預(yù)對(duì)齊方案有著更小的精度損失。

通過提出的近似精確雙模的乘加電路設(shè)計(jì), 芯片可在精度要求低的推理環(huán)節(jié)時(shí)開啟近似模式, 從而獲得 12% 的速度提升與 45% 的能耗降低, 可在精度要求高的訓(xùn)練環(huán)節(jié)時(shí)開啟精確模式確保沒有精度損失。

該存算一體宏芯片在 28nm CMOS 工藝下流片, 可支持 BF16、FP8 浮點(diǎn)精度運(yùn)算以及 INT8、INT4 定點(diǎn)精度運(yùn)算。BF16 浮點(diǎn)矩陣-矩陣-向量計(jì)算均值能效達(dá)到 48TFLOP/W, 峰值能效達(dá)到 100TFLOPS/W;FP8 浮點(diǎn)矩陣-矩陣-向量計(jì)算均值能效達(dá)到 192.3TFLOP/W, 峰值能效達(dá)到 400TFLOPS/W。這一研究結(jié)果為應(yīng)用于邊緣端訓(xùn)練的存算一體架構(gòu)芯片提供了新思路。

上述工作以「A 28nm 192.3TFLOPS/W Accurate/Approximate Dual-mode Transpose Digital 6T-SRAM Compute-in-Memory Macro for Floating-Point Edge Training and Inference」為題入選 ISSCC 2025。微電子所博士生袁易揚(yáng)為第一作者, 張鋒研究員與北京理工大學(xué)李瀟然助理教授為通訊作者。該研究成果得到了科技部重點(diǎn)研發(fā)計(jì)劃、國(guó)家自然科學(xué)基金、中國(guó)科學(xué)院戰(zhàn)略先導(dǎo)專項(xiàng)等項(xiàng)目的支持。

圖 1. 28nm 基于外積的數(shù)模混合浮點(diǎn)存算一體宏芯片:(a) 芯片顯微鏡照片,(b) 芯片特性總結(jié)表。

存算一體芯片的適用場(chǎng)景

中早期的存算一體芯片算力較小，從小算力 1TOPS 開始往上走，解決的是音頻類、健康類及低功耗視覺終端側(cè)應(yīng)用場(chǎng)景，AI 落地的芯片性能及功耗問題。比如：AIoT 的應(yīng)用。眾所周知，碎片化的 AIoT 市場(chǎng)對(duì)先進(jìn)工藝芯片的需求并不強(qiáng)烈，反而更青睞低成本、低功耗、易開發(fā)的芯片。存算一體正是符合這一系列要求的芯片。

首先，存算一體技術(shù)能夠減少數(shù)據(jù)在存儲(chǔ)單元和計(jì)算單元之間的移動(dòng)，從而顯著降低能耗。例如，傳統(tǒng)架構(gòu)中，大量的數(shù)據(jù)傳輸會(huì)消耗大量能量，而存算一體架構(gòu)可以避免這種不必要的能耗，使得像電池供電的物聯(lián)網(wǎng)設(shè)備能夠更長(zhǎng)時(shí)間地運(yùn)行。

其次，通過減少數(shù)據(jù)傳輸和提高集成度，存算一體技術(shù)可以降低芯片的制造成本。對(duì)于大規(guī)模部署的 AIoT 設(shè)備來說，成本的降低有助于更廣泛的應(yīng)用推廣。

最后，存算一體芯片還可以大幅提高運(yùn)算速度并節(jié)省空間，而這兩項(xiàng)也是給 AIoT 應(yīng)用帶來助力的兩大因素。

目前云計(jì)算算力市場(chǎng)，GPU 的單一架構(gòu)已經(jīng)不能適應(yīng)不同 AI 計(jì)算場(chǎng)景的算法離散化特點(diǎn)，如在圖像、推薦、NLP 領(lǐng)域有各自的主流算法架構(gòu)。隨著存算一體芯片算力不斷提升，使用范圍逐漸擴(kuò)展到大算力應(yīng)用領(lǐng)域。針對(duì)大算力場(chǎng)景>100TOPS，在無人車、泛機(jī)器人、智能駕駛，云計(jì)算領(lǐng)域提供高性能大算力和高性價(jià)比的產(chǎn)品。此外，存算一體芯片還有一些其他延伸應(yīng)用，比如感存算一體、類腦計(jì)算等。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

新聞中心

ISSCC 2025上的存算一體芯片

存算一體芯片的適用場(chǎng)景

評(píng)論

相關(guān)推薦

技術(shù)專區(qū)