3nm賽道,擠滿了ASIC芯片
最近,市場關(guān)注的兩家 ASIC 企業(yè)都發(fā)布了自家的財(cái)報(bào)。
本文引用地址:http://www.biyoush.com/article/202503/468044.htm博通 2025 財(cái)年第一季度財(cái)報(bào)顯示,營收 149.16 億美元,同比增長 25%,凈利潤 55.03 億美元,同比增長 315%。其中,第一季度與 AI 有關(guān)的收入同比增長 77% 至 41 億美元。
Marvell 預(yù)計(jì)第一財(cái)季銷售額約為 18.8 億美元,同比增長 27%。其中,AI 業(yè)務(wù)收入達(dá) 7 億美元左右,主要是亞馬遜等客戶定制 ASIC 等產(chǎn)品需求增長的帶動。
ASIC,越發(fā)豐富
今年以來,大模型的更迭越發(fā)的激烈。DeepSeek 研究團(tuán)隊(duì)再放大招,公開 NSA 算法。同日,馬斯克發(fā)布 Grok 3 模型,號稱拳打 DeepSeek 腳踢 OpenAI。
DeepSeep 之風(fēng)正盛,將全球科技產(chǎn)業(yè)的重心從訓(xùn)練推向推理階段。由于 DeepSeek 是 MOE 模型,能夠?qū)崿F(xiàn)更低的激活比。算力、內(nèi)存、互聯(lián)原有平衡發(fā)生劇變,新算力架構(gòu)機(jī)會再次進(jìn)入同一起跑線。
這種條件下,定制化芯片 ASIC 似乎越來越適合 AI 時(shí)代。
ASIC 芯片的主要根據(jù)運(yùn)算類型分為了 TPU、DPU 和 NPU 芯片,分別對應(yīng)了不同的基礎(chǔ)計(jì)算功能,也有不同的優(yōu)勢。
TPU
先來看 TPU。TPU 的核心是矩陣乘法單元,它采用脈動陣列架構(gòu),這意味著數(shù)據(jù)以類似心臟跳動的方式在芯片內(nèi)流動。這種架構(gòu)允許高度并行的乘法和加法操作,使得 TPU 能夠在每個(gè)時(shí)鐘周期內(nèi)處理大量的矩陣運(yùn)算。
如果把 TPU 比作一個(gè)工廠,這個(gè)工廠的任務(wù)是把兩堆數(shù)字(矩陣)相乘。每個(gè)工人(脈動陣列的小格子)只需要做簡單的乘法和加法,然后把結(jié)果傳給下一個(gè)工人。這樣,整個(gè)工廠就能高效地完成任務(wù),而且速度比普通的工廠(比如 CPU 或 GPU)快很多。
TPU 的優(yōu)勢是能夠高效處理大規(guī)模矩陣運(yùn)算,支持神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理任務(wù)。所以,更加適合用在數(shù)據(jù)中心的 AI 訓(xùn)練和推理任務(wù),如自然語言處理、計(jì)算機(jī)視覺和語音識別。
DPU
其次來看 DPU。DPU 能夠處理大量的網(wǎng)絡(luò)數(shù)據(jù)包,包括接收、分類、轉(zhuǎn)發(fā)和過濾等。它通過硬件加速引擎(如網(wǎng)絡(luò)處理引擎)來加速網(wǎng)絡(luò)操作,減少 CPU 在網(wǎng)絡(luò)處理上的負(fù)載。
DPU 就像是一個(gè)快遞中心,它負(fù)責(zé)接收包裹(數(shù)據(jù)),快速分揀,然后把包裹送到正確的地方。它有自己的小助手(加速器),這些小助手很擅長處理特定的任務(wù),比如快速識別包裹的地址或者檢查包裹是否完好。這樣,DPU 就能讓整個(gè)快遞系統(tǒng)(數(shù)據(jù)中心)運(yùn)行得更高效。
DPU 的優(yōu)勢是可以卸載 CPU 的部分任務(wù),減少 CPU 的負(fù)擔(dān)。優(yōu)化了數(shù)據(jù)傳輸路徑,從而提高系統(tǒng)的整體效率。所以,它的應(yīng)用場景是數(shù)據(jù)中心的網(wǎng)絡(luò)加速、存儲管理、安全處理等。
NPU
再來看 NPU。NPU 是專門為神經(jīng)網(wǎng)絡(luò)計(jì)算設(shè)計(jì)的芯片,采用「數(shù)據(jù)驅(qū)動并行計(jì)算」的架構(gòu)。它能夠高效執(zhí)行大規(guī)模矩陣運(yùn)算,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)中的卷積操作。
如果把 NPU 比作一個(gè)廚房,這個(gè)廚房有很多廚師(計(jì)算單元),每個(gè)廚師都能同時(shí)做自己的菜(處理數(shù)據(jù))。比如,一個(gè)廚師負(fù)責(zé)切菜,一個(gè)廚師負(fù)責(zé)炒菜,另一個(gè)廚師負(fù)責(zé)擺盤。這樣,整個(gè)廚房就能同時(shí)處理很多道菜,效率非常高。NPU 就是這樣,通過并行處理,讓神經(jīng)網(wǎng)絡(luò)的計(jì)算變得更快。
NPU 的優(yōu)勢就是執(zhí)行 AI 任務(wù)時(shí)功耗較低,適合邊緣設(shè)備。并且,專為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),適合處理深度學(xué)習(xí)任務(wù)。所以,NPU 的應(yīng)用場景是人臉識別、語音識別、自動駕駛、智能相機(jī)等需要進(jìn)行深度學(xué)習(xí)任務(wù)的領(lǐng)域。
簡而言之,TPU 適合深度學(xué)習(xí)、DPU 適合數(shù)據(jù)中心的數(shù)據(jù)管理、NPU 通過并行計(jì)算快速完成神經(jīng)網(wǎng)絡(luò)任務(wù),適合各種 AI 應(yīng)用。
最近,還出現(xiàn)了 LPU,一種專門為處理語言任務(wù)而設(shè)計(jì)的芯片。它的推出就是專門針對語言處理優(yōu)化的架構(gòu)和指令集,能夠更高效地處理文本、語音等數(shù)據(jù),從而加速大語言模型的訓(xùn)練和推理過程。
摩根士丹利預(yù)測 AI ASIC 的總可用市場將從 2024 年的 120 億美元增長到 2027 年的 300 億美元,期間英偉達(dá)的 AI GPU 存在強(qiáng)烈的競爭。
現(xiàn)在,在 ASIC 賽道上的玩家,已經(jīng)越來越多。
擁擠的 ASIC 賽道
3nm ASIC 芯片的賽道上擠滿了大廠。
亞馬遜一直在致力于自研芯片以降低數(shù)據(jù)中心成本。
2022 年,AWS 發(fā)布了 Trainium 1 和 Inferentia 2 芯片。當(dāng)時(shí),Trainium1 在訓(xùn)練方面表現(xiàn)不是很好,更加適合 AI 推理工作。
之后,AWS 又發(fā)布了當(dāng)前的 Trainium 2,采用 5nm 工藝。單個(gè) Trainium 2 芯片提供 650 TFLOP/s 的 BF16 性能。Trn2 實(shí)例的能效比同類 GPU 實(shí)例高出 25%,Trn2 UltraServer 的能效比 Trn1 實(shí)例高三倍。
去年 12 月,亞馬遜宣布要推出全新 Trainium3,采用的是 3nm 工藝。與上代 Trainium2 相比,計(jì)算能力增加 2 倍,能源效率提升 40%,預(yù)計(jì) 2025 年底問世。
據(jù)了解,在 AWS 的 3nm Trainium 項(xiàng)目中,世芯電子(Alchip)和 Marvell 展開了激烈的競爭。
世芯電子(Alchip)是第一家宣布其 3nm 設(shè)計(jì)和生產(chǎn)生態(tài)系統(tǒng)準(zhǔn)備就緒的 ASIC 公司,支持臺積電的 N3E 工藝。Marvell 則在 Trainium 2 項(xiàng)目中已經(jīng)取得了顯著進(jìn)展,并有望繼續(xù)參與 Trainium 3 的設(shè)計(jì)。
當(dāng)前的競爭焦點(diǎn)在于:后端設(shè)計(jì)服務(wù)和 CoWoS 產(chǎn)能分配上??凑l能夠在 Trainium 項(xiàng)目爭取到更多的份額。
之前我們提到的 TPU,以谷歌的 TPU 最具有代表性。谷歌的 TPU 系列芯片從 v1 到最新的 Trillium TPU。TPU 為 Gemini 2.0 的訓(xùn)練和推理提供了 100% 的支持。據(jù)谷歌這邊說,Trillium 的早期客戶 AI21 Labs 認(rèn)為是有顯著改進(jìn)的。AI21 Labs 首席技術(shù)官 Barak Lenz 表示:「Trillium 在規(guī)模、速度和成本效益方面的進(jìn)步非常顯著。」現(xiàn)在谷歌的 TPU v7 正在開發(fā)階段,同樣采用的是 3nm 工藝,預(yù)計(jì)量產(chǎn)時(shí)間是在 2026 年。
據(jù)產(chǎn)業(yè)鏈相關(guān)人士透露,谷歌 TPU 芯片去年的生產(chǎn)量已經(jīng)達(dá)到 280 萬到 300 萬片之間,成為全球第三大數(shù)據(jù)中心芯片設(shè)計(jì)廠商。
從合作對象來說,谷歌和博通始終是在深度合作的。谷歌從 TPU v1 開始,就和博通達(dá)成了深度合作,它與博通共同設(shè)計(jì)了迄今為止已公布的所有 TPU,而博通在這方面的營收也因谷歌水漲船高。
微軟在 ASIC 方面也在發(fā)力。Maia 200是微軟為數(shù)據(jù)中心和 AI 任務(wù)定制的高性能加速器,同樣采用 3nm 工藝,預(yù)計(jì)在 2026 年進(jìn)入量產(chǎn)階段,至于現(xiàn)在 Maia 100,也是專為在 Azure 中的大規(guī)模 AI 工作負(fù)載而設(shè)計(jì)。支持大規(guī)模并行計(jì)算,特別適合自然語言處理(NLP)和生成式 AI 任務(wù)。從現(xiàn)在的信息來看,這款產(chǎn)品微軟選擇和 Marvell 合作。
LPU 與 GPU 對比
LPU 與 GPU 對比
早在今年 1 月就有消息傳出,美國推理芯片公司Groq 已經(jīng)在自己的 LPU 芯片上實(shí)機(jī)運(yùn)行 DeepSeek,效率比最新的 H100 快上一個(gè)量級,達(dá)到每秒 24000token。值得關(guān)注的是,Groq 曾于 2024 年 12 月在沙特阿拉伯達(dá)曼構(gòu)建了中東地區(qū)最大的推理集群,該集群包括了 19000 個(gè) Groq LPU。
Open AI首款 AI ASIC 芯片即將完成,會在未來幾個(gè)月內(nèi)完成其首款內(nèi)部芯片的設(shè)計(jì),并計(jì)劃送往臺積電進(jìn)行制造,以完成流片(taping out)。最新消息是,OpenAI 會在 2026 年實(shí)現(xiàn)在臺積電實(shí)現(xiàn)量產(chǎn)的目標(biāo)。
ASIC 真的劃算嗎?
谷歌、AWS、Open AI 都在加大對自研 ASIC 的投入。那么,ASIC 真的劃算嗎?
先從性能上來看,ASIC 是為特定任務(wù)定制的芯片,其核心優(yōu)勢在于高性能和低功耗。在同等預(yù)算下,AWS 的 Trainium 2 可以比英偉達(dá)的 H100 GPU 更快速完成推理任務(wù),且性價(jià)比提高了 30%~40%。Trainium3 計(jì)劃于 2025 年下半年推出,計(jì)算性能提高 2 倍,能效提高 40%。
并且,GPU 由于架構(gòu)的特性,一般會在 AI 計(jì)算中保留圖形渲染、視頻編解碼等功能模塊,但在 AI 計(jì)算中這些模塊大部分處于閑置狀態(tài)。有研究指出,英偉達(dá) H100 GPU 上有大約 15% 的晶體管是未在 AI 計(jì)算過程中被使用的。
從成本上來看,ASIC 在大規(guī)模量產(chǎn)時(shí),單位成本顯著低于 GPU。ASIC 在規(guī)模量產(chǎn)的情況下可以降至 GPU 的三分之一。但一次性工程費(fèi)用 NRE(Non-Recurring Engineering)非常高。
以定制一款采用 5nm 制程的 ASIC 為例,NRE 費(fèi)用可以高達(dá) 1 億至 2 億美元。然而一旦能夠大規(guī)模出貨,NRE 費(fèi)用就可以很大程度上被攤薄。
此前有業(yè)內(nèi)人士分析,中等復(fù)雜程度的 ASIC 盈虧平衡點(diǎn)在 10 萬片左右,這對于很多廠商來說已經(jīng)是遙不可及。
但對于大規(guī)模部署的云計(jì)算大廠或 AI 應(yīng)用提供商,ASIC 的定制化優(yōu)勢能夠顯著降低運(yùn)營成本,從而更快地實(shí)現(xiàn)盈利。
算力走向推理,ASIC 的需求只多不少
在溫哥華 NeurIPS 大會上,OpenAI 聯(lián)合創(chuàng)始人兼前首席科學(xué)家 Ilya Sutskever 曾作出「AI 預(yù)訓(xùn)練時(shí)代將終結(jié)」的判斷。
巴克萊的一份報(bào)告預(yù)計(jì),AI 推理計(jì)算需求將快速提升,預(yù)計(jì)其將占通用人工智能總計(jì)算需求的 70% 以上,推理計(jì)算的需求甚至可以超過訓(xùn)練計(jì)算需求,達(dá)到后者的 4.5 倍。
英偉達(dá) GPU 目前在推理市場中市占率約 80%,但隨著大型科技公司定制化 ASIC 芯片不斷涌現(xiàn),這一比例有望在 2028 年下降至 50% 左右。
不過,在博通的觀察中,AI 訓(xùn)練仍然是會占據(jù)主流。博通 CEO 陳福陽最近表示:「公司把推理作為一個(gè)獨(dú)立的產(chǎn)品線,推理與訓(xùn)練芯片的架構(gòu)非常不同。公司預(yù)計(jì)三個(gè)客戶未來需求市場總量將達(dá) 600 億~900 億美元,這個(gè)需求總量既包含了訓(xùn)練,又包含了推理,但其中訓(xùn)練的部分更大?!?/p>
對于第二季度來講,博通對于 ASIC 的預(yù)期仍舊保持樂觀。預(yù)計(jì)第二季度博通的 AI 半導(dǎo)體收入將繼續(xù)保持強(qiáng)勁增長勢頭,達(dá)到 44 億美元。
Marvell 在電話會議上,同樣也展示了對于 ASIC 的信心。透露其定制的ARM CPU,將在客戶的數(shù)據(jù)中心中得到更廣泛的應(yīng)用。并且定制的人工智能 XPU,其表現(xiàn)也非常出色,未來將有大量的量產(chǎn)。
評論