國產(chǎn)AI芯片之爭才剛剛開始

作者：時間：2023-07-04 來源：半導體產(chǎn)業(yè)縱橫

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

近日，芯片巨頭 AMD 推出全新 AI GPU MI300 系列芯片，與英偉達在 AI 算力市場展開競爭。

本文引用地址：http://www.biyoush.com/article/202307/448271.htm

AMD 首席執(zhí)行官蘇姿豐介紹稱，MI300X 提供的高帶寬內(nèi)存（HBM）密度是英偉達 H100 的 2.4 倍，HBM 帶寬是競品的 1.6 倍。華爾街分析師也普遍認為，AMD 的這款芯片將對目前掌握 AI 芯片市場逾八成份額的英偉達構(gòu)成有力挑戰(zhàn)，這款 MI300X 加速器，有望替代英偉達的同類產(chǎn)品。

然而，市場對本次新品的反響似乎并不熱烈。截至隔夜收盤，AMD 股價下跌超 3.6%，被挑戰(zhàn)的英偉達不跌反漲，股價單日大漲 3.90%。

至于當日 AMD 股價下跌的原因，可能包括英偉達在 AI 發(fā)展方面更為成熟，而 AMD 公司的新品仍有待市場驗證。此外，其客戶更關(guān)心的是價格問題。作為參考，由于供需緊張，英偉達 H100 的價格已經(jīng)達到 4 萬美元/枚，而 AMD 沒有披露 MI300X 的定價，難以與英偉達 H100 形成對比。

躥紅的英偉達

2022 年 ChatGPT 橫空出世，把 AI 行業(yè)的發(fā)展推向了一個新的高潮，生成式 AI 需要基于海量的數(shù)據(jù)進行推理訓練，高算力的 GPU 加速卡自然也成了市場的搶手貨。乘著 AI 的東風，英偉達坐上了「算力霸主」的寶座。

據(jù)悉，微軟用幾億美元，耗費上萬張英偉達 A100 芯片打造超算平臺，只為給 ChatGPT 和新版必應(yīng)提供更好的算力。不僅如此，微軟還在 Azure 的 60 多個數(shù)據(jù)中心部署了幾十萬張 GPU，用于 ChatGPT 的推理。特斯拉 CEO 馬斯克也購買了約 1 萬個 GPU，用于公司的兩個數(shù)據(jù)中心之一。除此之外，像亞馬遜、阿里、百度等眾多科技公司都在競相部署 AI 芯片。

供需的極度不平衡讓英偉達的 GPU 一芯難求，開啟漲價。據(jù)市場消息人士透露，英偉達的 A100 和 H100 AI GPU 訂單還在不斷增加，A800 和 H800 的售價已上漲 40%，新訂單交期可能要延長到 12 月份。

在炙手可熱的 AI 浪潮下，英偉達賺得盆滿缽滿。英偉達表示，其截至 7 月的本季度銷售額預計將達 110 億美元，較華爾街之前的估計高出 50% 以上。不過，作為 AI 的基礎(chǔ)設(shè)施，算力芯片環(huán)節(jié)的「一家獨大」顯然不是有利于行業(yè)長遠發(fā)展的生態(tài)，市場迫切需要引入新的競爭者，AMD 的出現(xiàn)或許有望「分擔」AI 市場的壓力。

與此同時，中國本土 AI 應(yīng)用和 AI 芯片初創(chuàng)公司也隨著 AI 的熱潮和風投的關(guān)注而遍地開花。那么，中國的 AI 芯片研究進展如何了？哪些公司可以脫穎而出？

國產(chǎn) AI 芯片進展幾何？

中國主要的 AI 芯片公司有寒武紀、華為昇騰、海光信息、沐曦科技、壁仞科技、燧原科技、天數(shù)智芯等，隨著 AI 應(yīng)用的普及和成效開始凸顯，國產(chǎn) AI 芯片正迎來全面爆發(fā)和增長，多家 AI 芯片獨角獸也將慢慢浮出水面。

寒武紀

在云端產(chǎn)品線，寒武紀已經(jīng)推出了四代芯片產(chǎn)品，分別為：思元 100、思元 270、思元 290（車載）以及思元 370 系列，用以支撐在云計算和數(shù)據(jù)中心場景下復雜度和數(shù)據(jù)吞吐量高速增長的人工智能處理任務(wù)。此外，寒武紀還有一款在研產(chǎn)品思元 590，尚未正式發(fā)布，并且最有看頭的便是寒武紀的思元 590。

該芯片采用 MLUarch05 全新架構(gòu)，實測訓練性能較在售旗艦產(chǎn)品思元 290 系列有大幅提升，有望成為國產(chǎn)先進 AI 算力芯片。據(jù)悉，思元 590 整體算力綜合性能大約是 A100 的 70%，其有望在部分場景替代英偉達 A100。

不過，思元 590 的指令兼容性相對較差，后續(xù)可能影響部署。值得注意的是，其下一代產(chǎn)品的性能指標大約是 A100 的 1.5 倍，但同樣面臨軟件生態(tài)影響，以及供應(yīng)鏈問題。

華為昇騰

華為昇騰主要包括昇騰 910 和昇騰 310 兩款處理器，采用自家的達芬奇架構(gòu)。昇騰 310 主打面向邊緣場景的低功耗 AI 處理器，昇騰 910 是一款面向云端和數(shù)據(jù)中心的高性能 AI 處理器，可以支持超大規(guī)模的 AI 訓練任務(wù)，表現(xiàn)十分優(yōu)秀。

據(jù)華為發(fā)布的信息，實際測試結(jié)果表明，在算力方面，昇騰 910 完全達到了設(shè)計規(guī)格，即：半精度 (FP16）算力達到 256 Tera-FLOPS，整數(shù)精度 (INT8) 算力達到 512 Tera-OPS，重要的是，達到規(guī)格算力所需功耗僅 310W，明顯低于設(shè)計規(guī)格的 350W。

據(jù)悉，在實際應(yīng)用過程中，昇騰 910 的處理速度比業(yè)界同類產(chǎn)品快 80% 以上。徐直軍表示，昇騰 910 總體技術(shù)表現(xiàn)超出預期，作為算力最強 AI 處理器，當之無愧。

不過昇騰 910 也有著很大的局限性。昇騰 910 依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植，通用性相對要差一些，比如昇騰不能做 GPT-3，因為昇騰 910 不支持 32 位浮點，而目前大模型訓練幾乎都要使用 32 位的浮點。

沐曦科技

沐曦公司旗下主要有曦思和曦云兩款 AI 芯片，其中曦云 MXC 系列是該公司研發(fā)的用于 AI 訓練及通用計算的 GPU 芯片。

MXC500 是沐曦對標 A100/A800 的算力芯片，F(xiàn)P32 浮點性能可達 15TFlops，作為對比的是 A100 顯卡 FP32 性能 19.5 TFLOPS。除了性能接近之外，MXC500 的完整軟件棧（MXMACA）還兼容 CUDA，預計年底規(guī)模出貨。

此外，沐曦的團隊背景經(jīng)驗十分豐富，其一些核心人員曾參與 AMD 的 MI100、MI200 產(chǎn)品開發(fā)，這都是 AMD 目前最主流的 GPGPU 產(chǎn)品。

海光信息

海光信息是一個潛力股，拿海光 DCU（協(xié)處理器）系列深算一號和英偉達的 A100、AMD 的 MI100 來對比，其很多基本指標上都達到國際同類高端產(chǎn)品的水平，雖然在整體性能上依然有明顯差距，但在國產(chǎn)替代的背景下其實已經(jīng)相當優(yōu)秀，發(fā)展?jié)摿薮蟆?/span>

不過，海光信息若要使用新一代 GPGPU 架構(gòu)還需要 AMD 授權(quán)，存在迭代問題。

壁仞科技

壁仞的 BR100 發(fā)布時，憑借其超高的參數(shù)與性能引起了強烈的轟動。

參數(shù)方面，BR100 系列基于 7nm 制程工藝打造，擁有 770 億個晶體管。由壁仞科技自主原創(chuàng)的芯片架構(gòu)開發(fā)，采用 Chiplet（芯粒）、2.5D CoWoS 等先進的設(shè)計、制造與封裝技術(shù)，可搭配 64GB HBM 2E 顯存，超 300MB 片上緩存，支持 PCIe 5.0、CXL 互聯(lián)協(xié)議等。

性能是 BR100 最具亮點的地方，擁有 1024 TOPS INT8，512 TFLOPS BF16、256 TFLOPS TF32+、128 TFLOPS FP32，可實現(xiàn) 2.3TB/s 的外部 I/O 帶寬，支持 64 路編碼、512 路解碼等，號稱在 FP32（單精度浮點）、INT8（整數(shù)，常用于人工智能推理）等維度，均超越了國際廠商最新旗艦。

BR100 系列通用 GPU 芯片支持云端訓練和推理，目前已經(jīng)到了收尾階段，預計將在今年流片。壁仞科技的第二款芯片已經(jīng)開始啟動架構(gòu)設(shè)計，之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計算的 GPU 芯片。

不過，BR100 還未有產(chǎn)品出來，其參數(shù)至今停留在實驗室階段，屆時商用實測性能難以衡量。

阿里平頭哥

阿里的 AI 芯片，與 GPU 架構(gòu)有著很大的不同，因為他們做的完全是基于 AI 算法優(yōu)化的架構(gòu)。

阿里曾表示，含光 800 是當時全球最強的 AI 芯片，性能和能效比均為第一，1 顆含光 800 的算力相當于 10 顆 GPU。

含光 800 芯片在業(yè)界標準的 ResNet-50 測試中，推理性能達到 78563 IPS，比目前業(yè)界最好的 AI 芯片性能高 4 倍；能效比 500 IPS/W，是第二名的 3.3 倍。

在業(yè)界，平頭哥發(fā)布的這款芯片也很被看好。

燧原科技

燧原科技，是少有的云端 AI 芯片創(chuàng)業(yè)公司，其完成對 AI 訓練芯片的二次迭代，僅用了三年時間，主要產(chǎn)品是「邃思」。

據(jù)介紹，燧原科技發(fā)布的邃思 2.0 的尺寸達到 57.5 毫米×57.5 毫米（面積為 3306mm2），達到了日月光 2.5D 封裝的極限，與上代產(chǎn)品一樣采用格羅方德 12nm FinFET 工藝，內(nèi)部共整合 9 顆芯片，單精度 FP32 算力為 40TFLOPS，單精度張量 TF32 算力為 160TFLOPS，整數(shù)精度 INT8 算力為 320TOPS。相比之下，英偉達基于 Ampere 架構(gòu)的 A100 GPU 的單精度浮點計算能力僅為 19.5TFLOPS。

昆侖芯

百度昆侖芯片是百度自主研發(fā)的云端 AI 通用芯片。在 2018 年 7 月舉辦的百度 AI 開發(fā)者大會上，百度公司董事長兼 CEO 李彥宏正式宣布，百度自研 AI 芯片命名為昆侖。百度昆侖 1 于 2019 年成功流片，采用三星 14nm 制程工藝，目前量產(chǎn)超過 2 萬片，在百度搜索引擎和百度智能云生態(tài)伙伴等場景廣泛部署。百度昆侖 2 于 2021 年下半年實現(xiàn)量產(chǎn)，采用 7nm 先進工藝，其性能比百度昆侖 1 再提升 3 倍。據(jù)悉，百度正計劃在年底做第三款昆侖芯片。

天數(shù)智芯

天數(shù)智芯主要包括天垓 100 和智鎧 100 兩款 AI 芯片，天垓 100 是一款基于 GPGPU 架構(gòu)芯片的高性能云端通用并行計算卡，據(jù)介紹，天垓 100 從底層硬件到上層軟件都是獨立設(shè)計開發(fā)，不走購買國外 GPU IP 的捷徑，確保了完全自主知識產(chǎn)權(quán)。隨后天數(shù)智芯又發(fā)布了其第二款產(chǎn)品「智鎧 100」，這款芯片被譽為「鎮(zhèn)館之寶」，吸引了眾多行業(yè)用戶的關(guān)注。

天數(shù)智芯 GPGPU 計算芯片主要針對云端 AI 訓練+推理和云端通用計算，是國內(nèi)難得的兼容 CUDA 等異構(gòu)計算生態(tài)的數(shù)據(jù)中心高端計算芯片。

只靠算力，無法做英偉達的 PlanB

英偉達的強不只是體現(xiàn)在硬件產(chǎn)品上，在軟件平臺中，英偉達也有自己的護城河。

CUDA 就是英偉達推出的基于 GPU 的并行計算平臺和編程模型，可以用來加速大規(guī)模數(shù)據(jù)并行計算，使得 GPU 可以用于更加廣泛的科學計算和工程計算等領(lǐng)域。CUDA 的良好生態(tài)系統(tǒng)吸引了眾多學術(shù)機構(gòu)和高性能計算中心的關(guān)注和使用，也為英偉達提供了強有力的市場競爭優(yōu)勢?，F(xiàn)在 AMD 也在做同樣的事情，只是英偉達已經(jīng)占了先發(fā)優(yōu)勢，AMD 搭建起來可能會更為艱難。

CUDA 的重要性不言而喻，但是提供 CUDA 兼容層，需要廠商具備足夠的研發(fā)實力，上文提到的與 CUDA 兼容的有沐曦、海光、壁仞、天數(shù)智芯等公司，因此是否兼容 CUDA 也成為衡量 AI 芯片公司的標的之一。

至于是否一定要兼容 CUDA，業(yè)界有著不同見解。專家稱，在小模型上 CUDA 仍然很重要，但在大模型上它的地位越來越輕了。如果未來中國市場以小模型為主，那 CUDA 還是有很大的影響力，而如果是以大模型為主，對于 CUDA 的依賴就越來越小了。

總而言之，重視軟件配適開發(fā)至關(guān)重要。

對于建立國產(chǎn) IT 系統(tǒng)的行動建議包括：設(shè)置合理國產(chǎn)系統(tǒng)及芯片性能要求和驗證目的，從非關(guān)鍵應(yīng)用開始嘗試導入部分國產(chǎn)芯片；加強軟件配適開發(fā)，確保軟件對不同系統(tǒng)的兼容性、穩(wěn)定性和運營性能；建立加強對國內(nèi)基礎(chǔ) IT 軟硬件廠商的投資，確保廠商對產(chǎn)品開發(fā)計劃的影響力；優(yōu)先考慮國內(nèi)供應(yīng)鏈和成熟平臺，積極采用半導體創(chuàng)新技術(shù)。

未來與英偉達的差距定然會逐步縮小

目前芯片已經(jīng)成為半導體行業(yè)中最具有發(fā)展?jié)摿Φ念I(lǐng)域之一，AI 芯片作為推動芯片行業(yè)發(fā)展的核心市場，其行業(yè)價值無法估計，隨著 AI 芯片技術(shù)的逐漸成熟，其應(yīng)用場景逐步滲透到各類智能終端領(lǐng)域中，在我國科技發(fā)展中占據(jù)越來越重要的地位。

根據(jù) Gartner 的數(shù)據(jù)，在目前全球半導體產(chǎn)業(yè)中，中國 GPU 的全球市場占比規(guī)模僅 1%。2022 年，在全球 6000 億美元的半導體采購中，中國企業(yè)的芯片采購規(guī)模達到 1490 億美元，占到四分之一；跨國企業(yè)的中國工廠芯片采購規(guī)模達到 2130 億美元，占比 35%。

中國的芯片產(chǎn)業(yè)還有著巨大的發(fā)展?jié)摿?。未來，中國芯片產(chǎn)業(yè)將繼續(xù)加大投資，國內(nèi)企業(yè)與英偉達的距離也一定會逐步縮小。