AI算力芯片天下一分為四,中國實力漸顯
近年來「算力」逐漸成為學(xué)術(shù)界、產(chǎn)業(yè)界、公眾的熱詞,算力、算力網(wǎng)絡(luò)、算力指數(shù)、算力經(jīng)濟(jì)、東數(shù)西算、東數(shù)西存等新名詞不斷涌現(xiàn)。
本文引用地址:http://www.biyoush.com/article/202312/453950.htm那么到底什么是算力?「算力」又如何成為近幾年的熱詞?
什么是算力?
算力是設(shè)備通過處理數(shù)據(jù),實現(xiàn)特定結(jié)果輸出的計算能力?,F(xiàn)階段算力主要可分為基礎(chǔ)算力、智能算力和高性能計算算力三種類型。
基礎(chǔ)算力主要由基于 CPU 芯片的服務(wù)器提供,面向基礎(chǔ)通用計算。智能算力主要基于 GPU、FPGA、ASIC 等芯片的加速計算平臺提供,面向人工智能計算。高性能計算算力主要基于融合 CPU 芯片和 GPU 芯片打造計算集群,主要面向科學(xué)工程計算等應(yīng)用場景。
算力需求主要分為兩部分,包括訓(xùn)練算力和推理算力。訓(xùn)練芯片用來訓(xùn)練大模型,算力和精度要求高。推理芯片是在已經(jīng)完成訓(xùn)練的模型上,根據(jù)輸入數(shù)據(jù)反饋輸出結(jié)果,算力和精度要求都低很多。
2023 年,AI 大模型掀起的新一輪人工智能應(yīng)用熱潮,對智能算力的需求增長尤其顯著?!?a class="contentlabel" href="http://www.biyoush.com/news/listbylabel/label/AI">AI 算力產(chǎn)業(yè)鏈全景梳理報告》顯示,2023 年—2027 年,全球大模型訓(xùn)練端峰值算力需求量的年復(fù)合增長率有望達(dá)到 78.0%。全球大模型云端推理的峰值算力需求量的年復(fù)合增長率有望高達(dá) 113%。
據(jù)悉,人工智能計算市場以通用性為主,GPU 占到 90% 的市場份額。訓(xùn)練算力相關(guān)設(shè)備主要是英偉達(dá)的 A100 和 H100;推理算力相關(guān)設(shè)備主要是英偉達(dá) T4 卡。
算力的通用選擇
A100 和 H100
A100 計算性能卓越,其強(qiáng)大的 GPU 架構(gòu)和多個 Tensor Core 單元支持大規(guī)模深度學(xué)習(xí)任務(wù)所需的高性能計算,尤其在處理復(fù)雜矩陣運算方面表現(xiàn)出色。其次,A100 提供高達(dá) 80 GB 的顯存容量,能夠滿足大型神經(jīng)網(wǎng)絡(luò)所需的大內(nèi)存空間,而且通過 NVLink 技術(shù),多個 A100 GPU 可以共享大內(nèi)存,支持更大規(guī)模的模型訓(xùn)練。
此外,A100 支持高速的 PCIe Gen4 接口和 NVLink 技術(shù),并集成了英偉達(dá)的 Tensor Core 技術(shù),可以加速矩陣乘法和累積運算,實現(xiàn)了快速的數(shù)據(jù)傳輸和模型訓(xùn)練。A100 還得到了主流深度學(xué)習(xí)框架的廣泛支持和優(yōu)化,開發(fā)者可以充分發(fā)揮其性能優(yōu)勢,進(jìn)行大模型的訓(xùn)練和推斷,而無須擔(dān)心兼容性問題。
綜合來看,A100 GPU 提供了卓越的計算性能、大內(nèi)存容量、高速的數(shù)據(jù)傳輸和深度學(xué)習(xí)加速技術(shù),使其成為大模型訓(xùn)練的理想選擇。
H100 是英偉達(dá)的第 9 代數(shù)據(jù)中心 GPU,旨在為大規(guī)模 AI 和 HPC 實現(xiàn)相比于上一代英偉達(dá) A100 Tensor Core GPU 數(shù)量級的性能飛躍。據(jù)悉,綜合 H100 中所有新的計算技術(shù)進(jìn)步的因素,H100 的計算性能比 A100 提高了約 6 倍,進(jìn)一步,可提升 AI 和 HPC 工作負(fù)載的強(qiáng)大擴(kuò)展能力,顯著提升架構(gòu)效率。
T4
英偉達(dá) T4 是一款適用于數(shù)據(jù)中心和云計算的 GPU 加速器。它采用了 Turing 架構(gòu),擁有 16GB GDDR6 顯存和 320 個 Tensor Cores。T4 主要針對深度學(xué)習(xí)推理任務(wù)進(jìn)行了優(yōu)化,支持多種精度計算,包括 INT4、INT8、FP16 和 FP32。由于其高效的性能和低功耗特性,T4 非常適合用于圖像識別、語音識別、自然語言處理等深度學(xué)習(xí)應(yīng)用。對于那些需要快速進(jìn)行大規(guī)模圖像處理和深度學(xué)習(xí)推理的場景,T4 是一種理想的選擇。
從如今的情況來看,GPU 已成為當(dāng)前 AI 算力的核心硬件,英偉達(dá)也成為各大模型廠商的通用解。近日英偉達(dá)再度迭代 AI 芯片產(chǎn)品,不斷強(qiáng)化自己在行業(yè)內(nèi)的「統(tǒng)治力」。
11 月 13 日,英偉達(dá)宣布在 AI 芯片 H100 的基礎(chǔ)上,發(fā)布新一代 H200 芯片?;?Meta 的 Llama 2 大模型的測試表明,H200 的輸出速度大約是 H100 的兩倍。H200 在推理速度上也幾乎達(dá)到了 H100 的兩倍,帶寬增加了 2.4 倍。
相比上一代 A100 和 H100,H200 主要變化在于內(nèi)存,成為首款采用 HBM3e(高頻寬存儲器)的 GPU,使得帶寬從 H100 的每秒 3.35TB 提高至 4.8TB,提高 1.4 倍,存儲器總?cè)萘繌?H100 的 80GB 提高至 141GB,容量提高 1.8 倍,同時推理能耗大幅降低。
布局大模型,算力不夠用
在席卷全球的 AI 熱潮中,一個不容忽視的潛在阻力是算力的不足。根據(jù)今年 8 月 GPU Utils 更新的關(guān)于英偉達(dá) H100 顯卡供需現(xiàn)狀的分析文章顯示,保守估計,H100 的供給缺口達(dá)到 43 萬張。
具體到各家的需求數(shù)據(jù),GPUUtils 寫道:OpenAI 可能需要 5 萬張,Inflection 要 2.2 萬張,Meta 需要 2.5 萬張;大型云廠商例如 Azure、Google Cloud、AWS、Oracle 等每家可能需要 3 萬張;Lambda 和 CoreWeave 以及其他私有云可能總共需要 10 萬張;Anthropic、Helsing、Mistral、Character,每家可能要 1 萬張;到這里,需求量就已經(jīng)達(dá)到了約 43.2 萬張 H100,以每塊約 3.5 萬美元計算,GPU 的價值約為 150 億美元。
而這,還不包括像字節(jié)、百度、騰訊這樣需要大量 H800 的中國公司,以及一些需求正盛的金融公司:如 Jane Street、JP Morgan、Two Sigma、Citadel 等金融巨頭,正從數(shù)百臺 A100 或 H100 開始部署,逐步增加至數(shù)千張 A100/H100。
如今大模型之戰(zhàn)愈演愈烈,大模型公司想更快推出模型和 AI 應(yīng)用,就必須大量購入英偉達(dá)的芯片??墒怯ミ_(dá)也沒有辦法在短期內(nèi)釋放出這么多的 A100/H100,因為英偉達(dá) A100/H100 GPU 完全由臺積電代工生產(chǎn),并使用臺積電先進(jìn) CoWoS 封裝技術(shù)。要知道臺積電先進(jìn) CoWoS 封裝產(chǎn)能是有限的。市場在爆發(fā)式增長,倘若英偉達(dá)按照上一年計劃制定的供給,則遠(yuǎn)不能滿足蓬勃的市場需求,因此搶不到芯片的云廠商、互聯(lián)網(wǎng)巨頭不得不高價搶購。
如此一來。大模型公司尚未賺到錢,英偉達(dá)倒是賺得盆滿缽滿。英偉達(dá)對高算力芯片的壟斷,也成為硅谷眾多大廠的心病。它們一方面離不開英偉達(dá),另一方面又不想永遠(yuǎn)被英偉達(dá)掣肘。因此不少大模型公司都在想辦法擺脫英偉達(dá)的壟斷,有自研能力的紛紛自研,沒有自研能力的創(chuàng)造條件。
自研芯片的三大云廠商
微軟:Maia 100
11 月 15 日,微軟在西雅圖召開的 Ignite 大會上發(fā)布了兩款芯片,一款面向 AI,一款面向云計算。微軟發(fā)布的這款名為 Maia 100 的人工智能芯片,旨在與英偉達(dá)備受追捧的 AI 圖形處理單元展開競爭。第二款則是 Cobalt 100 Arm 芯片,面向通用計算任務(wù)并將與英特爾處理器爭奪市場。
根據(jù)微軟 CEO 納德拉的介紹,Maia 100 是一款 AI 加速芯片,基于 ARM 架構(gòu)設(shè)計,主要用于云端訓(xùn)練、推理以及 Azure 的高負(fù)載云端運算。不過納德拉否認(rèn)了將向云計算客戶供貨的傳聞,這款自研芯片將優(yōu)先滿足微軟自身的需求,并在合適的時機(jī)向合作伙伴和客戶開放。
Azure 芯片部門負(fù)責(zé)人、微軟副總裁拉尼·博卡爾則補(bǔ)充道,Maia 100 已經(jīng)在 Bing 和 office 的人工智能套件上測試。合作伙伴 openAI 也開始使用這款芯片進(jìn)行測試部分產(chǎn)品和功能,比如 GPT 3.5 Turbo。至于測試的效果如何,微軟暫時還沒有給出具體報告。但納德拉和博卡爾強(qiáng)調(diào) Maia 100 可以加快數(shù)據(jù)處理速度,尤其是在語音和圖像識別方面。
提速的關(guān)鍵,自然是算力。為了提升算力,微軟也是下了血本:采用臺積電的 5nm 制程工藝,晶體管數(shù)量達(dá)到 1050 億個。不過橫向?qū)Ρ鹊脑?,Maia 100 和英偉達(dá)、AMD 等大廠的產(chǎn)品在參數(shù)上還有很大差距。
作為全球頭部云供應(yīng)商之一,微軟是最后一家為云和人工智能提供定制芯片的公司。
谷歌:TPU v5e
2016 年,谷歌就公布了其初代 AI 張量處理單元(TPU),隨后在 2017 年作為 Google Cloud 基礎(chǔ)設(shè)施「Cloud TPU」推出,通常使用 FP32 和 FP16 等精度數(shù)據(jù),如果降低 ML 的精度/DL 計算到 8 位(INT8)等,則將使得在 ML/DL 中的處理能力得到進(jìn)一步提高。此外,通過僅合并專門用于 ML/DL 的算術(shù)單元,谷歌減少了 CPU 和 GPU 所需的高速緩存、分支預(yù)測和亂序執(zhí)行等復(fù)雜算術(shù)單元,可以以低功耗執(zhí)行專門針對 ML/DL 的計算。
之后,谷歌 TPU 又經(jīng)過了數(shù)次迭代,比如第二代 TPU v2 于 2017 年發(fā)布,第三代 TPU v3 于 2018 年發(fā)布,第四代 TPU v4 于去年發(fā)布,目前已開始服務(wù)和提供。
在今年 8 月的 Cloud Next 2023 大會上,谷歌公開了 Google Cloud 新款自研 AI 芯片 Cloud TPU v5e。TPU v5e 是谷歌專為提升大中型模型的訓(xùn)練、推理性能以及成本效益所設(shè)計。TPU v5e Pods 能夠平衡性能、靈活性和效率,允許多達(dá) 256 個芯片互連,聚合帶寬超過 400 Tb/s 和 100 petaOps 的 INT8 性能,使對應(yīng)的平臺能夠靈活支持一系列推理和訓(xùn)練要求。
從技術(shù)層面上來看,與英偉達(dá) A100/H100 等通用型 GPU 相比,谷歌 TPU 設(shè)計初衷正是專注于深度學(xué)習(xí)領(lǐng)域,尤其是全面加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理效率。英偉達(dá)的 A100 和 H100,它們屬于廣義上的通用型 GPU,而不僅僅局限于深度學(xué)習(xí)和人工智能領(lǐng)域。這些 GPU 具有通用計算能力,適用于多種計算工作負(fù)載,包括但不限于:高性能計算、深度學(xué)習(xí)以及大規(guī)模數(shù)據(jù)分析。
與英偉達(dá)通用型 GPU 相比,谷歌 TPU 采用低精度計算,在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運算速度,尤其對于中型 LLM 設(shè)計者來說完全夠用,因此他們可能不需要依賴高性能的英偉達(dá) A100/H100。同時,TPU 使用了脈動陣列等設(shè)計來優(yōu)化矩陣乘法與卷積運算。谷歌 TPU 追求專注于 AI 訓(xùn)練和推理,因此精簡化部分設(shè)計架構(gòu),這也是 TPU 功耗、內(nèi)存帶寬和 FLOPS 都明顯低于英偉達(dá) H100 的部分原因。
11 月 8 日, 谷歌公布擴(kuò)大同 AI 安全和研究初創(chuàng)公司 Anthropic 的合作伙伴關(guān)系,Anthropi 將運用谷歌新一代的 Cloud TPU v5e 芯片進(jìn)行 AI 推理。谷歌介紹,Anthropic 現(xiàn)在是首批大規(guī)模部署 Cloud TPU v5e 的企業(yè)之一。Cloud TPU v5e 是谷歌云迄今為止最多功能、效率最高且可擴(kuò)展性最強(qiáng)的 AI 加速器。這種芯片讓 Anthropic 能以高性能且高效的方式為其 Claude 大語言模型(LLM)服務(wù)。
亞馬遜:訓(xùn)練芯片 Trainium、推理芯片 Inferentia
在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在服務(wù)器中提供訓(xùn)練和推理兩種類型芯片的云提供商。
亞馬遜云科技目前有三條自研芯片生產(chǎn)線,分別是通用芯片 Graviton、專用 AI 芯片 Trainium(訓(xùn)練) 和 Inferentia(推理)以及 Nitro。
Graviton 是一款基于 ARM 架構(gòu)的通用處理器,目前已經(jīng)演進(jìn)到第三代,即 Graviton3,相比 Graviton2,計算性能提高多達(dá) 25%,浮點性能提高多達(dá) 2 倍,加密工作負(fù)載性能最多加快 2 倍。而去年新推出的 Graviton 3E 特別提升了向量計算的性能,這項性能指標(biāo)對于高性能計算 HPC 來說非常重要。
Trainium 和 Inferentia 是兩款機(jī)器學(xué)習(xí)專用芯片。前者面向訓(xùn)練場景,后者面向推理場景?;?Trainium 的 Trn1 實例和通用的 GPU 實例對比,單節(jié)點的吞吐率可以提升 1.2 倍,多節(jié)點集群的吞吐率可以提升 1.5 倍,從成本考慮,單節(jié)點成本可以降低 1.8 倍,集群的成本更是降低了 2.3 倍。而推理芯片 Inferentia 目前推出了第二代,可大規(guī)模部署復(fù)雜的模型,例如大型語言模型 (LLM) 和 Diffusion 類模型,同時成本更低。以 Stable Diffusion 2.1 的版本為例,基于第二代 Inferentia 的 Inf2 實例可實現(xiàn) 50% 的成本節(jié)約。
Nitro 是亞馬遜云科技的第一款自研芯片產(chǎn)品,去年推出的第五代 Nitro 將每瓦性能提高了 40%。Nitro 提升了亞馬遜云科技在基礎(chǔ)架構(gòu)上的靈活性,大大加快了各種計算實例的推出速度,目前亞馬遜云科技的實例類型已經(jīng)超過 600 種。另外,Nitro 還是目前商業(yè)化最為成功的 DPU 芯片。
兩大模型語言開發(fā)商:OpenAI VS Anthropic 的算力來源
OpenAI 一直都依賴于英偉達(dá)的最新型號芯片來訓(xùn)練其模型。在 H100/A100 緊缺的當(dāng)下,OpenAI 也陷入焦慮期,一方面緊急囤貨,一方面尋求新的路徑。
據(jù)悉,生成式人工智能領(lǐng)導(dǎo)者 OpenAI 正在探索自研 AI 芯片,甚至已經(jīng)評估了潛在的收購目標(biāo)。知情人士表示,隨著訓(xùn)練人工智能模型的芯片短缺情況惡化,OpenAI 內(nèi)部關(guān)于人工智能芯片戰(zhàn)略的討論至少從去年就開始了。OpenAI 正在考慮采取多種策略來推進(jìn)其芯片的「自給自足」計劃,包括與更多芯片制造商合作以提高供應(yīng)商的多元化、收購 AI 芯片制造商、加大內(nèi)部設(shè)計芯片的力度等等。
報道還提到,OpenAI 的首席執(zhí)行官 Sam Altman 已將購買更多人工智能芯片作為公司的首要任務(wù)。目前,OpenAI 與大多數(shù)競爭對手一樣,依靠基于 GPU 的硬件來開發(fā) ChatGPT、GPT-4 和 DALL-E 3 等模型。GPU 并行執(zhí)行多項計算的能力使其非常適合訓(xùn)練當(dāng)今最強(qiáng)大的人工智能。
值得注意的是,微軟是 OpenAI 背后強(qiáng)大的金主之一,擁有 OpenAI 49% 的股份,總投資額約 130 億美元。
OpenAI 的競爭對手 Anthropic 也有兩大支撐者,分別是亞馬遜和谷歌。
亞馬遜曾在一份文件中表示,它已經(jīng)以可轉(zhuǎn)換票據(jù)的形式向 Anthropic 投資了 12.5 億美元,并有能力以第二筆票據(jù)的形式再投資 27.5 億美元,這一選擇權(quán)將于明年第一季度到期。亞馬遜還與 Anthropic 達(dá)成協(xié)議,后者將使用 AWS 的云服務(wù)和自研芯片。
谷歌方面,除了提供新一代 TPU,該科技巨頭此前已承諾向這家初創(chuàng)公司投資 20 億美元,據(jù)悉,在最新一輪融資中,Alphabet 旗下谷歌向 Anthropic 投資約 5 億美元,并承諾未來再投資約 15 億美元,這筆投資是在今年早些時候谷歌向 Anthropic 投入 5.5 億美元的基礎(chǔ)上所進(jìn)行。
投資初創(chuàng)公司獲得算力
無論是微軟、Meta、亞馬遜這樣的巨頭,還是 OpenAI、Anthropic 這樣的超級獨角獸他們都不希望自己的 AI 算力與單一公司綁定。
d-Matrix
Sid Sheth 和 Sudeep Bhoja 就瞄準(zhǔn) AIGC 時代的 AI 推理算力需求,于 2019 年創(chuàng)立了 d-Matrix。今年 9 月,位于美國硅谷的 AI 芯片初創(chuàng)公司 d-Matrix 獲得 1.1 億美元的 B 輪融資,由新加坡頂尖投資公司淡馬錫(Temasek)領(lǐng)投,加州風(fēng)投公司 Playground Global、微軟和三星等 14 家投資者跟投。
d-Matrix 致力于構(gòu)建一種使用存內(nèi)計算(In-Memory Computing,IMC)技術(shù)和芯片級橫向擴(kuò)展互連進(jìn)行數(shù)據(jù)中心 AI 推理的新方法。據(jù)稱,該處理器將提供比 CPU 和 GPU 更快的 AI 推理性能,適用于大型 Transformer 模型。d-Matrix 認(rèn)為,在 AI 領(lǐng)域雖然存在英偉達(dá)這樣難以撼動的龍頭企業(yè),但自己與英偉達(dá)不同,部分原因在于其技術(shù)針對的是 AI 處理過程中的「推理」(Inference)環(huán)節(jié),而不是通過制造訓(xùn)練大型 AI 模型的技術(shù)來與英偉達(dá)競爭?;?Transformer 的模型通常在高性能 GPU 上進(jìn)行訓(xùn)練,但執(zhí)行推理是一個能效問題,而不僅僅是性能問題。d-Matrix 提出了一種創(chuàng)新解決方案,聲稱可以將硬件的效率提高 10-30 倍。
Rain Neuromorphics Atomic Semi Cerebras
Rain Neuromorphics Atomic Semi Cerebras 由臺積電前工程副總 Keith McKay 在 2018 年創(chuàng)立,總部位于美國加利福尼亞州,曾以推出超大芯片而引發(fā)關(guān)注。其 AI 超算處理器 Cerebras WSE 比 iPad 還要大。二代擁有 2.6 萬億個晶體管和 85 萬個 AI 優(yōu)化內(nèi)核。它們還發(fā)布過一種 brain-scale 技術(shù),可以運行超過 120 萬億個連接的神經(jīng)網(wǎng)絡(luò)。今年 Cerebras 還一口氣開源了 7 個 GPT 模型,參數(shù)量分別達(dá)到 1.11 億、2.56 億、5.9 億、13 億、27 億、67 億和 130 億,同時 Cerebras 也提供大模型訓(xùn)練推理等云服務(wù)。目前為止,該公司已融資 7.2 億美元。據(jù)悉,OpenAI 已參投了至少三家芯片公司,Rain Neuromorphics 就在列,其余兩家是 Cerebras 和 Atomic Semi。
除此之外,2022 年成立并致力于開發(fā)用于文本應(yīng)用的大語言模型(LLM)專用芯片的公司 MatX、成立于 2022 年并旨在使人工智能計算更具可訪問性和可負(fù)擔(dān)性的公司 Tiny Corp 都在努力成為 AI 算力芯片中具有分量的挑戰(zhàn)選手。
能否選擇 AMD?
今年 6 月,AI 算力市場的二號玩家、芯片廠商 AMD 推出全新人工智能 GPUMI300 系列芯片,與英偉達(dá)在人工智能算力市場展開競爭。據(jù) AMD 首席執(zhí)行官蘇姿豐介紹稱,MI300X 提供的高帶寬內(nèi)存(HBM)密度是英偉達(dá) H100 的 2.4 倍,HBM 帶寬是競品的 1.6 倍。
有分析指出,從性能上 MI300 性能顯著超越 H100,在部分精度上的性能優(yōu)勢高達(dá) 30% 甚至更多。憑借 CPU+GPU 的能力,MI300 產(chǎn)品組合性能更高、同時具有成本優(yōu)勢。不過從軟件生態(tài)方面來看,現(xiàn)有的 AMD MI300 還不足以威脅英偉達(dá)的市場份額,想撼動英偉達(dá)在人工智能行業(yè)的地位,AMD 還需時間。
據(jù)悉,微軟、Meta、甲骨文、谷歌、Supermicro/Quantadirect、亞馬遜等公司已經(jīng)向 AMD 下了大約 205,000 臺 MI300 的訂單。在這之中,有 120,000 臺專門供應(yīng)給微軟,25,000 臺給 Meta,12,000 臺給甲骨文,8,000 臺給谷歌,5,000 臺給亞馬遜公司,35,000 臺給其他公司。
天風(fēng)國際分析師郭明錤在社交平臺上表示,AMD 的 AI 芯片出貨量預(yù)計在 2024 年、2025 年快速增長。到 2024 年,AMD 的 AI 芯片出貨量(主要是 MI300A)預(yù)計將達(dá)到英偉達(dá)出貨量的約 10%,微軟有望成為 AMD AI 芯片的最大客戶,緊隨其后的是亞馬遜。如果微軟與 AMD 的合作進(jìn)展順利,AMD 獲得 Meta 和谷歌的訂單,預(yù)計 2025 年 AMD 的 AI 芯片出貨量將達(dá)到英偉達(dá)(基于 CoWoS 封裝技術(shù))的 30% 或更多。
這里仍需注意的是,要考慮到內(nèi)存制造商的 HBM 產(chǎn)量、臺積電的 CoWoS 產(chǎn)量、封裝產(chǎn)量等影響因素。
討論完國外的情況,再看看國內(nèi)的算力芯片公司都有哪些機(jī)會。
中國本土的 AI 芯片如何了?
近幾個月來,在美國對中國半導(dǎo)體的進(jìn)一步打壓下,中國市場的 AI 算力進(jìn)一步吃緊,尋求算力的國產(chǎn)化機(jī)遇再次崛起。
中國算力供應(yīng)鏈主要參與者有華為、寒武紀(jì)以及諸多其他算力芯片公司,比如燧原科技、沐曦、壁仞科技、天數(shù)智芯等。
基于目前中國 AI 大模型算力布局,無論是訓(xùn)練還是推理,AI 大模型算力主要分為三派:
一是華為鯤鵬和昇騰 AI 生態(tài)的算力方案,沒有英偉達(dá) GPU 參與;二是混合型算力支持,大量采用英偉達(dá) A100 芯片,部分環(huán)境增加 AMD、英特爾芯片,以及天數(shù)智芯、寒武紀(jì)、海光等國產(chǎn)芯片及加速卡融合跑大模型訓(xùn)練;三是租用性價比更高的服務(wù)器云算力,補(bǔ)充算力不足情況。
下面看一下國產(chǎn)算力公司的具體實力。
在國內(nèi)算力中,華為昇騰是最有實力的一家。在 AI 算力芯片方面,昇騰系列 AI 處理器,是基于華為自主研發(fā)的達(dá)芬奇架構(gòu)設(shè)計的 AI 芯片。目前主要包括了昇騰 910(用于訓(xùn)練)和昇騰 310(用于推理)兩款處理器,采用自家的達(dá)芬奇架構(gòu)。
昇騰 910 的整數(shù)精度(INT8)算力可達(dá) 640TOPS,在業(yè)內(nèi)其算力處于領(lǐng)先水平,性能水平接近于英偉達(dá) A100。主要應(yīng)用于云端,可以為深度學(xué)習(xí)的訓(xùn)練算法提供強(qiáng)大算力。功耗只有 310W,同時采用了 7nm 先進(jìn)工藝進(jìn)程,支持 128 通道全高清視頻解碼。
據(jù)悉目前多家 A 股上市公司已經(jīng)提前采用本土的算力芯片進(jìn)行 AI 推理與訓(xùn)練的應(yīng)對,華為昇騰 910B 成為多家上市公司的首選。
早在 10 月 24 日,科大訊飛聯(lián)合華為發(fā)布基于昇騰生態(tài)的大模型底座——飛星一號。科大訊飛董事長劉慶峰介紹,「飛星一號」是訊飛跟華為共同搭建的、完全國產(chǎn)的算力底座,可以讓大模型訓(xùn)練和推理效率翻番,科大訊飛將在該平臺的基礎(chǔ)上訓(xùn)練對標(biāo) GPT-4 的大模型。華為輪值董事長徐直軍表示,「飛星一號」平臺,讓星火的訓(xùn)練和推理效率均翻番。
劉慶峰表示,訊飛星火大模型 3.0 是首個真正在國產(chǎn)算力平臺上訓(xùn)練出的大模型,華為最新的芯片都率先給訊飛使用??拼笥嶏w相關(guān)負(fù)責(zé)人在此前的機(jī)構(gòu)調(diào)研中表示,華為昇騰 910B 的能力基本可對標(biāo)英偉達(dá) A100。
寒武紀(jì)也是一家非常重要的本土算力供應(yīng)商。
思元 370 是寒武紀(jì)第三代云端產(chǎn)品,采用 7nm 制程工藝,是寒武紀(jì)首款采用 Chiplet 技術(shù)的 AI 芯片,最大算力高達(dá) 256TOPS(INT8)。寒武紀(jì)新一代云端智能訓(xùn)練新品思元 590 芯片還沒發(fā)布,但已經(jīng)受到很多關(guān)注和討論,特別是寄予在大模型訓(xùn)練和推理任務(wù)中一定程度上替代 A100 的厚望。
據(jù)悉寒武紀(jì)主要是 ASIC 架構(gòu),劣勢是通用性會比較差,優(yōu)勢是某些特定應(yīng)用場景下,算力可以做到比 GPU 更高;有測試結(jié)果顯示,590 性能接近 A100 90% 的性能;590 基本支持主流的模型,綜合性能接近 A100 80% 的水平。
寒武紀(jì)此前中標(biāo)了浙江臺州智能計算集群項目(合同金額 5.28 億元)和沈陽汽車城智能計算中心項目(合同金額 1.55 億元)。根據(jù)券商研報顯示,這兩筆訂單有望集中在四季度集中交付。
此外,還有諸多云廠商、算力租賃廠商,他們購買芯片搭建算力中心,用來提供云服務(wù)或者對外出租,提供給諸多不愿意自建算力中心的客戶使用。
百度昆侖芯片是百度自主研發(fā)的云端 AI 通用芯片。長久以來,百度在文心一言大模型的推理端使用的都是自家研發(fā)的昆侖芯 2 代,但在訓(xùn)練端,他們卻主要依賴英偉達(dá)的 V100 和 A100。
壁仞科技去年發(fā)布了一款規(guī)格極高的產(chǎn)品,但主要還是停留在紙面數(shù)據(jù),并且在軟件層面也還有很多工作要做,距離成熟的生態(tài)軟件、規(guī)模化的出貨、客戶端的個適配還有很長的路要走。天數(shù)智芯、沐曦也都陸續(xù)有產(chǎn)品推出,這幾家公司雖不像第一梯隊的企業(yè)有更成熟的產(chǎn)品經(jīng)驗,但他們的產(chǎn)品也廣受市場期待。
燧原已擁有邃思系列芯片、云燧訓(xùn)練和推理加速卡以及云燧智算機(jī)的全系列算力產(chǎn)品線。目前燧原已經(jīng)為大型科研機(jī)構(gòu)部署了千卡規(guī)模的 AI 訓(xùn)練算力集群,并成功落地;燧原還與騰訊合作,在 OCR 文字識別,智能交互,智能會議等方面發(fā)揮作用,性能達(dá)到了業(yè)界同類產(chǎn)品兩倍以上,性價比上具有很高優(yōu)勢。
中國科技巨頭開始尋求其他解法
在高端 AI 芯片可能被禁的大趨勢下,中國幾大公有云廠商都做出了加強(qiáng)囤積英偉達(dá)高端 GPU 的動作。這一方面是因為云廠商自身要加大大模型投入,打開 MaaS 市場,所以對 AI 算力有直接需求。另一方面也是因為 GPU 轉(zhuǎn)化為云資源池之后可以長期復(fù)用,對于云廠商來說是一個進(jìn)可攻,退可守的局面。因此,今年上半年一度出現(xiàn)了市面上高端 AI 芯片全都流向云廠商,中小企業(yè)一卡難求的局面。
據(jù)悉,今年 8 月前后百度、騰訊、阿里巴巴和字節(jié)跳動四家公司合計向英偉達(dá)訂購了價值 50 億美元的 AI 芯片。這些芯片包括英偉達(dá) 2023 年發(fā)貨的 10 萬塊 A800 芯片,價值 10 億美元,另外價值 40 億美元的芯片將在 2024 年交付。按照 10 億美元購入 10 萬張 A800 芯片來計算,每張 A800 芯片的價格達(dá)到 1 萬美元。
華為云 CEO 張平安在華為云盤古大模型 3.0 發(fā)布會上曾表示,「中國的算力很難跟上不斷增長的 AI 需求,而且 AI 算力缺乏穩(wěn)定性。許多公司花高價購買英偉達(dá) GPU,但訓(xùn)練中 GPU 會出現(xiàn)故障不得不重新訓(xùn)練,交貨時間很長、代價大。我們希望在 AI 算力方面提供一種替代方案?!?/p>
不只是華為,多家公司都在不斷籌謀和嘗試其他解法。比如騰訊投資了燧原,百度開始尋求其他最優(yōu)解。
不過,雖然國產(chǎn) AI 算力已經(jīng)實現(xiàn)了一定程度的市場占比,不僅僅是概念與理論中的「紙上談兵」。但是也應(yīng)該看到,國產(chǎn) AI 芯片在核心性能、軟件生態(tài)以及出貨能力上依舊不理想,還有很長的路要走。
AI 算力開始漲價,英偉達(dá)卻「陷入焦慮」
近段時間,算力行業(yè)接連傳出漲價消息。11 月 1 日,中貝通信相關(guān)負(fù)責(zé)人在接受機(jī)構(gòu)調(diào)研時表示,受服務(wù)器供應(yīng)緊張影響,近期算力服務(wù)器價格漲幅較大,公司對客戶提供算力租賃服務(wù)的價格也會上漲,漲價幅度在與客戶協(xié)商中。
隨后在 11 月 16 日,中貝通信披露的關(guān)于簽訂算力服務(wù)框架合同的公告顯示,近日,公司與北京中科新遠(yuǎn)科技有限公司簽訂了算力服務(wù)技術(shù)服務(wù)框架協(xié)議,公司向?qū)Ψ教峁┕灿?1920PAI 算力技術(shù)服務(wù),合同總金額為 3.456 億元,單價為 18 萬元/P/年。值得注意的是,中貝通信 9 月 7 日披露的一則算力服務(wù)合同顯示,該合同單價為 12 萬元/P/年。與之相比,11 月這單合同中的算力服務(wù)漲價幅度達(dá) 50%。
11 月 14 日,匯納科技發(fā)布了關(guān)于擬對部分算力服務(wù)業(yè)務(wù)收費價格上調(diào)的公告。公告顯示,當(dāng)日,公司接到合作方四川并濟(jì)科技有限公司通知,由于內(nèi)嵌英偉達(dá) A100 芯片的高性能算力服務(wù)器算力需求大幅增加,相關(guān)高性能運算設(shè)備持續(xù)漲價,算力資源持續(xù)緊張,并濟(jì)科技決定對其 A100 算力服務(wù)收費擬上調(diào) 100%。鑒于此,自即日起,匯納科技擬將所受托運營的內(nèi)嵌英偉達(dá) A100 芯片的高性能算力服務(wù)器算力服務(wù)收費同步上調(diào) 100%。
還有不少 A 股公司通過投資者互動平臺披露了近期漲價的意愿。包括云服務(wù)商青云科技、潤建股份等都表示將根據(jù)市場供需情況對價格進(jìn)行調(diào)整。
一些企業(yè)也預(yù)見到算力漲價周期的來臨,并已提前做好準(zhǔn)備。11 月 4 日,弘信電子在投資者互動平臺上表示,現(xiàn)階段,全球及國內(nèi)算力需求越來越爆發(fā)、英偉達(dá)算力芯片已出現(xiàn)大幅漲價,國產(chǎn)算力資源也呈現(xiàn)越來越緊俏的態(tài)勢。公司已與燧原科技達(dá)成 9152 片算力芯片的采購協(xié)議,快速鎖定了算力芯片的量和價格,未來對外供貨算力產(chǎn)品時,在目前可預(yù)見的市場供求關(guān)系下,無論搭載英偉達(dá)芯片的服務(wù)器還是搭載國產(chǎn)芯片的服務(wù)器,價格上漲的趨勢都比較明確。
AI 應(yīng)用繁榮發(fā)展帶來的算力需求持續(xù)上升及算力供應(yīng)的日益緊張。作為「芯片基石」供應(yīng)商的英偉達(dá)在這場狂風(fēng)驟雨中出盡了風(fēng)頭,然而如今,英偉達(dá)卻對自己的未來表示擔(dān)憂。
隨著英偉達(dá)公司 2024 財年第三季度業(yè)績的公布,該公司再次證明自己在關(guān)鍵的高增長技術(shù)領(lǐng)域中是一個主導(dǎo)力量。不過,英偉達(dá)現(xiàn)在正面臨越來越多的競爭威脅,這也是事實。
如今的 AI 算力芯片市場一分為四,分別為耀眼的英偉達(dá)、正在崛起的中國算力芯片公司、尋求自研的科技/云服務(wù)器大廠以及眾多雄心勃勃的初創(chuàng)公司。一系列的主要參與者可能侵蝕英偉達(dá)在關(guān)鍵產(chǎn)品類別中的領(lǐng)導(dǎo)地位,使得其在長期內(nèi)保持市場份額的能力存在不確定性。
英偉達(dá)表示,預(yù)計在美國擴(kuò)大對華芯片出口限制后,公司第四季度在中國的銷售額將大幅下降。英偉達(dá)首席財務(wù)官科萊特·克雷斯在與分析師的電話會議上表示:「政府的出口管制將對我們的中國業(yè)務(wù)產(chǎn)生負(fù)面影響,但是我們還無法清楚地預(yù)測這種影響的嚴(yán)重程度?!箍死姿固寡裕苷哂绊?,公司今年第四季度對中國和其他受影響的地區(qū)的銷售額將大幅下降。
今年早些時候,克雷斯就表示,從長遠(yuǎn)來看,禁止向中國銷售人工智能芯片將導(dǎo)致美國芯片行業(yè)永久失去機(jī)會。
評論