英偉達算力壟斷能否被打破?各大廠商下場展開自研AI芯片競賽
據市場研究公司Omdia披露,2023年第二季度,英偉達出貨了900噸H100 AI GPU。而一個帶有散熱器的H100 GPU的平均重量超過3公斤,因此英偉達在第二季度出貨了30多萬塊H100。
本文引用地址:http://www.biyoush.com/article/202310/451552.htm以ChatGPT為首的生成式AI工具在全球范圍內掀起了一股熱潮,拉升了對英偉達H100、A100、H800和A800等高性能GPU的需求,這使得該公司在全球AI GPU市場拿下達90%的市占率。隨著英偉達從生成式人工智能熱潮中獲利,該公司未來一年的出貨量將加速增長,預計今年有望銷售約3600噸H100 GPU,相當于大約120萬塊。
對抗英偉達
市面上的大模型越來越多,對算力的需求量爆炸式增長:對于云廠商來說,只能不斷的堆服務器;對于大模型開發(fā)者來說,對算力的需求也在趨緊。自英偉達發(fā)布大模型專用GPU并量產供貨后,據行業(yè)內部消息稱,由于市場需求遠大于產能供應,2023年英偉達H100的產量早已銷售一空,現在交錢訂購,至少要到2024年中才能拿到貨。
英偉達GPU芯片不光不愁賣,利潤率還高得嚇人。美國金融機構Raymond James在報告中透露,H100芯片成本約3320美元,但英偉達對其客戶的批量價格仍然高達2.5萬-3萬美元。這一點從季度財報中也能得到充分印證,英偉達Q2財季凈利潤高達61.8億美元,同比上升843%。
英偉達井噴式的業(yè)績增長和長期展望表明AI需求并非曇花一現,AI芯片行業(yè)涵蓋了芯片設計、制造和應用等多個領域。AI芯片的出現讓大規(guī)模的數據效率大大提升,技術升級帶來巨大的生產力飛躍,也正在對各個產業(yè)帶來革命性改變,甚至產業(yè)邏輯也需要被重估。
巨大的市場空間,以及超乎想象的前景,吸引全球眾多大型科技公司都在積極投入AI芯片研發(fā)與生產,將進一步刺激行業(yè)競爭。在此趨勢下,AI芯片的戰(zhàn)役正愈演愈烈。
不管是為了降低成本,還是減少對英偉達的依賴、提高議價能力,在AI芯片市場要對抗英偉達,其他廠商當前只能抓住英偉達的產能仍較低的窗口期進行布局。
作為英偉達的最大競爭對手,AMD發(fā)布了AI處理器MI300系列芯片,包括MI300A、MI300X兩個版本。其中MI300X是一款直接對標英偉達H100芯片,專門面向生成式AI推出的加速器,采用了8個GPU Chiplet加4個I/O內存Chiplet的設計,總共12個5nm Chiplet封裝在一起,使其集成的晶體管數量達到了1530億,高于英偉達H100的800億晶體管。
與英偉達的H100芯片相比,MI300X的HBM密度是前者的2.4倍,帶寬則為前者的1.6倍,理論上可以運行比H100更大的模型。此外,AMD還發(fā)布了“AMD Instinct Platform”,集合了8個MI300X,可提供總計1.5TB的HBM3內存。
蘇姿豐表示,隨著模型參數規(guī)模越來越大,就需要更多的GPU來運行。而隨著AMD芯片內存的增加,開發(fā)人員將不再需要那么多數量的GPU,能夠為用戶節(jié)省成本。盡管AMD也在加速布局,但要量產,還要等到本財年第四季度。
英特爾
今年7月,英特爾面向中國市場推出了AI芯片Habana Gaudi 2,直接對標英偉達的A100,是專為訓練大語言模型而構建,采用7nm制程,有24個張量處理器核心。數據顯示,從計算機視覺模型訓練到1760億參數的BLOOMZ推理,Gaudi 2每瓦性能約A100的2倍,模型訓練和部署的功耗降低約一半。
相比A100,Gaudi 2價格更有競爭力,且性能更高,接下來采用FP8軟件的Gaudi 2預計能夠提供比H100更高的性價比。值得注意的是,去年英特爾就已經在海外發(fā)布了Gaudi 2。
而英特爾在舊金山舉行的“Intel Innovation”大會上透露,使用5nm工藝打造的下一代Gaudi 3將在性能方面大幅提升。其中,BF16下的性能提升了四倍、計算能力提升了2倍、網絡帶寬的1.5倍以及HBM容量的提升1.5倍。
在Gaudi 3之后, 英特爾還計劃推出一個代號為Falcon Shores的繼任者。按照其最初規(guī)劃,Falcon Shores芯片為“XPU”設計,即集成CPU和GPU。但在上個月的財報會上,英特爾調整了Falcon Shores的計劃,將其重新定位為獨立GPU,并將于2025年發(fā)布。
其實在產品路線上,英特爾近年一直強調XPU,即多樣化、多組合的異構計算。在AI相關的產品線上,既有集成AI加速器的CPU處理器、有GPU產品,以及Habana Gaudi系列代表的ASIC類型AI芯片。
IBM
IBM最近公布了一款新的模擬AI芯片,這款新芯片旨在解決生成式人工智能的主要問題之一:高能耗。通過集成大量的相變存儲單元實現更高效的計算和能效,據稱其能效比英偉達H100高出14倍。這對于大型模型的運行來說尤為重要,因為這些大型模型通常需要更多的能量來運行,意味著在相同的能量消耗下,它能夠完成更多的計算任務。
IBM聲稱其14nm模擬AI芯片每個組件可以編碼3500萬個相變存儲設備,可以建模多達1700萬個參數。同時,該芯片模仿了人腦的運作方式,微芯片直接在內存中執(zhí)行計算,適用于節(jié)能語音識別和轉錄。隨著技術的不斷發(fā)展,預計未來模擬芯片有望成為人工智能領域的新趨勢。
亞馬遜
亞馬遜已擁有兩款AI專用芯片 —— 訓練芯片Trainium和推理芯片Inferentia。2018年底,AWS推出自研AI推理芯片Inferentia,可以以低成本在云端運行圖像識別、語音識別、自然語言處理、個性化和欺詐檢測等大規(guī)模機器學習推理應用程序;2020年底,AWS推出專用于訓練機器學習模型的Trainium。
2023年初,專為人工智能打造的Inferentia 2發(fā)布,將計算性能提高了三倍,加速器總內存提高了四分之一,吞吐量提高了四分之一,延遲提高了十分之一。Inf2實例(可通過芯片之間的直接超高速連接支持分布式推理)最多可支持1750億個參數,這使其成為大規(guī)模模型推理的有力競爭者。
在亞馬遜、微軟和谷歌這三家中,亞馬遜是唯一一家在服務器中提供兩種類型芯片(標準計算芯片和用于訓練與運行機器學習模型的專用芯片)的云提供商,其在2015年收購以色列芯片設計公司Annapurna Labs為這些努力奠定了基礎。
谷歌
早在2013年,谷歌就已秘密研發(fā)一款專注于AI機器學習算法的芯片,并將其用在內部的云計算數據中心中,以取代英偉達的GPU。2016年5月,這款自研芯片公諸于世,即TPU:TPU可以為深度學習模型執(zhí)行大規(guī)模矩陣運算,例如用于自然語言處理、計算機視覺和推薦系統(tǒng)的模型,其最初專為谷歌的超級業(yè)務云計算數據中心而生。
實際上2020年,谷歌就在其數據中心部署了人工智能芯片TPU v4。不過直到今年4月4日,谷歌才首次公開了技術細節(jié) —— 相比TPU v3,TPU v4性能提升2.1倍;基于TPU v4的超級計算機擁有4096塊芯片,整體速度提高了約10倍。谷歌稱,對于類似大小的系統(tǒng),谷歌能做到比Graphcore IPU Bow快4.3-4.5倍,比英偉達A100快1.2-1.7倍,功耗低1.3-1.9倍。
目前,谷歌已將負責AI芯片的工程團隊轉移到了谷歌云,旨在提高谷歌云出售AI芯片給租用其服務器的公司的能力,從而與更大的競爭對手微軟和亞馬遜云科技相抗衡。雖然英偉達提供的GPU算力優(yōu)勢在前,但AI行業(yè)頭部的OpenAI、Midjourney的算力系統(tǒng)并沒有采購英偉達的GPU,而是選擇了谷歌的方案。
微軟
據The Information報道,微軟計劃在下個月的年度開發(fā)者大會上推出該公司首款為人工智能設計的芯片。2019年,微軟就開始在內部開發(fā)代號為“Athena”的芯片,目前芯片已經提供給微軟和OpenAI進行測試。Athena是為訓練和運行大型語言模型(LLM)的數據中心服務器設計的,同時可支持推理,能為ChatGPT背后的所有AI軟件提供動力。
Athena的首個目標是為OpenAI提供算力引擎,以替代昂貴的英偉達A100/H100,如果與英偉達的產品擁有同等競爭力,每個芯片的成本將可以降低三分之一。若明年大規(guī)模推出,Athena將允許微軟內部和OpenAI的團隊同時訓練和推理模型。
Meta
2022年,Meta還在主要使用CPU(中央處理器)和專為加速AI算法而設計的定制芯片組合來運行其AI工作負載,然而效率往往并不如GPU。之后,Meta取消了在2022年大規(guī)模推出定制芯片的計劃,轉而訂購了價值數十億美元的英偉達GPU。
直到今年,Meta在5月19日公布了AI訓練與推理芯片項目,稱其為“針對推理工作負載的內部定制加速器芯片系列”。據介紹,MTIA芯片的功耗僅為25瓦,占英偉達等市場領先供應商芯片功耗的一小部分,并使用了RISC-V(第五代精簡指令處理器)開源架構。
OpenAI
路透社報道,至少從去年開始,OpenAI就已討論各種方案,以解決AI芯片短缺問題。OpenAI已將獲取更多AI芯片列為公司首要任務,討論方案包括自研AI芯片、與包括英偉達在內的其他芯片制造商更密切地合作,以及在英偉達之外實現供應商多元化。
對于OpenAI來說,自研芯片不僅能解決GPU的短缺問題,同時也將有效降低硬件運行所需的成本,畢竟GPT-4的運行成本實在太高了。
特斯拉
目前,特斯拉已經推出了兩種自研芯片:全自動駕駛(FSD)芯片和Dojo D1芯片。
FSD芯片是用于特斯拉汽車上的自動駕駛系統(tǒng)的芯片,自2019年開始,特斯拉就將車上的英偉達處理器換成了自研的融合高速運算、AI等功能的FSD芯片。
Dojo D1芯片則是用于特斯拉超級計算機Dojo的芯片,是一種高吞吐量、通用的CPU。2021年,在首屆特斯拉AI Day上展示了其首款AI訓練芯片Dojo D1,以及基于該芯片構建的完整Dojo集群ExaPOD,目的是為了加速特斯拉自動駕駛系統(tǒng)的訓練和改進,成為從汽車圈跑出來的強大對手。
英偉達鞏固地位
整體來看,當英偉達的一些主要客戶開始自己開發(fā)AI芯片,無疑會讓英偉達面臨更為激烈的競爭。除了現有A100、H100等熱門產品出貨持續(xù)維持增長以外,英偉達也在持續(xù)發(fā)布多項用于AI和數據中心的新產品,以進一步鞏固自身在AI領域的話語權和統(tǒng)治力。
值得注意的是,英偉達計劃每年都推出一代新的數據中心GPU架構,例如明年將會使用H200來取代現有的H100。從NVIDIA新公布的官方路線圖來看,英偉達對指定日期持謹慎態(tài)度,這一點可能主要是因為與代工廠同步其計劃以及軟件部署準備方面所面臨的挑戰(zhàn)。
路線圖顯示,英偉達準備在2024年推出Hopper GH200 GPU,然后在2024年至2025年之間的某個時間推出基于Blackwell的GB200 GPU,最終在2025年后推出GX200 GPU。當然,這些所謂的GH200、GB200和GX200都是圖形處理器的代號,實際產品名稱應該是H200、B100和X100等。
目前,英偉達的產能正在逐漸攀升,加之采購量逐漸放緩,應該一段時間后就會達到供需平衡的階段。唯一的矛盾就只剩下價格了,考慮到英偉達的成本與售價有著近10倍的差距,降價的空間應該很充裕。那么對于絕大多數的企業(yè)而言,采購英偉達的專業(yè)計算卡搭建高性能數據中心依舊是一個劃算的買賣。
而一些對性能要求較低的數據中心,相比之下用自研芯片建造會更合適:面向普通用戶的數據中心可以使用自研芯片,降低建造成本及后續(xù)的維護費用。隨著AI模型的應用范圍擴大,企業(yè)顯然也需要在全球各地建設更多的數據中心,以便就近響應用戶的使用需求。
雖然最有競爭力的MI300X采用了更大的192GB HBM3,但英偉達的產品也在迭代,等AMD正式發(fā)售MI300X時,英偉達可能也已經推出了參數更強的產品;而且由于AMD未公布新品價格,采用192GB HBM3的MI300X成本可能與H100相比可能不會有顯著的價格優(yōu)勢。
其次,MI300X沒有H100所擁有的用于加速Transformer大模型的引擎,這也意味著用同樣數量的MI300X將花費更長的訓練時間。MI300X可能更多是作為客戶買不到H100的“替代品”。
相較于硬件參數,最重要的是在軟件生態(tài)的建立和開發(fā)方面,英偉達的CUDA經過十幾年積累已構建其他競爭對手短時間難以逾越的壁壘。
從當前進程來看,英偉達此前積累下來的優(yōu)勢,即使在未來也不會輕易丟失。但是隨著其他企業(yè)的入局,英偉達的話語權也不會再那么強硬,在產品定價等方面,可能會讓渡出部分利潤來維持市場份額。
傳統(tǒng)半導體巨頭試圖分一杯羹并不讓人感到奇怪,需要英偉達警惕的是OpenAI和微軟同時宣布將啟動AI芯片研發(fā)計劃,作為AI芯片最核心的兩大用戶,如果他們的自研芯片計劃成功,顯然會對英偉達的生態(tài)地位和營收造成更為嚴重的影響。
評論