亞馬遜的造芯「野望」
據(jù)悉,亞馬遜(AWS)推出了第三代AI訓(xùn)練芯片Trainum3,是首款采用3nm工藝節(jié)點(diǎn)制造的AWS芯片,首批實例預(yù)計將于2025年底上市。
本文引用地址:http://www.biyoush.com/article/202412/465450.htm自從2018年推出基于Arm架構(gòu)的CPU Graviton以來,亞馬遜一直致力于為客戶開發(fā)自研的芯片產(chǎn)品,Trainium是專門為超過1000億個參數(shù)模型的深度學(xué)習(xí)訓(xùn)練打造的機(jī)器學(xué)習(xí)芯片。在2024年re:Invent大會上,AWS宣布Trainium2正式可用,其性能比第一代產(chǎn)品提升4倍,可以在極短的時間內(nèi)訓(xùn)練基礎(chǔ)模型和大語言模型。
亞馬遜發(fā)起新挑戰(zhàn)
亞馬遜將推出由數(shù)十萬顆自研Trainium芯片組成的超級算力集群,該集群將落地美國,2025年建成后將成為世界上最大的人工智能模型訓(xùn)練集群之一。凸顯了亞馬遜此前對自研芯片Trainium的承諾 —— 將Trainium視為替代英偉達(dá)GPU的備選選項,掌握更多的主動權(quán)有利于減少對英偉達(dá)的依賴,為客戶降低成本。
該芯片集群將供由AI初創(chuàng)公司Anthropic使用。在2024年re:Invent全球大會上,Anthropic的聯(lián)合創(chuàng)始人兼首席計算官Tom Brown宣布了「雷尼爾計劃」(Project Rainier),該算力集群就是其中的核心布局。
Anthropic是亞馬遜投資的AI初創(chuàng)公司:2023年9月,亞馬遜向Anthropic投資40億美元;今年11月,亞馬遜再次向Anthropic追加40億美元投資。在融資聲明中,Anthropic強(qiáng)調(diào)雙方將合作開發(fā)Neuron軟件,它類似于芯片與AI模型之間的結(jié)締組織(connective tissue),直接對標(biāo)英偉達(dá)CUDA。
此舉背后,通過投資的方式將自研芯片和Anthropic深度綁定,我們可以看到亞馬遜在大模型上更大的野心。Anthropic推出的Claude系列模型也已集成在Amazon Bedrock中,從模型能力上看,Claude系列模型是目前市面上幾乎少數(shù)可以和OpenAI旗下GPT-4對標(biāo)的模型。
為了爭奪更多有大模型和云計算使用需求的客戶,亞馬遜選擇聯(lián)合Anthropic是對標(biāo)微軟+OpenAI的模式。微軟Azure的收入增長,有不少是來自微軟提供的GPT-4入口,這意味著OpenAI走紅后,其為微軟的云服務(wù)Azure帶來了更多新增客戶,亞馬遜也可以復(fù)制這種模式,即利用AI大模型帶來的增量尋求更多的市場份額。
據(jù)Synergy Research Group最新公布的數(shù)據(jù)估算,2024年第三季度,亞馬遜在全球云基礎(chǔ)設(shè)施市場的市場份額達(dá)到31%,領(lǐng)先于微軟Azure平臺的20%和谷歌云的11%。
亞馬遜展現(xiàn)出了其在芯片互聯(lián)技術(shù)上的獨(dú)特優(yōu)勢,秘密武器是其網(wǎng)絡(luò)技術(shù)NeuronLink,這項技術(shù)可以使所有四個服務(wù)器相互通信。與英偉達(dá)基于Blackwell架構(gòu)芯片打造的服務(wù)器相比,能夠更靈活地將更多芯片連接在一起,從而大幅度提升運(yùn)算速度,為用戶帶來更加流暢、高效的AI運(yùn)算體驗。
值得一提的是,蘋果作為科技行業(yè)的巨頭,也選擇了與亞馬遜AWS合作,采用其定制的AI芯片來支持其搜索等關(guān)鍵服務(wù)。蘋果機(jī)器學(xué)習(xí)與人工智能高級總監(jiān)貝諾伊·杜平(Benoit Dupin)表示蘋果內(nèi)部正在測試Trainium2芯片,預(yù)計可節(jié)省約50%的成本。同時,蘋果還在積極評估最新的AI芯片是否可用于預(yù)訓(xùn)練其Apple Intelligence模型,這無疑為AWS的AI芯片技術(shù)注入了更多的期待和可能性。
歷數(shù)亞馬遜云科技如今的自研產(chǎn)品陣容不難發(fā)現(xiàn),他們已經(jīng)擁有包括通用處理器Graviton、AI訓(xùn)練芯片Amazon Trainium、AI推理芯片Amazon Inferentia,以及網(wǎng)絡(luò)系統(tǒng)Nitro在內(nèi)的至少四大類自研硬件/芯片家族。
根據(jù)云成本管理和優(yōu)化平臺Vantage的一項調(diào)查顯示,在實例類型的成本支出方面,在2024第一季度的Amazon EC2 M7系列通用實例類型上,采用Graviton的M7g系列達(dá)到了34.5%;到了2024年第二季度,在Amazon RDS、Amazon ElastiCache和Amazon OpenSearch托管服務(wù)所采用的實例類型中,Graviton已經(jīng)超越了Intel。
不難看出,作為持續(xù)的行業(yè)領(lǐng)導(dǎo)者,亞馬遜云科技不只是擁有客觀上更多的自研芯片種類。更為重要的是,他們是真的將自研芯片投入到了主力云計算業(yè)務(wù)中,并已取得了客觀上的巨大成功。
亞馬遜自研芯片的優(yōu)勢
在云廠商自研芯片的浪潮中,亞馬遜無疑是最早踐行這一趨勢的先驅(qū):硬件自研之路始于2012年,并且從2013年就被確立為重要的業(yè)務(wù)策略,同年研發(fā)出了第一款自研芯片Nitro。
Nitro并非如今的通用處理器或AI芯片,它本質(zhì)上其實是一個專用硬件系統(tǒng),主要用于高性能網(wǎng)絡(luò)處理和虛擬化卸載,將服務(wù)器的更多CPU算力解放出來、讓這些CPU性能能夠被更多客戶所使用。
亞馬遜自主完成的所有自研芯片均由Annapurna Labs團(tuán)隊設(shè)計和制造。Annapurna Labs是亞馬遜于2015年收購的半導(dǎo)體微電子公司,早在收購之前,雙方就在Nitro系統(tǒng)的開發(fā)方面緊密合作。目前,Annapurna Labs團(tuán)隊成員分布在全球多個地點(diǎn),包括以色列的特拉維夫、加拿大的多倫多,以及德克薩斯州奧斯汀的實驗室。
亞馬遜的自研硬件更是成為了其云服務(wù)性價比不斷攀升背后的重要因素。2021年P(guān)rime Day期間,亞馬遜首次使用Amazon Graviton2支持的Amazon EC2實例;2024年P(guān)rime-Day期間,亞馬遜使用了超過25萬個Graviton芯片為超過5800種不同的亞馬遜電商服務(wù)提供支持。
自從2006年推出第一代公有云服務(wù)以來,亞馬遜至今已主動降價100次以上,甚至有時降價幅度極其巨大。比如就在今年10月,亞馬遜云科技剛剛宣布將Amazon DynamoDB按需吞吐量的價格降低50%、將全球表(Global Tables)的價格降低多達(dá)67%。很顯然,這種持續(xù)、主動的降價行為,很大程度是得益于了亞馬遜的自研硬件體系。
亞馬遜自己也受益于自研芯片“性價比”所帶來的規(guī)模優(yōu)勢。此前亞馬遜云科技副總裁Jeff Barr曾展示了一張Graviton4開發(fā)時的實例集群快照,充分利用自研處理器的規(guī)模優(yōu)勢,使用了多達(dá)數(shù)十萬個內(nèi)核加速EDA電子設(shè)計自動化流程,峰值規(guī)模為正常使用規(guī)模的5倍。
隨著生成式AI需求的持續(xù)增長,芯片將會成為爭奪AI霸權(quán)的下一個戰(zhàn)場。在AI硬件領(lǐng)域,英偉達(dá)的確獨(dú)霸天下。無數(shù)人在問:在未來幾個月甚至幾年內(nèi)英偉達(dá)還能保持高增長嗎?競爭對手能不能找到辦法縮小差距?
除了亞馬遜,還有很多廠商正在開發(fā)自己的AI芯片,比如微軟、Meta、OpenAI、谷歌、AMD、英特爾。年初時有消息稱,英特爾、高通、谷歌及其它一些科技企業(yè)準(zhǔn)備聯(lián)手應(yīng)戰(zhàn),合作圍繞軟件展開。但英偉達(dá)CUDA的地位不是一夜之間可以撼動的,不單只是軟件能力,還以為它15年的使用歷史,現(xiàn)在許多代碼是圍繞CUDA開發(fā)的,CUDA與很多AI及高性能計算項目深度連接在一起。
值得注意的是,AI半導(dǎo)體市場實際上分成兩大塊 —— 訓(xùn)練和推理,數(shù)據(jù)中心用GPU訓(xùn)練AI,推理發(fā)生在服務(wù)器或者邊緣設(shè)備上。在訓(xùn)練市場,英偉達(dá)占據(jù)98%的市場份額,這種優(yōu)勢短期內(nèi)不會消失,因此邊緣AI推理市場是競爭對手可以重點(diǎn)關(guān)注的領(lǐng)域。
其中NPU(Neural Processing Units)就是部分廠商的研究重點(diǎn),它的能耗更低、更加專業(yè)化。NPU能加速處理AI任務(wù),包括深度學(xué)習(xí)和推理任務(wù),并行處理海量數(shù)據(jù),還可以用專門的片上存儲器快速執(zhí)行復(fù)雜的人工智能算法,以實現(xiàn)高效數(shù)據(jù)存儲和檢索。雖然GPU處理能力更強(qiáng)、功能更多,但NPU更小、更便宜、更節(jié)能,在執(zhí)行專業(yè)AI任務(wù)時,由于NPU采用特殊架構(gòu),性能反而有可能高于CPU。
評論