全球最大，馬斯克4個月建成10萬張H100超算集群！xAI算力超越OpenAI，奧特曼怕了

發(fā)布人：傳感器技術(shù) 時間：2024-09-07 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

【導(dǎo)讀】兩天前，馬斯克得意自曝：團(tuán)隊僅用122天，就建成了10萬張H100的Colossus集群，未來還會擴展到15萬張H100和5萬張H200。此消息一出，奧特曼都被嚇到了：xAI的算力已經(jīng)超過OpenAI了，還給員工承諾了價值2億期權(quán)，這是要上天？

馬斯克的xAI一路狂飆突進(jìn)，把Sam Altman都整怕了！

就在9月3日，馬斯克在推上得意自曝：

團(tuán)隊僅僅用了122天時間，就建成了有10萬張H100的Colossus集群，是世界上最強大的AI訓(xùn)練系統(tǒng)。

而且，未來幾個月規(guī)模還要翻一倍，擴展到15萬張H100+5萬張H200。

最后，馬斯克感謝了英偉達(dá)和許多其他合作伙伴、供應(yīng)商。據(jù)悉，是戴爾開發(fā)、組裝了Colossus系統(tǒng)。

馬斯克的xAI，已經(jīng)讓幾大AI巨頭感受到了強烈的威脅。

根據(jù)內(nèi)幕消息，Sam Altman就曾表示，自己是怕了馬斯克了！

如今的xAI，不光算力有超越OpenAI之勢，還對員工十分大方。有說法指出，對于xAI的研究者，馬老板曾承諾過價值2億美元的期權(quán)。

馬斯克，全力進(jìn)軍超算

相信大家都已經(jīng)發(fā)現(xiàn)：馬斯克的超算野心，是愈發(fā)藏不住了！

隔三岔五的，就會有勁爆消息曝出。

7月底，xAI啟動了位于孟菲斯的超級AI集群的訓(xùn)練，該集群由十萬個液冷H100 GPU組成。

十萬個H100 GPU消耗的電力大約在70兆瓦，因此這個超算至少會消耗150兆瓦的電力。

8月底，特斯拉宣布了Cortex AI集群，包括5萬個英偉達(dá)H100 GPU，和2萬個特斯拉的Dojo AI晶圓級芯片。

如今看來，這些集群很可能都正式投入運行，甚至已經(jīng)在訓(xùn)練AI模型了。不過，馬斯克真的有能力讓它們?nèi)吭诰€嗎？首要問題是，要調(diào)試和優(yōu)化這些集群的設(shè)置，需要一定時間。其次，xAI還得確保它們獲得足夠的電力。我們知道，雖然馬斯克的公司一直在用14臺獨立發(fā)電機為其供電，但要為十萬塊H100 GPU供電，這些電力顯然不夠。訓(xùn)練xAI的Grok 2，需要兩萬塊H100；而馬斯克預(yù)測，要訓(xùn)練Grok 3，可能會需要十萬塊H100。所以，xAI的數(shù)據(jù)中心，建得怎么龐大都不過分。

建設(shè)速度太快，推測是「部分上線」

122天，也就是4個月的時間，建成10萬張H100組成的超算集群，這是個什么速度？有業(yè)內(nèi)人士表示，通常完成這樣一個集群可能需要一年時間。這個速度，這個規(guī)模，很馬斯克。

但也有人猜測，他可能有夸大其詞的傾向，高估了在單一集群中實際運行的GPU數(shù)量。囤足10萬張芯片、放在一起共同運行，并不意味著就是單一集群。論GPU數(shù)量，Meta在今年1月就已經(jīng)計劃采購35萬張H100，但實際運行時是分成了不同集群。之所以還沒有其他公司能造出10萬GPU規(guī)模的集群，很難說是因為缺錢，更重要的因素是網(wǎng)絡(luò)解決方案。串聯(lián)起所有GPU的網(wǎng)絡(luò)，需要保證足夠的高帶寬、低延遲和可靠性，才能讓10萬張芯片協(xié)同起來像一臺計算機一樣工作。

Colossus是二戰(zhàn)期間第一臺可編程計算機，也曾在科幻電影里登場除了網(wǎng)絡(luò)，還有電力問題。馬斯克此前表示，Colossus在6月底已經(jīng)啟動運行，當(dāng)時，電力公司供應(yīng)的最高功率只有幾兆瓦，僅能供應(yīng)數(shù)千個GPU同時運行。電力公司表示，到8月，xAI將獲得大約50兆瓦的電力，但這只能供應(yīng)大約5萬個芯片。與此同時，現(xiàn)場即將建成的另一個發(fā)電站將提供另外150兆瓦，可以滿足10萬個或更多芯片的電力需求，但要到明年才能實現(xiàn)。馬斯克似乎找到了一個短期解決方案：引入化石能源發(fā)電機。

Colossus所在地，田納西州孟菲斯的環(huán)保組織前幾天剛剛寫信控訴馬斯克，指責(zé)他在沒有許可的情況下安裝了至少18臺渦輪機（可能更多），加劇了當(dāng)?shù)氐目諝馕廴尽?/span>

出于網(wǎng)絡(luò)和電力兩方面的限制因素，The Information指出，馬斯克的這個集群可能只是「部分完成」除了Colossus和微軟在鳳凰城為OpenAI建造的超算集群，多個類似的集群也正處在研發(fā)和建設(shè)過程中。

奧特曼：微軟爸爸，我們的算力不夠了

盡管如此，馬斯克這個超大集群的進(jìn)展，還是讓一些競爭對手極度擔(dān)心！

其中一位，就是OpenAI的CEO Sam Altman。根據(jù)內(nèi)部消息，奧特曼已經(jīng)向一些微軟高管透露了自己的擔(dān)憂——他十分擔(dān)心，xAI很快就擁有比OpenAI更多的算力！

雖然為OpenAI提供算力的微軟老大哥，資金實力非常雄厚，但作為上市公司，微軟在花費資金時，還需要對公眾股東負(fù)責(zé)。但馬斯克則完全沒有這樣的限制，盡管他的資金不如微軟。

甭管馬斯克有多少吹牛的成分，即使能部分完成Colossus集群的建成，也是一件令人印象深刻的事。外媒The Information猜測，馬斯克這種神奇的趕工速度，是否放棄了傳統(tǒng)的例行安全檢查？畢竟，如果按例檢查的話，可能會讓數(shù)據(jù)中心項目的竣工延遲數(shù)月。

而且，The Information還發(fā)現(xiàn)了一個「華點」：Colossus位于以前的制造工廠內(nèi)，這可不是適合高性能計算的理想場所。微軟和英偉達(dá)的高管透露，這是他們最不愿意放置昂貴硬件的地點之一。因為這些地方很難改造，來適應(yīng)服務(wù)器耗費的巨大電量，和數(shù)據(jù)中心設(shè)備需要的冷卻技術(shù)。咱們都知道，馬老板一向喜歡突破邊界，而在質(zhì)疑聲紛至沓來時，他又經(jīng)常被證明是正確的。最近在xAI的姊妹公司X，馬斯克又有了一個驚人之舉：關(guān)閉了一個數(shù)據(jù)中心。當(dāng)時大家都擔(dān)心，X會因此而崩潰。結(jié)果誰也沒想到，X運行得很好，馬斯克居然有如此先見之明。而這次，馬斯克在田納西州的超算，也同樣可能會對AI開發(fā)者振聾發(fā)聵——或許他們會發(fā)現(xiàn)，傳統(tǒng)的做事方式如今已經(jīng)過時了。

兩家神秘AI巨頭，正計劃打造1250億美元超算

如今，數(shù)據(jù)中心之戰(zhàn)，競爭還在火熱加??！至少有六大巨頭，已經(jīng)下場了。根據(jù)北達(dá)科他州官員的披露，除了微軟、OpenAI和xAI，還有兩家AI巨頭也正在醞釀建造「巨型AI數(shù)據(jù)中心」。

這兩家公司找到了商務(wù)專員Josh Teigen和州長Doug Burgum，商討建立巨型AI數(shù)據(jù)中心。除了技術(shù)研發(fā)，這類數(shù)據(jù)中心也對資源和基礎(chǔ)設(shè)施提出了很高的要求。不僅需要采購足夠的芯片和相關(guān)設(shè)備，還要留出數(shù)萬英畝的土地、建設(shè)新的發(fā)電設(shè)施。馬斯克的Colossus要自建發(fā)電站才能弄出200兆瓦，而這兩家公司可能是因為直接找上了州長，他們的初始電力就能達(dá)到500～1000兆瓦，并計劃在幾年內(nèi)擴增至5k~1w兆瓦。這些項目的規(guī)模將比現(xiàn)有的任何數(shù)據(jù)中心，包括Colossus都擴大幾個數(shù)量級。100兆瓦可以為7萬至10萬個家庭供電；去年微軟Azure的全球數(shù)據(jù)中心總共使用了大約5吉瓦（5k兆瓦）的電力。這就意味著，一個數(shù)據(jù)中心，可能和整個Azure云服務(wù)平臺的耗電量相當(dāng)。根據(jù)會議的音頻記錄，這類規(guī)模的項目耗資可能超過1250億美元。

在對外會議上，商務(wù)專員Teigen沒有透露這兩家神秘AI巨頭的名字，但他表示市值達(dá)到了「一萬億美元」。這就將潛在名單縮小到了美國的大約6家公司，七巨頭之六——英偉達(dá)、亞馬遜、微軟、谷歌、Meta和蘋果。微軟此前就和OpenAI討論過建造價值1000億美元的「星際之門」（Stargate），而且北達(dá)科他州長Doug Burgum曾是微軟的高管，在2001年以11億美元向微軟出售過自己的一家軟件公司。

但我們也知道，谷歌和亞馬遜等其他公司也在積極提升其AI計算能力。

揭開美國AI超算的神秘面紗

AI巨頭一向?qū)舛思夹g(shù)嚴(yán)格保密，但他們對開發(fā)數(shù)據(jù)中心所需的技術(shù)，保密程度有過之而無不及。The Information列出了在美國7個州運營或計劃中的17個超算數(shù)據(jù)中心，涉及微軟、OpenAI、Meta和xAI等公司。總的來說，仍在開發(fā)或計劃階段的設(shè)施建設(shè)成本可能超過500億美元，其中包括約350億美元的英偉達(dá)芯片，以及運營所需的額外數(shù)十億美元。

這些超算估計在數(shù)年時間內(nèi)落成，并需要大量的芯片、土地和電力。在ChatGPT問世前，GPU集群通常只包含幾千個芯片。如今，一些最大的GPU集群擁有超過3萬個芯片，上面提到的這些超算更是達(dá)到了前所未有的規(guī)模。要為所有計劃中的數(shù)據(jù)中心供電，美國能源部預(yù)計會出現(xiàn)電力不足的情況，因此最近提出了一些解決方案，例如資助研究使AI計算更高效。

爭奪「下一個高地」

現(xiàn)在，數(shù)據(jù)中心競賽的焦點，集中到了英偉達(dá)CEO黃仁勛的身上。就在上周，老黃發(fā)表了以下言論，宛如在業(yè)內(nèi)投入一顆炸彈。

率先達(dá)到超算集群下一個高地的人，將實現(xiàn)革命性的AI水平。

此言一出，英偉達(dá)的GPU，誰敢不買？即使已經(jīng)和博通共同設(shè)計出了TPU的谷歌，最近也為英偉達(dá)即將推出的Blackwell下了大單。

對GPU的爭奪，已經(jīng)引發(fā)了AI開發(fā)者及其云供應(yīng)商之間的緊張局勢，甚至，有時還會引發(fā)它們和英偉達(dá)的摩擦。比如，馬斯克就曾考慮和甲骨文達(dá)成一項大規(guī)模協(xié)議，根據(jù)他的計劃，xAI將在未來幾年內(nèi)，花費超過100億美元租賃英偉達(dá)的GPU。而這項談判最終破裂了，部分原因在于，馬斯克認(rèn)為甲骨文無法足夠快地建起超算，而甲骨文則擔(dān)心，他會把GPU集群放在一個供電不足的地方。

芯片多多，問題多多

很多超大的GPU集群都位于土地遼闊、空間充裕且電力充足的地區(qū)。例如，馬斯克的Colossus特意選址在田納西州孟菲斯，亞馬遜、Meta和微軟都在亞利桑那州的鳳凰城地區(qū)運營AI服務(wù)器。但隨著更大的GPU集群需要更多的電力，AI巨頭們正計劃在非傳統(tǒng)數(shù)據(jù)中心樞紐的地區(qū)建造這些集群。例如，亞馬遜最近在賓夕法尼亞州中部的一座核電站旁邊購置了土地，計劃供應(yīng)約一吉瓦（1000兆瓦）的電力。這足以為整個舊金山供電，或者構(gòu)建多達(dá)100萬張GPU的集群。另一個挑戰(zhàn)是如何進(jìn)行設(shè)備冷卻。傳統(tǒng)上，數(shù)據(jù)中心一般采用風(fēng)冷，但GPU服務(wù)器產(chǎn)生的熱量遠(yuǎn)遠(yuǎn)超過傳統(tǒng)服務(wù)器。為了更佳的冷卻效果，微軟在威斯康星州為OpenAI建設(shè)的數(shù)據(jù)中心預(yù)計將使用液冷而非風(fēng)冷。雖然如今越來越多人懷疑，AI泡沫要接近臨界點了，但興建超算之風(fēng)，一時半會還不會冷卻。畢竟，競家都All In了，你能不上嗎？六巨頭割據(jù)，群雄逐鹿，誰將奪得下一個超算高地？

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

全球最大，馬斯克4個月建成10萬張H100超算集群！xAI算力超越OpenAI，奧特曼怕了

相關(guān)推薦

技術(shù)專區(qū)