英偉達最新GPU和互聯路線圖

發(fā)布人：傳感器技術時間：2024-06-05 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在計算、網絡和圖形發(fā)展史上，Nvidia 有許多獨特之處。但其中之一就是它目前手頭有如此多的資金，而且由于其架構、工程和供應鏈，它在生成式人工智能市場處于領先地位，因此它可以隨心所欲地實施它認為可能取得進展的任何路線圖。

到 21 世紀，Nvidia 已經是一個非常成功的創(chuàng)新者，它實際上沒有必要擴展到數據中心計算領域。但 HPC 研究人員將 Nvidia 帶入了加速計算領域，然后 AI 研究人員利用 GPU 計算創(chuàng)造了一個全新的市場，這個市場已經等待了四十年，希望以合理的價格實現大量計算，并與大量數據碰撞，真正讓越來越像思考機器的東西成為現實。

向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬，他們在 20 世紀 80 年代嘗試制造這樣的機器，當時他們創(chuàng)立了 Thinking Machines 來推動 AI 處理，而不是傳統(tǒng)的 HPC 模擬和建模應用程序，以及 Yann LeCun，他當時在 AT&T 貝爾實驗室創(chuàng)建了卷積神經網絡。他們既沒有數據，也沒有計算能力來制造我們現在所知道的 AI。當時，Jensen Huang 是 LSI Logic 的董事，該公司生產存儲芯片，后來成為 AMD 的 CPU 設計師。就在 Thinking Machines 在 20 世紀 90 年代初陷入困境（并最終破產）時，黃仁勛在圣何塞東側的 Denny's 與 Chris Malachowsky 和Curtis Priem 會面，他們創(chuàng)立了 Nvidia。正是 Nvidia 看到了來自研究和超大規(guī)模社區(qū)的新興人工智能機遇，并開始構建系統(tǒng)軟件和底層大規(guī)模并行硬件，以實現自第一天起就一直是計算一部分的人工智能革命夢想。

這一直是計算的最終狀態(tài)，也是我們一直在走向的奇點——或者可能是兩極。如果其他星球上有生命，那么生命總會進化到這樣一個地步：那個世界擁有大規(guī)模毀滅性武器，并且總會創(chuàng)造出人工智能。而且很可能是在同一時間。在那一刻之后，那個世界對這兩種技術的處理方式決定了它能否在大規(guī)模滅絕事件中幸存下來。

這聽起來可能不像是討論芯片制造商發(fā)展路線圖的正常開場白。事實并非如此，因為我們生活在一個有趣的時代。

在臺北舉行的年度 Computex 貿易展上，Nvidia 的聯合創(chuàng)始人兼首席執(zhí)行官在主題演講中再次試圖將生成式人工智能革命（他稱之為第二次工業(yè)革命）置于其背景中，并一窺人工智能的未來，尤其是 Nvidia 硬件的未來。我們獲得了 GPU 和互連路線圖的預覽，據我們所知，這是直到最后一刻才列入計劃的一部分，黃仁勛和他的主題演講通常都是這樣。

革命不可避免

生成式人工智能的關鍵在于規(guī)模，黃仁勛提醒我們這一點，并指出 2022 年底的 ChatGPT 時刻之所以會發(fā)生，只有出于技術和經濟原因。

要實現 ChatGPT 的突破，需要大幅提高 GPU 的性能，然后在此基礎上增加大量 GPU。Nvidia 確實實現了性能，這對于 AI 訓練和推理都很重要，而且重要的是，它大大減少了生成大型語言模型響應中的 token 所需的能量。請看一看：

從“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代，八年間 GPU 的性能提升了 1053 倍，后者將于今年晚些時候開始出貨，并將持續(xù)到 2025 年。（我們知道圖表上說的是 1000 倍，但這并不準確。）

部分性能是通過降低浮點精度來實現的——降低了 4 倍，從 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式轉變?yōu)?Blackwell B100s 中使用的 FP4 格式。如果沒有這種精度的降低，性能提升將只有 263 倍，而這不會對 LLM 性能造成太大影響——這要歸功于數據格式、軟件處理和硬件中的大量數學魔法。請注意，對于 CPU 市場的八年來說，這已經相當不錯了，每個時鐘的核心性能提高 10% 到 15%，核心數量增加 25% 到 30% 都是正常的。如果升級周期為兩年，那么在同樣的八年里，CPU 吞吐量將增加 4 到 5 倍。

如上所示，每單位工作量的功耗降低是一個關鍵指標，因為如果你無法為系統(tǒng)供電，你就無法使用它。令牌的能源成本必須降低，這意味著 LLM 產生的每令牌能源的降低速度必須快于性能的提高。

在他的主題演講中，為了給你提供更深入的背景知識，在 Pascal P100 GPU 上生成一個 token 需要 17000 焦耳的能量，這大致相當于點亮兩個燈泡兩天，平均每個單詞需要大約三個 token。所以如果你要生成很多單詞，那就需要很多燈泡！現在你開始明白為什么八年前甚至不可能以能夠使其在任務上表現良好的規(guī)模運行 LLM?？纯丛?1.8 萬億個參數 8 萬億個 token 數據驅動模型的情況下訓練 GPT-4 專家混合模型 LLM 所需的能力：

P100 集群的耗電量超過 1000 千兆瓦時，這真是太驚人了。

黃仁勛解釋說，借助 Blackwell GPU，公司將能夠在約 10,000 個 GPU 上用大約 10 天的時間來訓練這個 GPT-4 1.8T MoE 模型。

如果人工智能研究人員和 Nvidia 沒有轉向降低精度，那么在這八年的時間里性能提升只會是 250 倍。

降低能源成本是一回事，降低系統(tǒng)成本又是另一回事。在傳統(tǒng)摩爾定律的末期，兩者都是非常困難的技巧，因為每 18 到 24 個月晶體管就會縮小一次，芯片變得越來越便宜、越來越小?，F在，計算復合體已經達到光罩極限，每個晶體管都變得越來越昂貴——因此，由晶體管制成的設備本身也越來越昂貴。HBM 內存是成本的很大一部分，先進封裝也是如此。

在 SXM 系列 GPU 插槽中（非 PCI-Express 版本的 GPU），P100 的發(fā)布價約為 5,000 美元；V100 的發(fā)布價約為 10,000 美元；A100 的發(fā)布價約為 15,000 美元；H100 的發(fā)布價約為 25,000 至 30,000 美元。B100 的預計售價在 35,000 至 40,000 美元之間——黃仁勛本人在今年早些時候接受CNBC采訪時曾表示，Blackwell 的價格是這個數字。

黃仁勛沒有展示的是，每一代需要多少 GPU 來運行 GPT-4 1.8T MoE 基準測試，以及這些 GPU 或電力在運行時的成本是多少。因此，我們根據黃所說的需要大約 10,000 個 B100 來訓練 GPT-4 1.8T MoE 大約十天，制作了一個電子表格：

在這八年中，GPU 價格上漲了 7.5 倍，但性能卻提高了 1,000 多倍。因此，現在可以想象使用 Blackwell 系統(tǒng)在十天左右的時間內訓練出具有 1.8 萬億個參數的大型模型，比如 GPT-4，而兩年前 Hopper 一代剛開始時，也很難在數月內訓練出具有數千億個參數的模型?，F在，系統(tǒng)成本將與該系統(tǒng)兩年的電費相當。（GPU 約占 AI 訓練系統(tǒng)成本的一半，因此購買 10,000 個 GPU 的 Blackwell 系統(tǒng)大約需要 8 億美元，運行十天的電費約為 540,000 美元。如果購買更少的 GPU，您可以減少每天、每周或每月的電費，但您也會相應增加訓練時間，這會使成本再次上漲。）

你不可能贏，但你也不能放棄。

猜猜怎么著？Nvidia 也做不到。所以就是這樣。即使 Hopper H100 GPU 平臺是“歷史上最成功的數據中心處理器”，正如黃仁勛在 Computex 主題演講中所說，Nvidia 也必須繼續(xù)努力。

附注：我們很樂意將 Hopper/Blackwell 的這次投資周期與六十年前 IBM System/360 的發(fā)布進行比較，正如我們去年所解釋的那樣，當時 IBM 做出了至今仍是企業(yè)歷史上最大的賭注。1961 年，當 IBM 啟動其“下一個產品線”研發(fā)項目時，它是一家年收入 22 億美元的公司，在整個 60 年代花費超過 50 億美元。藍色巨人是華爾街第一家藍籌公司，正是因為它花費了兩年的收入和二十年的利潤來創(chuàng)建 System/360。是的，它的一些部分有些晚了，表現也不佳，但它徹底改變了企業(yè)數據處理的性質。IBM 認為它可能會在 60 年代后期帶來 600 億美元的銷售額（以我們調整后的 2019 年美元計算），但他們的銷售額只有 1,390 億美元，利潤約為 520 億美元。

Nvidia 無疑為數據中心計算的第二階段掀起了更大的浪潮。那么現在真正的贏家可能被稱為綠色芯片公司（green chip company）嗎？

抵抗是徒勞的

無論是 Nvidia 還是其競爭對手或客戶都無法抵擋未來的引力以及生成性人工智能帶來的利潤和生產力承諾，而這種承諾不僅僅是在我們耳邊低語，更是在屋頂上大聲呼喊。

因此，Nvidia 將加快步伐，突破極限。憑借 250 億美元的銀行存款和今年預計超過 1000 億美元的收入，以及可能再有 500 億美元的銀行存款，它有能力突破極限，帶領我們走向未來。

“在這一驚人增長時期，我們希望確保繼續(xù)提高性能，繼續(xù)降低成本——訓練成本、推理成本——并繼續(xù)擴展 AI 功能以供每家公司使用。我們越提高性能，成本下降得就越厲害。”

正如我們上面所列的表格清楚表明的那樣，這是事實。

這給我們帶來了更新的 Nvidia 平臺路線圖：

這有點難讀，所以讓我們仔細研究一下。

在 Hopper 一代中，最初的 H100 于 2022 年推出，具有六層 HBM3 內存，并配有一個具有 900 GB/秒端口的 NVSwitch 將它們連接在一起，并配有 Quantum X400（以前稱為 Quantum-2）InfiniBand 交換機，具有 400 Gb/秒端口和 ConnectX-7 網絡接口卡。2023 年，H200 升級為六層 HBM3E 內存，具有更高的容量和帶寬，這提高了 H200 封裝中底層 H100 GPU 的有效性能。BlueField 3 NIC 也問世了，它為 NIC 添加了 Arm 內核，以便它們可以執(zhí)行附加工作。

2024 年，Blackwell GPU 當然會推出八層 HBM3e 內存，并與具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交換機配對。

我們現在可以看到，到 2025 年，B200（上圖稱為 Blackwell Ultra）將擁有 8 堆疊 HBM3e 內存，每疊有 12 個die高。B100 中的疊層大概是 8 堆疊，因此這應該代表 Blackwell Ultra 上的 HBM 內存容量至少增加 50%，甚至可能更多，具體取決于所使用的 DRAM 容量。HBM3E 內存的時鐘速度也可能更高。Nvidia 對 Blackwell 系列的內存容量一直含糊其辭，但我們在 3 月份 Blackwell 發(fā)布會上估計，B100 將擁有 192 GB 內存和 8 TB/秒帶寬。隨著未來的 Blackwell Ultra 的推出，我們預計會有更快的內存，如果看到 288 GB 內存和 9.6 TB/秒帶寬，我們也不會感到驚訝。

Nvidia 還將在 2025 年推出更高基數的 Spectrum-X800 以太網交換機，可能配備六個 ASIC，以創(chuàng)建無阻塞架構，就像其他交換機通常做的那樣，將總帶寬翻倍，從而使每個端口的帶寬或交換機的端口數量翻倍。

2026 年，我們將看到“Rubin” R100 GPU，它在去年發(fā)布的 Nvidia 路線圖中曾被稱為 X100，正如我們當時所說，我們認為 X 是一個變量，而不是任何東西的縮寫。事實證明確實如此。Rubin GPU 將使用 HBM4 內存，并將有 8 個堆棧，大概每個堆棧都有 12 個 DRAM，而 2027 年的 Rubin Ultra GPU 將有 12 個 HBM4 內存堆棧，并且可能還有更高的堆棧（盡管路線圖沒有提到這一點）。

我們要等到 2026 年，也就是當前“Grace”CPU 的后續(xù)產品“Vera”CPU 問世時，Nvidia 才會推出一款更強大的 Arm 服務器 CPU。NVSwitch 6 芯片與這些芯片配對，端口速度為 3.6 TB/秒，ConnectX-9 的端口速度為 1.6 Tb/秒。有趣的是，還有一種名為 X1600 IB/以太網交換機的產品，這可能意味著 Nvidia 正在融合其 InfiniBand 和以太網 ASIC，就像 Mellanox 十年前所做的那樣。

或者，這可能意味著 Nvidia 試圖讓我們所有人都感到好奇，只是為了好玩。2027 年還有其他跡象表明，這可能意味著超級以太網聯盟將完全支持 NIC 和交換機，甚至可能使用 UALink 交換機將節(jié)點內和跨機架將 GPU 連接在一起。

屆時我們可能將會看到。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

英偉達最新GPU和互聯路線圖

相關推薦

技術專區(qū)