在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 英偉達性能怪獸,內(nèi)部細節(jié)詳解

            英偉達性能怪獸,內(nèi)部細節(jié)詳解

            發(fā)布人:傳感器技術(shù) 時間:2024-03-26 來源:工程師 發(fā)布文章

            Nvidia 上個禮拜發(fā)布了迄今為止最強大的 DGX 服務(wù)器。120kW 機架規(guī)模系統(tǒng)使用 NVLink 將 72 個新型 Blackwell 加速器拼接在一起,形成一個本質(zhì)上能夠提供超過 1.4 exaFLOPS 性能的大型 GPU(無論如何,在 FP4 精度下)。


            在這里,我們仔細研究機架規(guī)模系統(tǒng),Nvidia 聲稱該系統(tǒng)可以支持大量訓練工作量以及對高達 27 萬億個參數(shù)的模型進行推理,但目前還沒有任何模型有這么大。


            圖片


            該系統(tǒng)被稱為 DGX GB200 NVL72,是 Nvidia在 11 月份展示的基于 Grace-Hopper Superchip 的機架系統(tǒng)的演變。然而,這個處理器的 GPU 數(shù)量是其兩倍多。



            計算堆棧



            雖然 1.36 公噸(3,000 磅)機架系統(tǒng)作為一個大型 GPU 進行銷售,但它由 18 個 1U 計算節(jié)點組裝而成,每個節(jié)點都配備了兩個 Nvidia 的 2,700W Grace-Blackwell Superchips (GB200)。


            圖片


            大量部件使用 Nvidia 的 900GBps NVLink-C2C 互連將 72 核 Grace CPU 與一對頂級規(guī)格的 Blackwell GPU 結(jié)合在一起。


            總體而言,每個 Superchip 均配備 864GB 內(nèi)存(480GB LPDDR5x 和 384GB HBM3e),根據(jù) Nvidia 的說法,可以推動 40 petaFLOPS 的稀疏 FP4 性能。這意味著每個計算節(jié)點能夠產(chǎn)生 80 petaFLOPS 的人工智能計算,整個機架可以執(zhí)行 1.44 exaFLOPS 的超低精度浮點數(shù)學運算。


            圖片


            系統(tǒng)前端是四個 InfiniBand NIC(請注意機箱面板左側(cè)和中心的四個 QSFP-DD 籠),它們構(gòu)成了計算網(wǎng)絡(luò)。該系統(tǒng)還配備了 BlueField-3 DPU,我們被告知它負責處理與存儲網(wǎng)絡(luò)的通信。


            除了幾個管理端口之外,該機箱還具有四個小型 NVMe 存儲盒。


            圖片


            憑借兩個 GB200 超級芯片和五個 NIC,我們估計每個節(jié)點的功耗為 5.4kW 到 5.7kW。絕大多數(shù)熱量將通過直接芯片 (DTC) 液體冷卻方式帶走。Nvidia 在 GTC 上展示的 DGX 系統(tǒng)沒有冷板,但我們確實看到了合作伙伴供應(yīng)商的幾個原型系統(tǒng),例如聯(lián)想的這個系統(tǒng)。


            圖片


            然而,與我們從 HPE Cray 或聯(lián)想的 Neptune 系列中看到的以液體冷卻所有設(shè)備的一些以 HPC 為中心的節(jié)點不同,Nvidia 選擇使用傳統(tǒng)的 40mm 風扇來冷卻 NIC 和系統(tǒng)存儲等低功耗外圍設(shè)備。



            將它們縫合在一起



            在他的主題演講中,首席執(zhí)行官兼皮夾克愛好者 Jensen Huang 將 NVL72 描述為一個大型 GPU。這是因為所有 18 個超密集計算節(jié)點都通過位于機架中間的九個 NVLink 交換機堆棧相互連接。


            圖片


            Nvidia 的 HGX 節(jié)點也使用了相同的技術(shù)來使其 8 個 GPU 發(fā)揮作用。但是,NVL72 中的 NVLink 開關(guān)并不是像下面所示的 Blackwell HGX 那樣將 NVLink 開關(guān)烘焙到載板上,而是一個獨立的設(shè)備。


            圖片


            這些交換機設(shè)備內(nèi)部有一對 Nvidia 的 NVLink 7.2T ASIC,總共提供 144 100 GBps 鏈路。每個機架有 9 個 NVLink 交換機,可為機架中 72 個 GPU 中的每個 GPU 提供 1.8 TBps(18 個鏈路)的雙向帶寬。


            圖片


            NVLink 交換機和計算底座均插入盲插背板,并具有超過 2 英里(3.2 公里)的銅纜布線。透過機架的背面,您可以隱約看到一大束電纜,它們負責將 GPU 連接在一起,以便它們可以作為一個整體運行。


            圖片


            堅持使用銅纜而不是光纖的決定似乎是一個奇怪的選擇,特別是考慮到我們正在討論的帶寬量,但顯然支持光學所需的所有重定時器和收發(fā)器都會在系統(tǒng)已經(jīng)巨大的基礎(chǔ)上再增加 20kW電力消耗。


            這可以解釋為什么 NVLink 交換機底座位于兩個計算組之間,因為這樣做可以將電纜長度保持在最低限度。



            電源、冷卻和管理



            在機架的最頂部,我們發(fā)現(xiàn)了幾個 52 端口 Spectrum 交換機 — 48 個千兆位 RJ45 和四個 QSFP28 100Gbps 聚合端口。據(jù)我們所知,這些交換機用于管理和傳輸來自構(gòu)成系統(tǒng)的各個計算節(jié)點、NVLink 交換機底座和電源架的流式遙測。


            圖片


            這些交換機的正下方是從 NVL72 前面可見的六個電源架中的第一個 - 三個位于機架頂部,三個位于底部。我們對它們了解不多,只知道它們負責為 120kW 機架提供電力。


            根據(jù)我們的估計,六個 415V、60A PSU 就足以滿足這一要求。不過,Nvidia 或其硬件合作伙伴可能已經(jīng)在設(shè)計中內(nèi)置了一定程度的冗余。這讓我們相信它們的運行電流可能超過 60A。我們已向 Nvidia 詢問有關(guān)電源架的更多詳細信息;我們會讓您知道我們的發(fā)現(xiàn)。


            不管他們是怎么做的,電力都是由沿著機架背面延伸的超大規(guī)模直流母線提供的。如果仔細觀察,您可以看到母線沿著機架中間延伸。


            圖片


            當然,冷卻 120kW 的計算并不是小事。但隨著芯片變得越來越熱和計算需求不斷增長,我們看到越來越多的比特倉(包括 Digital Realty 和 Equinix)擴大了對高密度 HPC 和 AI 部署的支持。


            就 Nvidia 的 NVL72 而言,計算交換機和 NVLink 交換機均采用液體冷卻。據(jù) Huang 介紹,冷卻劑以每秒 2 升的速度進入 25 攝氏度的機架,離開時溫度升高 20 度。



            橫向擴展



            如果 DGX GB200 NVL72 的 13.5 TB HBM3e 和 1.44 exaFLOPS 稀疏 FP4 還不夠,那么可以將其中的 8 個網(wǎng)絡(luò)連接在一起,形成一個具有 576 個 GPU 的大型 DGX Superpod。


            圖片


            果您需要更多計算來支持大型訓練工作負載,則可以添加額外的 Superpod 以進一步擴展系統(tǒng)。這正是 Amazon Web Services 通過Project Ceiba所做的事情。這款 AI 超級計算機最初于 11 月宣布,現(xiàn)在使用 Nvidia 的 DGX GB200 NVL72 作為模板。據(jù)報道,完成后該機器將擁有 20,736 個 GB200 加速器。然而,該系統(tǒng)的獨特之處在于,Ceiba 將使用 AWS 自主開發(fā)的 Elastic Fabric Adapter (EFA) 網(wǎng)絡(luò),而不是 Nvidia 的 InfiniBand 或以太網(wǎng)套件。


            英偉達表示,其 Blackwell 部件,包括機架規(guī)模系統(tǒng),將于今年晚些時候開始投放市場。


            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: 英偉達

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉