UALink還是Ultra Ethernet,面向AI的數(shù)據(jù)中心協(xié)議
AI 和 HPC 數(shù)據(jù)中心中的計(jì)算節(jié)點(diǎn)越來(lái)越需要擴(kuò)展到芯片或封裝之外,以獲取額外的資源來(lái)處理不斷增長(zhǎng)的工作負(fù)載。他們可能會(huì)征用機(jī)架中的其他節(jié)點(diǎn)(縱向擴(kuò)展)或使用其他機(jī)架中的資源(橫向擴(kuò)展)。
本文引用地址:http://www.biyoush.com/article/202503/468265.htm問(wèn)題是目前沒(méi)有開(kāi)放的 Scale-up 協(xié)議。到目前為止,這項(xiàng)任務(wù)一直由專有協(xié)議主導(dǎo),因?yàn)榇蟛糠肿罡咝阅艿挠?jì)算都是在大型數(shù)據(jù)中心使用定制芯片和架構(gòu)完成的。雖然以太網(wǎng)在橫向擴(kuò)展方面很受歡迎,但對(duì)于 AI 和高性能計(jì)算工作負(fù)載來(lái)說(shuō),它并不理想。
但兩種新協(xié)議 UALink 和 Ultra Ethernet 旨在解決當(dāng)前縱向擴(kuò)展和橫向擴(kuò)展通信的缺陷。UALink 是一種全新的縱向擴(kuò)展協(xié)議,而 Ultra Ethernet 則基于以太網(wǎng)構(gòu)建,用于橫向擴(kuò)展。
多重通信職責(zé)
“計(jì)算節(jié)點(diǎn)” 是一個(gè)描述某些計(jì)算軌跡的抽象概念。它具有有限的容量,可以訪問(wèn)有限數(shù)量的內(nèi)存和其他可能的資源,例如加速器。就其本身而言,它不足以應(yīng)對(duì)高強(qiáng)度工作負(fù)載,并且依賴于其他節(jié)點(diǎn)來(lái)分配整體問(wèn)題。提供交換數(shù)據(jù)和協(xié)調(diào)作所需通信的協(xié)議通??煞譃槿?。
最低級(jí)別的協(xié)議是 die-to-die 互連,由于先進(jìn)的封裝,它在今天具有相關(guān)性。軟件包中看起來(lái)像單個(gè)計(jì)算節(jié)點(diǎn)的東西可能是多個(gè)小芯片一起工作。實(shí)現(xiàn)此目的的協(xié)議是 UCIe 和 Bunch of Wires (BoW) 以及一些專有協(xié)議。但所有這些通信在包裝之外都是不可見(jiàn)的。
滿載的計(jì)算節(jié)點(diǎn)可以看作是連接了計(jì)算、內(nèi)存和加速器的服務(wù)器主板。但是,主板上可能有多個(gè)處理器,因此系統(tǒng)軟件會(huì)確定哪些工作負(fù)載在哪些處理器上運(yùn)行。但這對(duì)于訓(xùn)練 AI 模型所需的任務(wù)類型來(lái)說(shuō)還不夠。這需要伸手進(jìn)入機(jī)架或 Pod 以利用更多資源。
目標(biāo)是組裝多個(gè)計(jì)算節(jié)點(diǎn),同時(shí)保持單個(gè)計(jì)算空間的感覺(jué) — 多個(gè)處理器和加速器充當(dāng)具有統(tǒng)一地址的單個(gè)大型處理器或加速器。這個(gè)中間通信級(jí)別是縱向擴(kuò)展的,這就是 UALink 的用武之地。它與 PCIe 和 CXL 一起工作,但只有 UALink 具有統(tǒng)一分配資源的作用。
“UALink 旨在連接您的主要 GPU 單元,以實(shí)現(xiàn) GPU 到 GPU 的擴(kuò)展,”Synopsys 高性能計(jì)算 IP 解決方案產(chǎn)品管理副總裁 Michael Posner 說(shuō)?!八荚谠黾訋挷p少該連接的延遲?!?/p>
GPU 只是加速器的一種類型,UALink 可以廣泛地與任何類型的加速器配合使用。然后,UALink 抽象出加速器之間的劃分。
“我們的想法是將 AI 處理器互連起來(lái),看起來(lái)像這個(gè) Pod 中的一個(gè)大型處理器,”Synopsys 首席產(chǎn)品經(jīng)理 Jon Ames 說(shuō)。
內(nèi)存訪問(wèn)是 UALink 角色的重要組成部分。Cadence 硅解決方案集團(tuán)設(shè)計(jì) IP 高級(jí)產(chǎn)品營(yíng)銷組總監(jiān) Arif Khan 在一篇博文中表示:“UALink 優(yōu)化了 pod 中加速器之間的 xPU 到 xPU 內(nèi)存通信,無(wú)論是直接連接還是通過(guò)完全連接的高基數(shù)開(kāi)關(guān)。
超越機(jī)架
機(jī)架中的資源之外,其他機(jī)架中也有類似的資源。但是,這些機(jī)架無(wú)法通過(guò)將單個(gè)機(jī)架固定在一起的同一互連進(jìn)行訪問(wèn)。以太網(wǎng)通常在機(jī)架之間通信,這就是橫向擴(kuò)展 — 最高通信級(jí)別。它類似于 Scale-up,但其覆蓋范圍比 Scale-up 所能提供的更廣泛。此架構(gòu)在機(jī)架內(nèi)有一個(gè)網(wǎng)絡(luò)(例如 PCIe),在機(jī)架外(或網(wǎng)絡(luò)的另一個(gè)層)具有另一個(gè)網(wǎng)絡(luò)。這是縱向擴(kuò)展和橫向擴(kuò)展之間的主要區(qū)別。
“超級(jí)以太網(wǎng)解決了橫向擴(kuò)展問(wèn)題,”P(pán)osner 說(shuō)?!八⒃趥鹘y(tǒng)以太網(wǎng)之上。”
Khan 對(duì)此表示贊同?!翱?Pod 的擴(kuò)展依賴于 Ultra Ethernet 來(lái)加速數(shù)據(jù)中心以太網(wǎng)(本質(zhì)上是替代當(dāng)今依賴遠(yuǎn)程 DMA/RoCE 的批量傳輸),”他說(shuō)。
圖 1:數(shù)據(jù)中心互連的四個(gè)級(jí)別。在整個(gè)數(shù)據(jù)中心中,從一個(gè)機(jī)架移動(dòng)到另一個(gè)機(jī)架構(gòu)成了橫向擴(kuò)展通信。在同一機(jī)架內(nèi)進(jìn)行縱向擴(kuò)展。在高級(jí)處理器封裝中,晶粒間互連處理晶粒間通信。來(lái)源:Bryon Moyer/Semiconductor Engineering
die-to-die 協(xié)議和其他協(xié)議之間的一個(gè)根本區(qū)別是鏈路的基本性質(zhì) — 串行與并行。UCIe 和 BoW 都是 parallel interface,通常帶有 forwarded clocks。這提供了最低的延遲,同時(shí)需要更多的引腳,并使 skew 成為一個(gè)更重要的問(wèn)題。
UALink 和 Ultra Ethernet 使用串行鏈路。這大大減少了必要信號(hào)的數(shù)量,但它增加了提取 clock 和解析非 non-return-to-zero (NRZ) 格式的 symbol 值的開(kāi)銷。這種額外的處理是導(dǎo)致 die-to-die 協(xié)議提供的鏈接延遲增加的原因?!芭c任何接口相比,UCIe 和 BoW 等并行接口的 NoC 到 NoC 延遲都非常低,”Siemens EDA 中央工程解決方案總監(jiān) Pratyush Kamal 指出。
縱向擴(kuò)展:一個(gè)綠地
如今,PCIe 和 CXL 可以在機(jī)架級(jí)別運(yùn)行,但它們不提供 UALink 創(chuàng)建者正在設(shè)計(jì)的語(yǔ)義。因此,現(xiàn)有技術(shù)由廣泛的專有解決方案組成。每家實(shí)施 Scaleup 的公司都必須投入資源來(lái)設(shè)計(jì)協(xié)議,而多家公司做同樣的事情會(huì)消耗行業(yè)的效率。
“我們看到 UALink 取代了許多專有互連,”Synopsys 的 IP 戰(zhàn)略營(yíng)銷經(jīng)理 Ron Lowman 說(shuō)?!癧創(chuàng)建專有版本的設(shè)計(jì)師] 使用了從 PCIe 到以太網(wǎng)以及介于兩者之間的一切,并通過(guò)定制來(lái)處理擴(kuò)展,UALink 正在解決這個(gè)問(wèn)題?!?/p>
UALink 聯(lián)盟于去年秋天正式召開(kāi)會(huì)議,其既定目標(biāo)是“開(kāi)發(fā)互連技術(shù)規(guī)范,促進(jìn) AI 加速器之間的直接加載、存儲(chǔ)和原子作”。事實(shí)上,UALink 中的 UA 代表 Ultra Accelerator。它并沒(méi)有排除 PCIe 或 CXL,這三者的職責(zé)之間存在重疊。但是,UALink 正在專門(mén)針對(duì) AI 和 HPC 工作負(fù)載進(jìn)行優(yōu)化。
它由三個(gè)主要層組成 — 一個(gè)頂部的事務(wù)層,用于管理完整事務(wù),一個(gè)位于中間的數(shù)據(jù)鏈路層,用于管理每個(gè)躍點(diǎn),以及一個(gè)處理信號(hào)的物理層 (PHY)。前兩個(gè)是新的,但 PHY 層利用現(xiàn)有的功能來(lái)加快實(shí)施和采用。
在某種程度上,縱向擴(kuò)展一直是 PCIe 的領(lǐng)域,但沒(méi)有針對(duì) AI 進(jìn)行優(yōu)化。Lowman 說(shuō):“你在 PCIe 中看到的是許多不同的芯片執(zhí)行許多不同的任務(wù),而 UALink 實(shí)際上是在嘗試采用 AI 加速器,并將其從 1 擴(kuò)展到 1,000 來(lái)處理單個(gè)工作負(fù)載?!癠ALink 不具備 PCIe 的所有功能和向后兼容性,但它可以滿足特定的 AI 工作負(fù)載需求,例如全局內(nèi)存尋址和共享內(nèi)存?!?/p>
UALink 的兩個(gè)初始版本將首次亮相,一個(gè)是 224 Gbps,另一個(gè)可以放寬半速(-200 和 -100 版本)。兩者都將采用以太網(wǎng) PHY。在初始版本發(fā)布后,計(jì)劃推出 -128 版本,該版本將利用 PCIe Gen 7 的 PHY。
該聯(lián)盟開(kāi)發(fā) UALink 并不是為了理想,而是為了快速實(shí)現(xiàn),因?yàn)樵撔袠I(yè)發(fā)展得如此之快?!癆I 硬件軟件的發(fā)展速度比硬件的響應(yīng)速度要快得多,”Lowman 說(shuō)。“因此,盡快推出有助于擴(kuò)大規(guī)模的產(chǎn)品將對(duì)整個(gè)行業(yè)有益?!?/p>
這意味著盡可能多地重復(fù)使用現(xiàn)有標(biāo)準(zhǔn)?!拔覀兊南敕ú⒉皇钦f(shuō)以太網(wǎng)和 PCI 是絕對(duì)最好的選擇,”Lowman 說(shuō)?!拔覀兊南敕ㄊ?,我們可以使用標(biāo)準(zhǔn)化協(xié)議快速進(jìn)入市場(chǎng),該協(xié)議可以完成縱向擴(kuò)展架構(gòu)所需的基本工作。因此,該聯(lián)盟采用了現(xiàn)有的技術(shù)。UALink 128 利用了類似 PCIe 的 PHY,UALink 200 利用了基于以太網(wǎng)的 PHY。
預(yù)計(jì) UALink 不會(huì)挑戰(zhàn) PCIe 或 CXL。“我們已經(jīng)就 PCIe、CXL 和 UALink 的定位進(jìn)行了很多對(duì)話,我們堅(jiān)信它們?cè)谑袌?chǎng)上都有自己的利基市場(chǎng),”他說(shuō)。
UALink 1.0 規(guī)范應(yīng)在下個(gè)季度提供,并可免費(fèi)下載。
橫向擴(kuò)展:基于以太網(wǎng)
構(gòu)建 由于能夠很好地處理廣泛的應(yīng)用程序,以太網(wǎng)已被廣泛采用。但它的一些策略會(huì)損害性能,主要是由于尾部延遲。
以太網(wǎng)中的通信延遲不是固定的或可預(yù)測(cè)的。一個(gè)事務(wù)可能完成而沒(méi)有問(wèn)題,而另一個(gè)事務(wù)可能會(huì)遇到鏈路擁塞,并丟棄數(shù)據(jù)包,因此需要重新發(fā)送。盡管大多數(shù)事務(wù)可以在最短的時(shí)間內(nèi)完成,但這些工作負(fù)載需要所有節(jié)點(diǎn)同步才能繼續(xù),并且一個(gè)鏈接比其他鏈接花費(fèi)的時(shí)間更長(zhǎng)可能會(huì)阻礙一切。術(shù)語(yǔ) tail latency 指的是由這些(希望)少數(shù)事務(wù)引起的延遲。它們是延遲分布的尾部。
在考慮延遲時(shí),還必須認(rèn)識(shí)到 die-to-die 連接增加的延遲不僅僅是物理層延遲?!爸匾氖?NoC 到 NoC 的延遲,而不是 PHY 到 PHY 的延遲,”Kamal 說(shuō)。
由于通信方式的性質(zhì),此問(wèn)題對(duì)于 AI 和 HPC 工作負(fù)載尤其嚴(yán)重。以太網(wǎng)最常用于傳遞東西向或南北向的數(shù)據(jù)流。有一種方向性和一種感覺(jué),“我們完成了那個(gè)流程,這是我們最后一次看到它。但 AI/HPC 工作負(fù)載與發(fā)送數(shù)據(jù)進(jìn)行計(jì)算,然后返回結(jié)果有關(guān)。這不僅僅是一條消失的溪流。它是數(shù)據(jù)輸出和結(jié)果,一遍又一遍。它更像是呼吸而不是流動(dòng),每次發(fā)送數(shù)據(jù)都是呼氣,結(jié)果是吸氣。每次“呼吸”都涉及節(jié)點(diǎn)之間的多個(gè)交易。
“以太網(wǎng)是專門(mén)為成為通用網(wǎng)絡(luò)而開(kāi)發(fā)的,”超級(jí)以太網(wǎng)聯(lián)盟指導(dǎo)委員會(huì)主席 J Metz 說(shuō)?!叭绻阌心媳苯煌ɑ驏|西交通,那就太好了。如果你有集群流量執(zhí)行 all-to-all、all-reduce 或任何其他集合,那就不太好了。當(dāng)你來(lái)回傳遞消息,以便它們可以進(jìn)行自己的處理,然后將其發(fā)送回去時(shí),這更像是那種呼吸環(huán)境。
無(wú)花果。 2:Ultra Ethernet 在數(shù)據(jù)中心網(wǎng)絡(luò)中的位置。縱向擴(kuò)展發(fā)生在節(jié)點(diǎn)內(nèi),使資源集合看起來(lái)像一個(gè)虛擬節(jié)點(diǎn)。Ultra Ethernet 擴(kuò)展這些節(jié)點(diǎn)。雖然此處未說(shuō)明,但 CPU 和 GPU 都可以參與。來(lái)源:Ultra Ethernet Consortium
盡管 Ultra Ethernet 可以通過(guò)網(wǎng)絡(luò)接口卡 (NIC) 進(jìn)行連接,但這不是必需的?!敖Y(jié)構(gòu)端點(diǎn) (FEP) 可以是任何具有結(jié)構(gòu)地址的設(shè)備,它可以是加速器本身的合適以太網(wǎng)點(diǎn),”Metz 說(shuō)?!癋EP 的魔力發(fā)生了,包括擁塞、語(yǔ)義和數(shù)據(jù)包交付控制。”
圖 2 展示了一個(gè)簡(jiǎn)化的數(shù)據(jù)中心網(wǎng)絡(luò),重點(diǎn)是 GPU 。但 CPU 也可以參與?!癆I 工作流程不是鐵板一塊,”Metz 說(shuō)?!霸诓煌旱?CPU 和 GPU 之間,甚至在集群內(nèi)部,都存在許多階段。有些工作最好在 CPU 中完成,有些在 GPU 中完成。
超級(jí)以太網(wǎng)聯(lián)盟 (UEC) 專門(mén)針對(duì)這種類型的通信,具有一些強(qiáng)制性功能和一些可選功能。給定一個(gè)事務(wù),只有終端節(jié)點(diǎn)具有強(qiáng)制行為。這是有意為之的,以便可以使用標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)構(gòu)建 Ultra Ethernet 網(wǎng)絡(luò)。雖然沒(méi)有提供 Ultra Ethernet 的所有優(yōu)勢(shì),但端點(diǎn)安裝可以繼續(xù)進(jìn)行,而無(wú)需等待新交換機(jī)。
向以太網(wǎng)
添加層 標(biāo)準(zhǔn)以太網(wǎng) 指定第 2 層(數(shù)據(jù)鏈路)及以下層的功能。它不知道事務(wù)或終端節(jié)點(diǎn)。它只是逐個(gè)躍點(diǎn)移動(dòng)數(shù)據(jù)。Ultra Ethernet 在此基礎(chǔ)上增加了第 3 層(網(wǎng)絡(luò))和第 4 層(傳輸)。它是管理事務(wù)語(yǔ)義的傳輸層。它必須是安全的嗎?所有數(shù)據(jù)包都必須按順序到達(dá)嗎?它必須可靠嗎?
“傳輸部分是 Ultra Ethernet 的重要組成部分,”Ames 說(shuō)?!八鼮槟峁┝丝梢詼p少整體系統(tǒng)延遲的機(jī)制。”
層的神圣性在傳統(tǒng)以太網(wǎng)中沒(méi)有得到很好的尊重。其他功能已經(jīng)悄悄滲入了一些層次,而這些層次可能更適合其他層次。Ultra Ethernet 正在努力避免這種情況?!澳阋_保當(dāng)你在第二層做某事時(shí),它會(huì)做第二層,”Metz 說(shuō)?!澳阆朐诘谌龑幼鳇c(diǎn)什么,它就是第三層。你不做你不在 MAC 層做路由協(xié)議。
第 3 層僅使用互聯(lián)網(wǎng)協(xié)議 (IP),保持不變?!癧我們]目前沒(méi)有解決網(wǎng)絡(luò)層問(wèn)題,”他說(shuō)。“從某種意義上說(shuō),這很好,因?yàn)樗兄诤?jiǎn)化流程,并使使用 Clos 或葉脊配置的傳統(tǒng)數(shù)據(jù)中心環(huán)境變得非常容易。一旦您開(kāi)始研究 dragonfly、megafly 或 torus [網(wǎng)絡(luò)拓?fù)鋆 等內(nèi)容,您將在 HPC 環(huán)境中更頻繁地看到這些,我們就不關(guān)注這些了。我們將來(lái)必須解決這個(gè)問(wèn)題。
傳輸層是標(biāo)準(zhǔn)的強(qiáng)制性部分,在端點(diǎn)中實(shí)現(xiàn)?!霸唇K端節(jié)點(diǎn)將成為核心決策者,然后接收終端節(jié)點(diǎn)將提供 [這些決策] 所需的反饋,”Metz 說(shuō)。在出現(xiàn)問(wèn)題數(shù)據(jù)包的情況下,目標(biāo)不會(huì)發(fā)送通常的 ACK(確認(rèn)),而是發(fā)送 NACK(否定確認(rèn))以及一些診斷信息。
“您可以識(shí)別丟失或速度較慢的數(shù)據(jù)包,并將其發(fā)送回源頭,”Metz 解釋說(shuō)?!皝?lái)源將其與它最初選擇的任何路徑相結(jié)合,并在重新提交時(shí)選擇了不同的路徑。”
圖 3: 超級(jí)以太網(wǎng)堆棧包括傳輸層和網(wǎng)絡(luò)層,其中傳輸層是強(qiáng)制性的。到目前為止,網(wǎng)絡(luò)層采用的 IP 沒(méi)有變化。數(shù)據(jù)鏈路層和物理層添加了新的可選功能。藍(lán)色元素是必需的,綠色元素與以太網(wǎng)相同,米色元素是可選的。來(lái)源:Ultra Ethernet Consortium。
新功能有助于減少尾部延遲
展示 Ultra Ethernet 減少延遲的方法的四項(xiàng)功能是無(wú)序交付、鏈路級(jí)重試、流量控制和數(shù)據(jù)包噴射。其中許多交易只是將數(shù)據(jù)從一個(gè)地方發(fā)送到另一個(gè)地方,只要數(shù)據(jù)全部到達(dá)那里,它到達(dá)的順序就無(wú)關(guān)緊要。您仍然可以選擇按順序交付,但這不是必需的。
如果某些數(shù)據(jù)未到達(dá),則無(wú)需重新發(fā)送整個(gè)事務(wù)。目標(biāo)終端節(jié)點(diǎn)可以識(shí)別任何缺失的數(shù)據(jù)包,只有那些數(shù)據(jù)包會(huì)被重新發(fā)送。此外,如果中間節(jié)點(diǎn)沿路徑收到一個(gè)壞數(shù)據(jù)包,它可以立即請(qǐng)求重試該數(shù)據(jù)包,而無(wú)需在堆棧上移動(dòng)并在事務(wù)級(jí)別處理它。
“鏈路級(jí)重試可以防止堆棧上層的協(xié)議不必確定是否需要重新傳輸某些內(nèi)容,”Ames 說(shuō),并指出了在較低級(jí)別響應(yīng)更快的好處,以及需要只重新發(fā)送壞數(shù)據(jù)包而不是整個(gè)事務(wù)。
由于鏈路級(jí)重試是一項(xiàng)可選功能,因此在使用新鏈路層升級(jí)交換機(jī)之前,早期的 Ultra Ethernet 網(wǎng)絡(luò)不會(huì)具有此功能。
另一個(gè)鏈路層修改與流控制有關(guān)?!霸阪溌芳?jí)別有一個(gè)基于信用的流量控制機(jī)制,”Ames 說(shuō)。
最后,標(biāo)準(zhǔn)以太網(wǎng)通常會(huì)為流或事務(wù)選擇一條路徑,并在事務(wù)期間堅(jiān)持使用。如果選擇了擁塞或其他受損的路徑,則該事務(wù)可能需要很長(zhǎng)時(shí)間才能在任何必要的重試后完全到達(dá)。數(shù)據(jù)包噴射是一項(xiàng)可選功能,允許源為每個(gè)數(shù)據(jù)包做出單獨(dú)的路徑?jīng)Q策。
Ames 通過(guò)將其與標(biāo)準(zhǔn)以太網(wǎng)進(jìn)行比較來(lái)描述它?!叭绻?jié)點(diǎn) A 與節(jié)點(diǎn) Q 通信,則通過(guò)一條路徑,如果節(jié)點(diǎn) A 與節(jié)點(diǎn) X 通信,則可能會(huì)采用不同的路徑,”他解釋說(shuō)。“這就是多路徑在常規(guī)以太網(wǎng)中的工作方式。使用數(shù)據(jù)包噴射,您可以通過(guò)不同的鏈路發(fā)送數(shù)據(jù)包,網(wǎng)絡(luò)將在遠(yuǎn)端處理重組。但通常這只是一次數(shù)據(jù)傳輸,所以如果事情不按順序到達(dá)也沒(méi)關(guān)系。
最終,這些功能提供了更快地移動(dòng)數(shù)據(jù)包的選項(xiàng),并且重試次數(shù)更少或更多。某些功能(例如安全性)可能會(huì)增加典型事務(wù)的延遲,但是當(dāng)系統(tǒng)等待最后一個(gè)數(shù)據(jù)包到達(dá)時(shí),尾部延遲是限制因素,而不是標(biāo)稱延遲。是的,每筆交易的到達(dá)速度可能會(huì)慢一點(diǎn),但由于最后一個(gè)數(shù)據(jù)包的提前到達(dá),每個(gè)人都可以更快地開(kāi)始。
與 UALink
Ultra 以太網(wǎng)的 1.0 規(guī)范類似的時(shí)間即將到來(lái)?!拔覀冋诳紤]在 4 月或 5 月發(fā)布,”Metz 說(shuō)?!八鼘?duì)所有人開(kāi)放下載?!币坏┌l(fā)布,就可以快速創(chuàng)建終端節(jié)點(diǎn),而路由上的交換機(jī)可能需要更長(zhǎng)的時(shí)間來(lái)升級(jí)。
“最終,為端點(diǎn)使用 ASIC 比為交換機(jī)使用 ASIC 更快,”Metz 說(shuō)?!耙话銇?lái)說(shuō),交換 ASIC 不是單一用途的,開(kāi)發(fā)周期比端點(diǎn)長(zhǎng)得多。它們比端點(diǎn)有更多的功能要求,并且必須經(jīng)過(guò)大量的回歸測(cè)試。
盡管 UEC 使用的是由 IEEE 管理的標(biāo)準(zhǔn)以太網(wǎng),但它計(jì)劃持續(xù)保持超級(jí)以太網(wǎng)控制,而不是將結(jié)果交給 IEEE 處理。“UEC 是一個(gè)標(biāo)準(zhǔn)組織,”Metz 解釋說(shuō)?!拔覀兇_實(shí)與 IEEE 建立了合作關(guān)系,與他們合作并共享信息,但 Ultra Ethernet 是一種 UEC 協(xié)議?!?/p>
挑戰(zhàn)在于,IEEE可以在Ultra Ethernet 1.0鎖定后對(duì)其鏈路層進(jìn)行一些更改?,F(xiàn)在,鏈路層的 IEEE 和超級(jí)以太網(wǎng)版本不同,它們可能仍然不同。該組織意識(shí)到了這一挑戰(zhàn),并通過(guò)與與以太網(wǎng)有關(guān)系的組織保持溝通來(lái)應(yīng)對(duì)這一挑戰(zhàn)。
“我們正在與 IEEE、OCP、OIF、SNIA、以太網(wǎng)聯(lián)盟和 UALink 聯(lián)盟合作,我們都在共同努力,以確保不會(huì)發(fā)生這種分叉,”Metz 說(shuō)。UALink Consortium 證實(shí)他們正在以類似的方式工作。
事實(shí)上,一個(gè)方面已經(jīng)在發(fā)揮作用——為 400 Gbps PHY 做準(zhǔn)備,預(yù)計(jì)可能在 2028/9 年的時(shí)間范圍內(nèi)。這似乎很遙遠(yuǎn),但已經(jīng)在進(jìn)行討論,以協(xié)調(diào)任何將依賴該 PHY 的組織之間的努力。最終,目標(biāo)是所有衍生產(chǎn)品都可以基于一組統(tǒng)一的基本以太網(wǎng)功能進(jìn)行構(gòu)建。
結(jié)論
目前尚不清楚 HPC 本身是否能證明在這些新協(xié)議中付出的努力是合理的,但 AI 無(wú)處不在,而且它更像是 HPC 的殺手級(jí)應(yīng)用程序。HPC 當(dāng)然可以順勢(shì)而為,即使發(fā)送的交易的具體細(xì)節(jié)可能與 AI 不同。甚至 AI 也會(huì)在不同時(shí)間有不同的交易風(fēng)格。正是出于這個(gè)原因,存在各種選項(xiàng),Ultra Ethernet 允許發(fā)送者選擇適合給定交易的最佳語(yǔ)義。
有趣的是,這兩項(xiàng)努力幾乎同時(shí)到期,盡管兩個(gè)組織之間沒(méi)有協(xié)調(diào)。鑒于規(guī)范將在 2025 年上半年推出,可能會(huì)有一個(gè)審查期,在此期間,公司會(huì)在采用之前評(píng)估規(guī)范。然后將它們加工成硅至少需要一年時(shí)間,因此這些協(xié)議可能會(huì)在 2026 年底開(kāi)始出現(xiàn)在數(shù)據(jù)中心。
評(píng)論