A卡的鍋?世界第一超算Frontier,啟動至今無法連續(xù)工作一天
Frontier 上線給科學家提供算力的日期已經(jīng)推遲到了明年。
在全球范圍內(nèi),很多機構都在爭相構建 E 級(每秒百億億次)超級計算機,性能指數(shù)級跨越的超算預計會在人工智能、醫(yī)療、氣象等領域發(fā)揮重大作用,是超級電腦工程的重要里程碑。
世界第一臺 E 級超算是美國橡樹嶺國家實驗室(ORNL)的「Frontier」,它也是當前全球超算 TOP500 榜單的第一名,但雖說性能領先,F(xiàn)rontier 卻遠遠無法達到超算應有的效率。
近日,一些海外媒體接連報道稱,當前世界最快的超算的硬件出現(xiàn)了大量故障,機器甚至無法運行一整天。
ORNL Frontier 目前最多只能產(chǎn)生 60% 即 1 FP64 ExaFLOPS 的算力,而該系統(tǒng)旨在提供 1.685 FP64 ExaFLOPS。雖然官方還沒有就具體問題給出任何消息,但一些信息正被曝光。
在最新一期,2022 年 6 月的 TOP500 榜單中,F(xiàn)rontier 位列第一名,其標稱的速度是 1.685 FP64 ExaFLOPS。
橡樹嶺實驗室的 Frontier 是業(yè)界首個使用 AMD 的 64 核 EPYC Trento 處理器、Instinct MI250X 計算 GPU 和 Hewlett Packard Enterprise(HPE)的 Slingshot 互連,能以 21 兆瓦功率提供高達 1.685 FP64 ExaFLOPS 峰值性能的系統(tǒng)。HPE 構建了該系統(tǒng)并使用了 Cray EX 架構,它專為橫向擴展應用程序設計,適用于超高速超級計算機。
雖然從表面上看 Frontier 性能強大,并且系統(tǒng)硬件部分已經(jīng)交付,但當前面臨的問題似乎一直讓機器無法保持正常運轉,并且無法穩(wěn)定提供即使是不及標稱的 1 FP64 ExaFLOPS 的性能供研究人員使用。
OLCF 項目主管 Justin Whitt 表示:「我們正在解決硬件問題,并確保找出關鍵問題所在。目前看來主要是規(guī)模問題和應用程序的廣度問題,系統(tǒng)運行的項目過大,很難讓所有硬件協(xié)同運行,通常間隔幾小時就會出現(xiàn)一次故障?!箯哪撤N意義上說,F(xiàn)rontier 是在超級計算機的期末考試上成績不佳。
實際上,關于 Frontier 潛在硬件故障的流言已經(jīng)出現(xiàn)了很長一段時間。InsideHPC 曾報道稱有人說故障原因是系統(tǒng)遇到了 Slingshot 互連的問題。此外,還有人表示今年 AMD 的 Instinct MI250X 計算 GPU 的可靠性不如預期,并且具有更多流處理器和高時鐘的 X 版本僅適用于特定客戶。
Justin Whitt 沒有證實該系統(tǒng)遇到了 Instinct 或 Slingshot 等任何特定問題,他只是強調(diào)該機器存在許多硬件問題。
OLCF 負責人表示:「很多挑戰(zhàn)都集中在 GPU 上,GPU 是非常重要的硬件組成部分。但我們對 AMD 的產(chǎn)品尚且沒有太多擔憂?!?/span>
橡樹嶺國家實驗室的 Frontier 超級計算機并不是唯一一個使用 HPE Cray EX 架構、 Slingshot 互連、AMD EPYC CPU 和 AMD Instinct 計算 GPU 的系統(tǒng),芬蘭的 Lumi 超級計算機(Cray EX , EPYC Milan, Instinct MI250X 計算 GPU) 能提供 550 PetaFLOPS 峰值性能,并已被 TOP 500 正式列為世界第三強大的超級計算機。也許對于此類使用上千萬零件組成的超算來說,問題不是孤立的。
從官方論述來看,HPE 和 AMD 已在今年秋季提前向 ORNL 交付了新的 Frontier 系統(tǒng)。美國能源部 E 級超算項目的 Mike Bernhardt 表示,ORNL Frontier 的全面集成將從明年開始提供給研究人員,但并未引述對 Frontier 超級計算機的全面啟動有任何擔憂或問題。
在錯過了原先設定的 Deadline 后,F(xiàn)rontier 超級計算機計劃于 2023 年 1 月 1 日全面投入運行。
人們都在期待 E 級超算帶來的研究成果,不過伴隨世界第一而來的還有部分懷疑。一些專家認為,在 E 級計算的競爭中 Frontier 比不上中國的兩個計算機系統(tǒng),后者的運營商還沒有向 TOP500 提交測試結果。外媒 the Nextplatform 曾表示,神威海洋之光(oceanlite,太湖之光的升級版)和天河 3 號超算在 2021 年 3 月就達到了持續(xù)的 E 級算力。
去年 11 月的全球超級計算大會 SC21 上,來自中國的超算應用團隊因「超大規(guī)模量子隨機電路實時模擬」成果獲得戈登 · 貝爾獎。該團隊表示,研究基于的新一代神威超級計算機可提供每秒 4.4 百億億次的持續(xù)計算性能,是超算領域全世界當時已知的最高混合精度浮點計算性能。
專家們表示,中美之間的緊張關系可能是中國沒有向 TOP500 提交測試結果的原因。
參考內(nèi)容:
https://www.tomshardware.com/news/worlds-fastest-supercomputer-cant-run-a-day-without-failure
https://www.top500.org/lists/top500/2022/06/
https://www.tsinghua.edu.cn/info/1173/89027.htm
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。