中國超算即將達(dá)到量子性能
在2021年全球超級計算大會(SC21)上,一支來自中國的團(tuán)隊摘得赫赫有名的戈登貝爾獎,該獎相當(dāng)于超算領(lǐng)域的諾貝爾獎。該團(tuán)隊的論文“Closing the Quantum Supremacy Gap: Achieving Real-Time Simulation of a Random Circuit Using a New Sunway Supercomputer”(縮小量子霸權(quán)差距:利用全新神威超級計算機(jī)實現(xiàn)隨機(jī)電路的實時仿真)描述了他們?nèi)绾问褂眯滦统売嬎銠C(jī)來仿真隨機(jī)量子電路。
事實上,谷歌對其2019年研發(fā)出的懸鈴木(Sycamore)量子計算機(jī)自稱“量子霸權(quán)”,當(dāng)時頗受爭議,而此次中國團(tuán)隊采用的即為同一測試基準(zhǔn)。谷歌曾聲稱,懸鈴木量子計算機(jī)在200秒內(nèi)能完成的計算任務(wù),像頂點(Summit)這樣的經(jīng)典超級計算機(jī)需要一萬年才能完成。這一說法當(dāng)時就遭到IBM的批駁,認(rèn)為真實數(shù)字可能只是2.5天。而最新的中國超級計算機(jī)結(jié)合了中國團(tuán)隊的算法研究,在304秒內(nèi)就能完成相同的計算任務(wù)??雌饋砹孔佑嬎銠C(jī)似乎仍然比經(jīng)典超級計算機(jī)稍勝一籌,但差距無疑在縮小。
據(jù)該論文描述,基于神威的超級計算機(jī)具有1.2ExaFLOPS的單精度性能。雖然這并沒有從官方上證實中國所具備的Exascale性能的傳聞(1.2ExaFLOPS為單精度,而“Exascale”這個術(shù)語則需要1ExaFLOPS的雙精度性能),但這款新型超級計算機(jī)似乎確實是世界上最強(qiáng)大的超級計算機(jī)之一。盡管它尚未命名,但可以確定,這項研究采用了4190萬個神威RISC處理器內(nèi)核進(jìn)行計算。
超算500強(qiáng)出爐人們都對世界上首個Exascale系統(tǒng)翹首以待,但全球超算排行榜500強(qiáng)HPC基準(zhǔn)測試結(jié)果顯示,前十名幾乎沒有變化。中國并沒有為其基于神威的新型超算系統(tǒng)報名參加評選,而2021年末上線的美國1.5ExaFLOPS系統(tǒng)Frontier(前沿)似乎也還沒有準(zhǔn)備好(圖1)。
在中國新型超算和美國Frontier缺席的情況下,500強(qiáng)榜首仍然是衛(wèi)冕冠軍富岳(Fugaku),這個記錄自2020年6月以來就一直保持著。這臺日本超級計算機(jī)的HPL(高性能Linpack)基準(zhǔn)分?jǐn)?shù)為442PFLOPS,是排名第二的超級計算機(jī)Summit性能的三倍。
圖1:1.5ExaFLOPS的Frontier將成為美國第一個Exascale超算系統(tǒng)。(圖片來源:美國橡樹嶺國家實驗室)
事實上,前十名幾乎沒有變化,唯一的新晉者是排在第十位的微軟Azure超級計算機(jī)Voyager-EUS2。該系統(tǒng)基于AMD Epyc Rome CPU和英偉達(dá)A100 GPU。
本輪值得注意的新晉者還包括四個俄羅斯的超算系統(tǒng),排名位于19至43名之間。
總體而言,本輪競賽中,中國進(jìn)入500強(qiáng)的系統(tǒng)從186個下降到173個,而美國從123個增加到150個。
MLPerf HPC得分大會還公布了AI基準(zhǔn)測試套件MLPerf HPC的測試結(jié)果。這種基準(zhǔn)測試專門用來衡量AI性能——AI在科學(xué)工作中的占比正變得越來越大。與上一輪提交相比,最佳基準(zhǔn)測試結(jié)果提高了4至7倍,這表明,新一代超算無論是硬件、軟件還是系統(tǒng)規(guī)模都有大幅的提升。
除了日本富岳由其基于Arm的CPU提供支持,沒有使用加速器之外,其他所有提交都由英偉達(dá)的GPU加速器提供支持,具體包括P100、V100和A100。
英偉達(dá)還是CosmoFlow和DeepCAM基準(zhǔn)測試中的贏家。CosmoFlow被用于根據(jù)宇宙學(xué)圖像數(shù)據(jù)進(jìn)行物理量的估計。最佳CosmoFlow測試結(jié)果為,采用1024個英偉達(dá)A100-SXM4-80GB GPU能夠在8.04分鐘內(nèi)完成訓(xùn)練,而富岳則是用512個CPU在114.35分鐘內(nèi)對其進(jìn)行管理。
DeepCAM被用于在氣候仿真數(shù)據(jù)中識別颶風(fēng)和大氣流。在此,英偉達(dá)仍居魁首,這次使用了相同的GPU但數(shù)量翻倍,時間為1.67分鐘。
美國勞倫斯伯克利國家實驗室則跑贏了新的OpenCatalyst基準(zhǔn)測試,他們采用了512個40GB版本相同的英偉達(dá)GPU,訓(xùn)練時間為111.86分鐘。OpenCatalyst主要用于根據(jù)圖的連通性預(yù)測分子構(gòu)型的能量。提交人表示,將圖形網(wǎng)絡(luò)包含進(jìn)來非常重要,因為它反映了材料科學(xué)和化學(xué)工作負(fù)載的最新技術(shù)水平。其計算特性不同于其他類型的神經(jīng)網(wǎng)絡(luò),因為它們往往具有稀疏性,而且不同的數(shù)據(jù)集會導(dǎo)致網(wǎng)絡(luò)具有不同的結(jié)構(gòu)和連接性,這會導(dǎo)致負(fù)載的不均衡,從而使負(fù)載難以有效地并行。
另外,測試中還引入了新的性能指標(biāo)——弱縮放模式意味著系統(tǒng)能夠同時訓(xùn)練同一模型的多個實例。其目標(biāo)是要捕獲對共享資源(如存儲系統(tǒng)和互連)的影響。
多裸片GPU就在本屆SC21大會之前,部分半導(dǎo)體公司發(fā)布了一些重要公告。
大會前不久,AMD推出了首款多裸片GPU。AMD Instinct MI200將包含兩個GPU裸片,它們之間通過一種新的2.5D硅橋技術(shù)(高架扇出橋,EFB)連接。該公司表示,與嵌入式硅橋架構(gòu)競爭技術(shù)不同,這項技術(shù)支持標(biāo)準(zhǔn)的襯底和組裝技術(shù)。
MI200將是第一款基于AMD第二代CDNA2架構(gòu)的GPU,該架構(gòu)針對計算密集型HPC和AI工作負(fù)載進(jìn)行了優(yōu)化。與去年的第一代產(chǎn)品MI100相比,這款新器件尺寸大1.8 倍,擁有220個計算單元和880個矩陣內(nèi)核。MI200還將擁有多達(dá)8個HBM2e內(nèi)存堆棧,從而成為第一款具有128GB HBM2e內(nèi)存的GPU。其內(nèi)存容量是MI100的4.7倍,內(nèi)存帶寬是MI100的2.7倍。其FP64向量運算峰值性能為 47.9 TFLOPS,F(xiàn)P64矩陣數(shù)學(xué)峰值性能為95.7 TFLOPS。
據(jù)透露,美國首個Exascale超級計算機(jī)Frontier就將采用AMD Instinct MI200 GPU。
“當(dāng)我們?nèi)ハ胛覀冞@一代人所面臨的最重要的挑戰(zhàn),例如能源轉(zhuǎn)型、氣候變化以及克服我們目前所面臨的新冠疫情等問題時,F(xiàn)rontier將使我們能夠利用由AMD處理器所驅(qū)動并提供支持的機(jī)器的能力來應(yīng)對這些重要挑戰(zhàn)。”美國橡樹嶺國家實驗室(Frontier的所在地)的實驗室主任Thomas Zacharia表示,“這使得MI200成為目前科學(xué)家們可利用的最強(qiáng)大的處理器。其單個GPU的性能就比目前美國最快超級計算機(jī)頂點的整個節(jié)點還要強(qiáng)大?!?/span>
Zacharia表示,F(xiàn)rontier將很快上線,并于明年年初提供給科學(xué)家。
仿真地球英偉達(dá)首席執(zhí)行官黃仁勛在英偉達(dá)GTC大會開幕主題演講中透露,該公司將建造一臺新的超級計算機(jī) Earth 2,它將成為地球的數(shù)字孿生,主要用來仿真和預(yù)測氣候的變化(圖3)。黃仁勛還透露,Earth 2 將全部由英偉達(dá)出資開發(fā),其規(guī)模將與英偉達(dá)內(nèi)部的Selene超級計算機(jī)和用于醫(yī)學(xué)研究的Cambridge-1 UK設(shè)備大致相同。他補(bǔ)充說,Earth 2的架構(gòu)將使其成為“有史以來最節(jié)能的超級計算機(jī)”,不過,這臺超算具體位于何處還待定。
來源:EDN電子技術(shù)設(shè)計
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。