中國工程院院士、清華大學計算機系教授鄭緯民:重視我國超算基礎(chǔ)軟件生態(tài)建設(shè)
今日,在 2023CCF 全國高性能計算學術(shù)年會(CCF HPC CHINA 2023)中,中國工程院院士、清華大學計算機系教授鄭緯民做了題為《重視我國超算基礎(chǔ)軟件生態(tài)建設(shè)》的主題演講。
本文引用地址:http://www.biyoush.com/article/202308/449936.htm會議伊始,鄭緯民教授提到了中國超算的情況:國產(chǎn)超算處于國際第一梯隊!國產(chǎn)超算是中國的一張名片!國產(chǎn)超算是信創(chuàng)的典范!
中國超算為何能躋身國際前列呢?首先,中國能做最快的計算機。過去十年,中國在頂尖超算系統(tǒng)研制處于國際領(lǐng)先行列,下圖為中國超級計算系統(tǒng)部署情況。
其次,TOP 500 的機器里,中國占有量基本是第一。比如 2022 年,500 臺里中國有 162 臺,占比 32.4%,位居世界第一。
第三,中國超算的應(yīng)用也取得了很好的成果。以入圍 ACM Gordon Bell Prize 為例:2014 年中國超算就已經(jīng)應(yīng)用在地震模擬當中,2016 年應(yīng)用在大氣動力框架、相場模擬、海浪模擬,2017 年應(yīng)用在地震模擬和大氣模擬,2018 年應(yīng)用在圖計算框架,2021 年應(yīng)用在量子模擬、人造太陽和第一性原理等領(lǐng)域。
此外,中國超算還多次獲得了國際超算最高獎 ACM Gorden Bell 獎。2016 年 ACM 戈登貝爾獎千萬核可擴展全球大氣動力學全隱式模擬。2017 年 ACM 戈登貝爾獎非線性大地震模擬。2021 年 ACM 戈登貝爾獎基于最優(yōu)收縮路徑的通用量子模擬器。
可見,中國超算已經(jīng)取得了不錯的成績,不過鄭緯民教授提出,中國超算在軟件生態(tài)建設(shè)上還存在幾點問題。
問題一:將領(lǐng)先算力高效轉(zhuǎn)化為解決科學與工程難題能力依然存在重大挑戰(zhàn)
將世界領(lǐng)先的計算能力高效轉(zhuǎn)化為解決尖端科學與工程難題的能力是世界范圍難題,且隨著異構(gòu)架構(gòu)路線的發(fā)展更加劇了該問題的鴻溝。關(guān)于應(yīng)對方案,鄭緯民教授表示,超算基礎(chǔ)軟件是提升轉(zhuǎn)化能力的關(guān)鍵之一。
超算基礎(chǔ)軟件是實現(xiàn)并行應(yīng)用開發(fā)、優(yōu)化、部署、運行高效的基礎(chǔ)和關(guān)鍵。國產(chǎn)超算系統(tǒng)已經(jīng)部署部分基礎(chǔ)軟件,仍有亟待解決的問題。
問二:國產(chǎn)超算平臺架構(gòu)多樣,應(yīng)用移植和調(diào)優(yōu)工作量大
國產(chǎn)超算平臺目前的情況是:不同國產(chǎn)超算平臺選擇各異架構(gòu)實現(xiàn)算力跨域發(fā)展,加劇了應(yīng)用在移植和優(yōu)化上面臨的困難;不同系統(tǒng)需要單獨編程與優(yōu)化;相同的應(yīng)用需要在不同平臺單獨編程和優(yōu)化;編程復(fù)雜度高;異構(gòu)架構(gòu)在負載均衡、同步上需特殊考慮;不同編程語言和接口;程序很難簡單移植。此外,國產(chǎn)超算平臺的移植成本高昂。
對此,鄭緯民教授提出了針對這一問題的建議:加強跨平臺編譯優(yōu)化平臺的研究和建設(shè)、統(tǒng)一并行編程模型和編譯優(yōu)化平臺。一次編程,跨平臺高效運行。
問題三:國產(chǎn)超算平臺支持復(fù)雜應(yīng)用全流程計算的能力亟須改善
鄭緯民教授提到大計算往往與大數(shù)據(jù)相伴,不過國產(chǎn)超算平臺軟件支持并不完備,無法實現(xiàn)全流程大數(shù)據(jù)處理與人工智能應(yīng)用的快速移植和部署。此外 I/O 能力也存在不足——比如在由國家并行計算機工程技術(shù)研究中心研制的超級計算機神威·太湖之光上,分鐘級計算完成,卻需要 40 分鐘預(yù)處理和載入數(shù)據(jù)。鄭緯民教授的建議是加強國產(chǎn)超算 HPDA 系統(tǒng)軟件的建設(shè)。
問題四:跨超算中心協(xié)同研發(fā)和部署戰(zhàn)略應(yīng)用的能力亟需提升——算力網(wǎng)絡(luò)
針對這一問題,鄭緯民教授提到要建立跨超算中心協(xié)同的戰(zhàn)略應(yīng)用快速研發(fā)支持。高性能專項已支持「國家高性能計算環(huán)境領(lǐng)域應(yīng)用平臺及服務(wù)體系研究與構(gòu)建」等項目設(shè)計和實施跨中心協(xié)同開展領(lǐng)域應(yīng)用的方案。
建立起更廣泛安全的計算與數(shù)據(jù)互連,開展相關(guān)基礎(chǔ)軟件創(chuàng)新,超級計算創(chuàng)新聯(lián)盟也許可以發(fā)揮更大作用。那如何實現(xiàn)這一艱巨任務(wù)呢?鄭緯民教授認為在這之前要先解決兩件事情,第一點就是算力互聯(lián)。算力互聯(lián)要求帶寬高、延遲低。
第二個要解決的是網(wǎng)絡(luò)傳輸問題。以氣象領(lǐng)域為例,氣象領(lǐng)域每分鐘可產(chǎn)生 90GB 數(shù)據(jù),一天 124TB 的數(shù)據(jù),如何將這些數(shù)據(jù)傳輸?shù)匠阒行模績煞N解決方案:高速網(wǎng)絡(luò)連接和隨身攜帶。
高性能網(wǎng)絡(luò)的優(yōu)點是體驗好,足不出戶就可以完成數(shù)據(jù)傳輸業(yè)務(wù);缺點是包年租用價格太貴,100Gbps 專線列表價 266 萬-322 萬/年(含 IP)。隨身攜帶的優(yōu)勢是按需傳送,在可攜帶范圍內(nèi)吞吐量相對較高;缺點是體驗差,需要人員攜帶存儲設(shè)備乘坐交通工具送達,存在多次拷貝的問題。
不過太湖之光數(shù)據(jù)快遞業(yè)務(wù)試點技術(shù)方案(端到端彈性網(wǎng)絡(luò))已經(jīng)可以帶來不錯的體驗。通過測算,采用 3 條 PON 彈性云專線聚合和云互連傳輸 4T 數(shù)據(jù)需 3.03 小時,初步測算單次傳輸價格低于 1000 元,比現(xiàn)有云專網(wǎng)包月、云專網(wǎng)彈性均具備價格優(yōu)勢,而且提供更好的體驗。
最后,鄭緯民教授表示中國超算已經(jīng)做出了很大的成績,未來再把生態(tài)做好,中國超算也一定會有更好的發(fā)展!
評論