微軟出“奇招”,用沸騰液體為數據中心降溫
編者按:人工智能的快速發(fā)展,對計算機的性能提出了更高要求,計算機行業(yè)也已經轉向能夠應對更高電功率的芯片架構。處理器電功率越高,芯片本身的溫度就會越高,風冷技術已經無法滿足降溫需求,因此,微軟引入浸入式冷卻技術,直接降低芯片表面的溫度,效率比在空氣中高出幾個數量級。
在美國華盛頓州昆西市,數量龐大的郵件和信息往返于微軟員工之間。而在位于哥倫比亞河(Columbia River)東岸的數據中心,裝有計算機服務器的鋼制貯槽中的液體正因這些數據而沸騰著。
與水不同的是,這個沙發(fā)型槽體中的液體對電子設備無害,經過設計,其沸點約為122華氏度(約50攝氏度),比水的沸點低了90華氏度(約50攝氏度)。
因服務器運行溫度產生的沸騰作用,使熱量從正在運行的計算機處理器中散發(fā)。低溫沸騰使服務器能夠在全功率下持續(xù)運行,避免因過熱而出現(xiàn)故障。
在槽體內部,沸騰液體所產生的蒸汽不斷上升,直到觸及到槽罐上的風冷式冷凝器變成液體。緊接著,這些“雨水”流回浸入式服務器中,形成一個封閉的循環(huán)冷卻系統(tǒng)。
工作于美國華盛頓州雷德蒙德的 Husam Alissa,是一名微軟數據中心的高級開發(fā)團隊的首席硬件工程師,他表示:“微軟是第一家在生產環(huán)境中采用兩相浸入式冷卻的云服務提供商?!?/p>
圖為 Azure 首席軟件工程師 Ioannis Manousakis(左),與微軟數據中心高級開發(fā)團隊首席硬件工程師Husam Alissa(右)正在檢查位于微軟數據中心的兩相浸入式冷卻槽
數據中心的摩爾定律
在計算機芯片風冷技術穩(wěn)定發(fā)展放緩之際,微軟長期計劃的下一步就是在生產環(huán)境中部署兩相浸入式冷卻,以滿足對于更快、更強大的數據中心計算機的需求。
幾十年來,得益于同一大小芯片上可容納的晶體管數量提升,芯片技術不斷進步,在不增加耗電量情況下,計算機處理器的速度幾乎每兩年就會翻一倍。
這種現(xiàn)象被稱為“摩爾定律”,以英特爾聯(lián)合創(chuàng)始人戈登?摩爾(Gordon Moore)的名字命名。戈登?摩爾在1965年觀察到了這一趨勢,并預測其將持續(xù)至少10年。摩爾定律在過去幾十年中得到了驗證,但是現(xiàn)在,這個趨勢已經開始放緩。
這是因為晶體管的寬度已經縮小到原子級,即將達到物理極限。“與此同時,面對諸如人工智能之類的高性能應用,對更快速的計算機處理器的需求正在加速增長”,Alissa 表示。
為了滿足性能需求,計算機行業(yè)已經轉向能夠應對更高電功率的芯片架構。例如,中央處理器(CPU)中的功率已從每芯片150瓦增加到300瓦以上;圖形處理器(GPU)的功率已增加到每芯片700瓦以上。
這些處理器電功率越高,芯片本身的溫度就會越高,容易出現(xiàn)故障,這就對冷卻效果提出了更高的要求。
工作于雷德蒙德總部的 Christian Belady 目前擔任微軟數據中心高級開發(fā)團隊的杰出工程師兼副總裁,他表示:“風冷已經無法滿足需求了。因此我們引入了浸入式冷卻技術,直接降低芯片表面的溫度?!?/p>
他強調,熱傳遞在液體中的效率比在空氣中高出幾個數量級。
他還補充道,向液冷技術的轉變?yōu)檎麄€數據中心帶來了類似摩爾定律的思維方式。
他指出:“液冷使我們能夠提高冷卻效果,提升芯片集成度,實現(xiàn)了摩爾定律趨勢在數據中心層面的延續(xù)?!?/p>
圖為微軟杰出工程師兼數據中心高級開發(fā)團隊副總裁 Christian Belady 在位于微軟數據中心的兩相浸入式冷卻槽旁
來自加密貨幣礦工的一課
Belady 指出,液冷是一項成熟的技術。目前道路上行駛的大多數汽車都依靠它來防止發(fā)動機過熱。包括微軟在內的幾家科技公司也正在試驗冷板技術,讓液體通過金屬板后輸送到服務器,對服務器進行冷卻。
加密貨幣行業(yè)的從業(yè)者率先在計算設備使用了液體浸入式冷卻技術,對記錄數字貨幣交易的芯片進行冷卻。
微軟研究了液體浸入式技術作為高性能應用(如人工智能)冷卻解決方案時的表現(xiàn)。結果顯示,兩相浸入式冷卻可以將任何給定服務器的功耗減少5%到15%。
在這一結果的推動下,微軟團隊與數據中心 IT 系統(tǒng)制造商和設計商 Wiwynn 合作,開發(fā)了兩相浸入式冷卻解決方案。首個解決方案現(xiàn)正運行在微軟位于華盛頓州昆西市的數據中心中。
沙發(fā)型槽體中充滿了 3M 工程流體。3M 的液冷流體具有介電特性,使其成為有效的絕緣體。當服務器完全浸沒在這類液體中時,仍能正常運行。
Azure 首席架構師、微軟技術研究員兼副總裁 Marcus Fontoura 表示,這種向兩相液體浸入冷卻技術的轉變,為有效管理云資源提供了更大的靈活性。
舉例來說,管理云資源的軟件可將數據中心計算需求的突發(fā)峰值分配給液冷貯槽中的服務器。這是因為,這些服務器可以在較高的功率下運行且不會有過熱的風險,這個過程也被稱為超頻。
Fontoura 指出:“打個比方,我們知道 Teams 的使用高峰是1點或2點,通常情況下,人們會在這個時間段內的同一時間加入會議,而浸入式冷卻為我們處理這些突發(fā)負載提供了更大的靈活性?!?/p>
沸騰的液體帶走了微軟數據中心計算機服務器所產生的熱量
微軟是第一個在生產環(huán)境中使用兩相浸入式冷卻技術的云服務提供商
可持續(xù)的數據中心
Fontoura 補充道,將兩相浸入式冷卻服務器加入到現(xiàn)有計算資源中,還能夠促使機器學習軟件在整個數據中心更高效地管理包括電力、冷卻以及技術維護人員在內的資源。
他強調:“我們不僅會大大提高效率,還會對可持續(xù)發(fā)展產生巨大影響。我們部署的每一件 IT 設備都將得到充分利用,不會產生任何浪費?!?/p>
液體冷卻也是無水技術,這將幫助微軟兌現(xiàn)承諾,即到2030年,微軟補充的水量將超過其全球運營的水消耗量。
Alissa 介紹道,穿過槽體的冷卻盤管可使蒸汽凝結,并連接到一個單獨的封閉回路系統(tǒng),利用流體將熱量從槽內傳遞到槽外的干冷卻器。由于這些盤管中的流體溫度總是高于周圍空氣溫度,因此無需通過噴水來調節(jié)空氣、進行蒸發(fā)冷卻。
同時,微軟也在與基礎設施行業(yè)的合作伙伴一同研究如何以一種既能減少流體流失、又對環(huán)境幾乎沒有影響的方式來運行槽體。
Azure 首席軟件工程師 Ioannis Manousakis 說:“如果方法得當,兩相浸入式冷卻將同時滿足我們在成本、可靠性和性能方面的所有要求,且與空氣冷卻相比,能耗非常小?!?/p>
圖為微軟團隊正在研究兩相浸入式冷卻技術。從左至右分別為:數據中心運營管理部門的 Dave Starkenburg,微軟數據中心高級開發(fā)團隊杰出工程師兼副總裁 Christian Belady,Azure 首席軟件工程師 Ioannis Manousakis 和微軟數據中心高級開發(fā)團隊首席硬件工程師 Husam Alissa
“我們讓服務器享受深海體驗”
對兩相浸入式冷卻技術的研究,是微軟多管齊下戰(zhàn)略的一部分,旨在使數據中心的建設、運營和維護更加可持續(xù)化且高效。
例如,數據中心高級開發(fā)團隊也在探索使用氫燃料電池代替柴油發(fā)電機,作為數據中心備用發(fā)電的可能性。
液冷項目與探索水下數據中心可能性的 Natick 項目類似,這種數據中心可以被快速部署,并且能夠被密封在類似水下管道內的海床上運行數年,無需進行任何現(xiàn)場維護。
水下數據中心不再充滿工程流體,取而代之的是干燥的氮氣。服務器由風扇和一個熱交換管道系統(tǒng)進行冷卻,該系統(tǒng)通過密封管道將海水泵入。
Natick 項目中的一個重要發(fā)現(xiàn)表明,海底服務器的故障率是陸地數據中心同樣服務器的八分之一。初步分析表明,低濕度和低氧氣腐蝕作用是水下服務器性能優(yōu)越的主要原因。
根據 Alissa 的預計,液體侵入式槽體內的服務器將具備類似的優(yōu)越性能。他說:“我們讓服務器無需安置水下,即可擁有‘深海體驗’?!?/p>
Ioannis Manousakis 是 Azure 首席軟件工程師,圖為他從微軟數據中心的兩相浸入式冷卻槽體中取出一個刀鋒服務器。(照片由 Gene Twedt 為微軟拍攝)
展望未來
如果浸入式槽體中服務器的故障率如預期降低,微軟將可以轉向一種無需在出現(xiàn)故障時立即更換組件的模式。這不僅能夠控制蒸汽損失,還能允許將槽體部署在偏遠且難以維修的位置。
此外,Belady 指出,如果能夠把服務器密集地封裝在槽體內,就能重新構想服務器的架構,并針對低延遲、高性能應用和低維護操作進行優(yōu)化。
例如,這種槽體可以部署在城市中心的 5G 蜂窩通信塔下,用于自動汽車駕駛等應用。
到目前為止,微軟在超大規(guī)模數據中心中只有一個運行工作負載的槽體。在接下來的幾個月中,微軟團隊將進行一系列測試,以證明槽體和這項技術的可行性。
Belady 說:“第一步是讓人們接受這個概念,并證明我們可以運行生產負載?!?/p>
*博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。