不想依賴英偉達!微軟發(fā)布兩款自研AI芯片,可訓練大模型
11月16日消息,美國時間周三,微軟發(fā)布了首款自研人工智能(AI)芯片,可用于訓練大語言模型,擺脫對英偉達昂貴芯片的依賴。微軟還為云基礎設施構建了基于Arm架構的CPU。這兩款自研芯片旨在為Azure數據中心提供動力,并幫助該公司及其企業(yè)客戶準備迎接AI時代的到來。
本文引用地址:http://www.biyoush.com/article/202311/453015.htm微軟的Azure Maia AI芯片和Arm架構Azure Cobalt CPU將于2024年上市。今年,英偉達的H100 GPU需求激增,這些處理器被廣泛用于訓練和運行生成圖像工具和大語言模型。這些GPU的需求非常高,甚至在eBay上的售價超過了4萬美元。
微軟Azure硬件系統(tǒng)和基礎設施主管拉尼·博卡(Rani Borkar)在接受采訪時解釋說:“微軟在芯片開發(fā)方面有著悠久的歷史?!痹缭?0多年前,微軟就與人合作開發(fā)了Xbox的芯片,甚至還合作設計了Surface設備的芯片。博卡表示:“這些努力都是建立在這些經驗基礎之上的。2017年,我們開始構建云硬件堆棧,并開啟了這段旅程,使我們走上了構建新自研芯片的軌道。”
新的Azure Maia AI芯片和Azure Cobalt CPU都是由微軟內部構建的,并對其整個云服務器堆棧進行了深度檢修,以優(yōu)化性能、功耗和成本。博卡表示:“我們正在重新考慮人工智能時代的云基礎設施,并真正優(yōu)化該基礎設施的每一層。”
Azure Cobalt CPU以元素“鈷”(鈷藍是重要的藍色顏料)命名,是一款128核芯片,基于Arm的Neoverse CSS設計,并為微軟定制。它旨在為Azure上的通用云服務提供支持。博卡解釋稱:“我們花了很多心思,不僅要讓它具有高性能,還要注意到電源管理。為此我們做了許多有意識的設計選擇,包括控制每個內核和每臺虛擬機上性能和功耗的能力?!?/p>
微軟目前正在測試Cobalt CPU的工作負載,如Teams和SQL服務器,并計劃明年為客戶提供各種工作負載的虛擬機。雖然博卡沒有直接將其與亞馬遜在AWS上提供的Graviton 3服務器進行比較,但與微軟目前用于Azure的基于Arm的服務器相比,應該會有一些明顯的性能提升。博卡表示:“我們的初步測試表明,我們的性能比目前使用商用Arm服務器的數據中心提高了40%?!?微軟還沒有分享完整的系統(tǒng)規(guī)格或基準。
微軟的Maia 100 AI加速器以“昴宿四”(一顆明亮的藍色恒星,希臘神話中稱為邁亞)命名,專為運行云端人工智能工作負載而設計,如大語言模型訓練和推理。它將用于支持該公司在Azure上某些最大的人工智能工作負載,包括與OpenAI高達100多億美元的合作。微軟將為OpenAI的所有工作負載提供支持。這家軟件巨頭一直在與OpenAI在Maia的設計和測試方面進行合作。
OpenAI首席執(zhí)行官薩姆·奧特曼(Sam Altman)說:“當微軟第一次分享他們的Maia芯片設計時,我們感到非常興奮。我們一起努力,利用我們的模型來改進和測試它。Azure的端到端人工智能架構現(xiàn)在通過Maia進行了優(yōu)化,為訓練更有能力的模型鋪平了道路,并使這些模型對我們的客戶來說變得更便宜?!?/p>
Maia采用臺積電5納米工藝制造,擁有1050億個晶體管,比AMD的MI300X AI GPU(1530億個晶體管)少了30%左右。博卡說:“MAIA支持我們的第一個8位數據類型,即MX數據類型,以便協(xié)同設計硬件和軟件,這有助于我們支持更快的模型訓練和推理時間?!?/p>
微軟與AMD、Arm、英特爾、Meta、英偉達和高通等公司都加入了一個組織,該組織正在為人工智能模型的下一代數據格式制定標準。同時,微軟正在以開放計算項目(OCP)的協(xié)作和開放工作為基礎,以使整個系統(tǒng)適應人工智能的需求。
博卡透露:“Maia是微軟制造的第一個完整的液冷服務器處理器,我們的目標是以更高的效率實現(xiàn)更高的服務器密度。因為我們正在重新構想整個堆棧,我們特意考慮到了每一層,所以這些系統(tǒng)實際上也適合我們目前的數據中心?!?/p>
這對微軟來說非常關鍵,因為它可以更快地啟動這些人工智能服務器,而不必在世界各地的數據中心重新為它們騰出空間。微軟建造了獨特的機架用來放置Maia服務器主板,并配有名為“助手”的液體冷卻器。它的工作原理就像在汽車或高檔游戲PC上搭載的散熱器,可以冷卻Maia芯片的表面。
除了共享MX數據類型,微軟還與合作伙伴共享其機架設計,以便他們可以在內部有其他芯片的系統(tǒng)上使用它們。但Maia芯片的設計不會被更廣泛地分享,微軟將其保留在內部。
Maia 100目前正在GPT 3.5 Turbo上進行測試,該模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微軟正處于部署的早期階段,就像Cobalt一樣,該公司還不愿意發(fā)布確切的Maia規(guī)范或性能基準。
這使得我們很難準確解讀Maia將如何與英偉達廣受歡迎的H100 GPU、最近發(fā)布的H200,甚至AMD最新的MI300X進行比較。博卡也不想進行比較,而是重申,與英偉達和AMD的合作對于Azure人工智能云的未來仍然非常關鍵。博卡表示:“在云計算運營的規(guī)模下,優(yōu)化和整合堆棧的每一層,以最大限度地提高性能,使供應鏈多樣化,并為我們的客戶提供基礎設施選擇,這真的非常重要?!?/p>
供應鏈的多樣化對微軟來說同樣重要,尤其是考慮到英偉達目前是人工智能服務器芯片的主要供應商,而各家公司一直在競相購買這些芯片。據估計,為了推進ChatGPT的商業(yè)化,OpenAI需要超過3萬個英偉達的老款A100 GPU,而微軟的自研芯片可以幫助其客戶降低人工智能的成本。微軟還為自己的Azure云工作負載開發(fā)了這些芯片,而不打算將其出售給英偉達、AMD、英特爾和高通等其他公司。
博卡解釋稱:“我認為這更像是一種互補,而不是與他們競爭。今天,我們在云計算領域同時使用英特爾和AMD的芯片。同樣,在人工智能領域,我們也可以同時使用AMD和英偉達的芯片。這些合作伙伴對我們的基礎設施非常重要,我們真的希望給我們的客戶選擇?!?/p>
Maia 100和Cobalt 100的命名表明微軟已經在設計這些芯片的第二代版本。博卡說:“這是一個系列,不只是一代就結束了,但我們不會分享我們的路線圖?!蹦壳斑€不清楚微軟多久會發(fā)布一次Maia和Cobalt的迭代,但考慮到人工智能的發(fā)展速度,如果Maia 100的繼任者以與英偉達H200相似的速度發(fā)布(大約20個月),無需為此感到驚訝。
現(xiàn)在的關鍵是,微軟將以多快的速度讓Maia運行起來,加快推進其人工智能雄心,以及這些芯片將如何影響人工智能云服務的使用定價。微軟還沒有準備好談論這款新服務器的定價,但我們已經看到該公司悄悄地推出了針對Microsoft 365的Copilot,每位用戶每月收費30美元。
目前,Microsoft 365版的Copilot僅限于微軟的大客戶,企業(yè)用戶必須承諾至少擁有300個用戶,才能使用這款新的人工智能Office助手。隨著微軟本周推出更多的Copilot功能,并對Bing Chat進行了品牌重塑,Maia可能很快就會幫助彌補對支持這些新體驗的人工智能芯片的需求。
評論