不想依賴英偉達！微軟發(fā)布兩款自研AI芯片，可訓練大模型

作者：時間：2023-11-17 來源：網易科技

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

11月16日消息，美國時間周三，微軟發(fā)布了首款自研人工智能（AI）芯片，可用于訓練大語言模型，擺脫對英偉達昂貴芯片的依賴。微軟還為云基礎設施構建了基于Arm架構的CPU。這兩款自研芯片旨在為Azure數據中心提供動力，并幫助該公司及其企業(yè)客戶準備迎接AI時代的到來。

本文引用地址：http://www.biyoush.com/article/202311/453015.htm

微軟的Azure Maia AI芯片和Arm架構Azure Cobalt CPU將于2024年上市。今年，英偉達的H100 GPU需求激增，這些處理器被廣泛用于訓練和運行生成圖像工具和大語言模型。這些GPU的需求非常高，甚至在eBay上的售價超過了4萬美元。

微軟Azure硬件系統(tǒng)和基礎設施主管拉尼·博卡（Rani Borkar）在接受采訪時解釋說：“微軟在芯片開發(fā)方面有著悠久的歷史?！痹缭?0多年前，微軟就與人合作開發(fā)了Xbox的芯片，甚至還合作設計了Surface設備的芯片。博卡表示：“這些努力都是建立在這些經驗基礎之上的。2017年，我們開始構建云硬件堆棧，并開啟了這段旅程，使我們走上了構建新自研芯片的軌道。”

新的Azure Maia AI芯片和Azure Cobalt CPU都是由微軟內部構建的，并對其整個云服務器堆棧進行了深度檢修，以優(yōu)化性能、功耗和成本。博卡表示：“我們正在重新考慮人工智能時代的云基礎設施，并真正優(yōu)化該基礎設施的每一層。”

Azure Cobalt CPU以元素“鈷”（鈷藍是重要的藍色顏料）命名，是一款128核芯片，基于Arm的Neoverse CSS設計，并為微軟定制。它旨在為Azure上的通用云服務提供支持。博卡解釋稱：“我們花了很多心思，不僅要讓它具有高性能，還要注意到電源管理。為此我們做了許多有意識的設計選擇，包括控制每個內核和每臺虛擬機上性能和功耗的能力?！?/p>

微軟目前正在測試Cobalt CPU的工作負載，如Teams和SQL服務器，并計劃明年為客戶提供各種工作負載的虛擬機。雖然博卡沒有直接將其與亞馬遜在AWS上提供的Graviton 3服務器進行比較，但與微軟目前用于Azure的基于Arm的服務器相比，應該會有一些明顯的性能提升。博卡表示：“我們的初步測試表明，我們的性能比目前使用商用Arm服務器的數據中心提高了40%?！?微軟還沒有分享完整的系統(tǒng)規(guī)格或基準。

微軟的Maia 100 AI加速器以“昴宿四”（一顆明亮的藍色恒星，希臘神話中稱為邁亞）命名，專為運行云端人工智能工作負載而設計，如大語言模型訓練和推理。它將用于支持該公司在Azure上某些最大的人工智能工作負載，包括與OpenAI高達100多億美元的合作。微軟將為OpenAI的所有工作負載提供支持。這家軟件巨頭一直在與OpenAI在Maia的設計和測試方面進行合作。

OpenAI首席執(zhí)行官薩姆·奧特曼（Sam Altman）說：“當微軟第一次分享他們的Maia芯片設計時，我們感到非常興奮。我們一起努力，利用我們的模型來改進和測試它。Azure的端到端人工智能架構現(xiàn)在通過Maia進行了優(yōu)化，為訓練更有能力的模型鋪平了道路，并使這些模型對我們的客戶來說變得更便宜?！?/p>

Maia采用臺積電5納米工藝制造，擁有1050億個晶體管，比AMD的MI300X AI GPU（1530億個晶體管）少了30%左右。博卡說：“MAIA支持我們的第一個8位數據類型，即MX數據類型，以便協(xié)同設計硬件和軟件，這有助于我們支持更快的模型訓練和推理時間?！?/p>

微軟與AMD、Arm、英特爾、Meta、英偉達和高通等公司都加入了一個組織，該組織正在為人工智能模型的下一代數據格式制定標準。同時，微軟正在以開放計算項目(OCP)的協(xié)作和開放工作為基礎，以使整個系統(tǒng)適應人工智能的需求。

博卡透露：“Maia是微軟制造的第一個完整的液冷服務器處理器，我們的目標是以更高的效率實現(xiàn)更高的服務器密度。因為我們正在重新構想整個堆棧，我們特意考慮到了每一層，所以這些系統(tǒng)實際上也適合我們目前的數據中心?！?/p>

這對微軟來說非常關鍵，因為它可以更快地啟動這些人工智能服務器，而不必在世界各地的數據中心重新為它們騰出空間。微軟建造了獨特的機架用來放置Maia服務器主板，并配有名為“助手”的液體冷卻器。它的工作原理就像在汽車或高檔游戲PC上搭載的散熱器，可以冷卻Maia芯片的表面。

除了共享MX數據類型，微軟還與合作伙伴共享其機架設計，以便他們可以在內部有其他芯片的系統(tǒng)上使用它們。但Maia芯片的設計不會被更廣泛地分享，微軟將其保留在內部。

Maia 100目前正在GPT 3.5 Turbo上進行測試，該模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微軟正處于部署的早期階段，就像Cobalt一樣，該公司還不愿意發(fā)布確切的Maia規(guī)范或性能基準。

這使得我們很難準確解讀Maia將如何與英偉達廣受歡迎的H100 GPU、最近發(fā)布的H200，甚至AMD最新的MI300X進行比較。博卡也不想進行比較，而是重申，與英偉達和AMD的合作對于Azure人工智能云的未來仍然非常關鍵。博卡表示：“在云計算運營的規(guī)模下，優(yōu)化和整合堆棧的每一層，以最大限度地提高性能，使供應鏈多樣化，并為我們的客戶提供基礎設施選擇，這真的非常重要?！?/p>

供應鏈的多樣化對微軟來說同樣重要，尤其是考慮到英偉達目前是人工智能服務器芯片的主要供應商，而各家公司一直在競相購買這些芯片。據估計，為了推進ChatGPT的商業(yè)化，OpenAI需要超過3萬個英偉達的老款A100 GPU，而微軟的自研芯片可以幫助其客戶降低人工智能的成本。微軟還為自己的Azure云工作負載開發(fā)了這些芯片，而不打算將其出售給英偉達、AMD、英特爾和高通等其他公司。

博卡解釋稱：“我認為這更像是一種互補，而不是與他們競爭。今天，我們在云計算領域同時使用英特爾和AMD的芯片。同樣，在人工智能領域，我們也可以同時使用AMD和英偉達的芯片。這些合作伙伴對我們的基礎設施非常重要，我們真的希望給我們的客戶選擇?！?/p>

Maia 100和Cobalt 100的命名表明微軟已經在設計這些芯片的第二代版本。博卡說：“這是一個系列，不只是一代就結束了，但我們不會分享我們的路線圖?！蹦壳斑€不清楚微軟多久會發(fā)布一次Maia和Cobalt的迭代，但考慮到人工智能的發(fā)展速度，如果Maia 100的繼任者以與英偉達H200相似的速度發(fā)布（大約20個月），無需為此感到驚訝。

現(xiàn)在的關鍵是，微軟將以多快的速度讓Maia運行起來，加快推進其人工智能雄心，以及這些芯片將如何影響人工智能云服務的使用定價。微軟還沒有準備好談論這款新服務器的定價，但我們已經看到該公司悄悄地推出了針對Microsoft 365的Copilot，每位用戶每月收費30美元。

目前，Microsoft 365版的Copilot僅限于微軟的大客戶，企業(yè)用戶必須承諾至少擁有300個用戶，才能使用這款新的人工智能Office助手。隨著微軟本周推出更多的Copilot功能，并對Bing Chat進行了品牌重塑，Maia可能很快就會幫助彌補對支持這些新體驗的人工智能芯片的需求。