行業(yè)大牛開啟新征程,芯片架構創(chuàng)新迎來新局面
本周,全球 IT 業(yè)最大的新聞非 OpenAI 聯(lián)合創(chuàng)始人山姆·奧特曼(Sam Altman)離開原公司、加入微軟莫屬。當然,這并不是終點。
本文引用地址:http://www.biyoush.com/article/202312/453557.htmSam Altman 被 OpenAI 董事會驅逐,被認為是技術派的勝利,因為另一名聯(lián)合創(chuàng)始人薩斯克維爾認為 Altman 商業(yè)化行動過于激進,存在很多安全隱患,因此,聯(lián)合其他三名外部董事驅逐了 Altman。
本文不關注 OpenAI 的「宮斗」大戲,無論 Altman 最終留在微軟,還是回歸 OpenAI,都不會影響他開創(chuàng) AI 軟硬件新技術和市場的意愿,區(qū)別只是在哪里做而已。
據(jù)悉,在被解職之前,Altman 就在探尋新業(yè)務,曾試圖在中東籌集數(shù)十億美元用于人工智能(AI)芯片項目 Tigris,還想創(chuàng)建一家專注于 AI 芯片研發(fā)的公司,或許,這一項目已經(jīng)被微軟拿下了。另外,Altman 還一直在尋求為一款 AI 硬件設備籌集資金,該設備是他與前蘋果設計總監(jiān) Jony Ive 共同開發(fā)的。
近些年,在 AI 發(fā)展方興未艾的大背景下,不甘于已經(jīng)取得的「輝煌成績」,選擇開創(chuàng)新業(yè)務(從新創(chuàng)業(yè)或加盟一家富有活力的大公司)的行業(yè)大牛不止 Altman 一人,還有多位業(yè)界知名業(yè)界人士,特別是技術大牛,都選擇了再創(chuàng)業(yè),因為他們無法抵擋 AI 發(fā)展的巨大潛力,要趁當下還處于「野蠻成長」的產(chǎn)業(yè)發(fā)展初級階段,爭取用先進的技術和產(chǎn)品,掌控未來競爭的主動權。在這些人當中,典型代表是 CPU 架構大神 Jim Keller 和 GPU 架構大神 Raja Koduri。
2020 年 6 月,Jim Keller 離開了工作兩年的英特爾,2021 年初,AI 芯片初創(chuàng)公司 Tenstorrent 宣布任命 Jim Keller 為公司總裁兼首席技術官,以及董事會成員。Tenstorrent 創(chuàng)立于 2016 年,旨在通過一種新方法和體系結構,研發(fā)新型 AI 處理器,以推動 AI 和機器學習的發(fā)展。近兩年,Tenstorrent 十分看重 RISC-V 的應用前景,認為其非常適合未來低功耗 AI 應用市場需求。
2023 年 3 月,Raja Koduri 離開了工作五年的英特爾,選擇創(chuàng)業(yè)。據(jù) Koduri 透露,他的新創(chuàng)公司 Mihira AI 要打造新的生成式人工智能工具,這些工具可以在英特爾、AMD、蘋果等公司的芯片上運行,也可以在未來的 RISC-V 架構芯片上運行。
AI 系統(tǒng)和芯片需要改進
當下的 AI 服務器,多采用異構形式搭建,也就是在計算系統(tǒng)中,使用多種不同類型的處理器(CPU、GPU、FPGA、NPU 等),這樣可以增加計算速度和效率,以滿足不同工作負載的需求,因為 AI 工作負載通常需要大量的數(shù)值計算和并行運算。
傳統(tǒng) CPU 在通用計算方面表現(xiàn)出色,但對于深度學習等需要大量矩陣計算的任務,效能就會不足,這時,將 GPU、TPU 等處理器組合其中,可以更好地滿足 AI 任務的需求,提供更高效的運算能力。
對于 AI 系統(tǒng)的這種異構需求,不同處理器廠商,特別是像 AMD 和英偉達這樣的傳統(tǒng)大廠,以及自研 AI 芯片的互聯(lián)網(wǎng)大廠,都有各自的解決方案,但不同方案雖然有各自優(yōu)勢,但也存在這樣或那樣的缺點。
AMD 公司推出了 APU 概念和產(chǎn)品,它就是 CPU +GPU 的組合,其優(yōu)點是可以充分發(fā)揮兩種處理器各自的優(yōu)勢,互相彌補短板,也能在一定程度上減少功耗。不過,其 AI 訓練性能并不比獨立的 GPU 好。
為了滿足自家系統(tǒng)的需求,Google 自研了張量處理器 TPU(Tensor Processing Unit),它是一種 ASIC 處理器,與 CPU、GPU 和 APU 等通用處理器有很大區(qū)別,TPU 的專用性很強,針對機器學習和深度學習等 AI 應用進行了優(yōu)化,專門用于加速 AI 的計算任務。不過,在 Google 的整個網(wǎng)絡系統(tǒng)當中,依然需要用到大量的通用 CPU 和 GPU,TPU 雖然很好用,但可用規(guī)模還是有限的。
可見,要不斷改善 AI 服務器系統(tǒng)性能,單一的通用或專用處理器都無法獨自解決問題,需要多種處理器配合工作才行,這就給新的 AI 芯片技術和產(chǎn)品發(fā)展提供了機會。
AI 系統(tǒng)的訓練和推理平衡水平需要改善。
目前,英偉達的 GPU 是 AI 訓練芯片市場的領導者,但這只占整個 AI 芯片需求的 20% 左右,推理芯片市場相當大,當下的 GPU 擅長 AI 訓練,而 CPU 擅長推理,二者在對方領域的局限性都很大。
在 AI 推理市場,除了數(shù)據(jù)中心和云計算,用戶對邊緣側(如手機、PC,以及機器人、工業(yè)系統(tǒng)和汽車等)的推理需求在快速增長。因此,AI 推理市場不僅很大,而且相當分散。在這種情況下,邊緣側 AI 推理芯片的市場規(guī)模非常大,而且具有極大的發(fā)展?jié)摿Α?/span>
蘋果公司的 iPhone 就是一個典型的例子,它在 A 系列處理器中集成了 AI 內(nèi)核,目前,AI 功能已經(jīng)占據(jù)了 A 系列處理器整體功能的 20%。近些年,多家公司也在采用類似于蘋果的 SoC AI 策略。
粗略計算,AI 芯片市場包括約 15% 的訓練,45% 的數(shù)據(jù)中心推理,以及 40% 的邊緣側推理。在這樣的市場背景下,一方面,各大處理器廠商正在提升 AI 訓練和推理能力的融合水平,另一方面,邊緣側推理市場的巨大發(fā)展空間給很多移動處理器廠商提供了拓展機會。
AI 系統(tǒng)和芯片的功耗也需要改善。
如上文所述,邊緣側推理市場巨大,而這些應用對低功耗要求很高。同時,數(shù)據(jù)中心和云計算系統(tǒng)的功耗高的嚇人,不可能無止境地增加下去,解決這一大應用領域的功耗問題也被越來越多的芯片和系統(tǒng)廠商所重視。
問題如何解決?
從上文介紹中可以看出,AI 系統(tǒng)和相關芯片還處于成長期,有很多問題需要解決,特別是 AI 訓練和推理芯片的功能融合、邊緣側 AI 推理,以及功耗問題,是各大廠商,以及初創(chuàng)企業(yè)共同關注的。
最近,英偉達推出的新 GPU 在 AI 訓練和推理融合能力方面就有很大進步,該公司表示,H100 芯片的升級產(chǎn)品 H200 集成了 141GB 的 HBM3e 內(nèi)存,更加擅長推理,在用于推理或生成問題答案時,性能較 H100 提高了 60%-90%。英偉達表示,與 H100 相比,H200 在 Llama 2 這樣擁有 700 億參數(shù)大語言模型上的推理速度提升了近一倍。
在邊緣側推理方面,以蘋果為學習對象,傳統(tǒng)手機處理器廠商也在增加新產(chǎn)品的 AI 推理能力。以聯(lián)發(fā)科為例,該公司推出的天璣 8300 可支持生成式 AI,最高支持 100 億參數(shù) AI 大語言模型。該芯片集成了生成式 AI 引擎,整數(shù)運算和浮點運算的性能是上一代的兩倍,支持 Transformer 算子加速和混合精度 INT4 量化技術,AI 綜合性能是上一代的 3.3 倍,可流暢運行終端側生成式 AI 的各種新應用。
在降低 AI 服務器功耗方面,初創(chuàng)企業(yè)和各大知名廠商投入的力度更大。
以上文提到的 Jim Keller 加入的 Tenstorrent 為例,該公司正在開發(fā)數(shù)據(jù)中心解決方案,核心產(chǎn)品是基于 RISC-V 架構的 AI/ML 加速器和通用處理器。之所以采用 RISC-V 指令集,很重要的一個原因就是其功耗低。
據(jù)悉,Tenstorrent 正在與日本新創(chuàng)晶圓廠 Rapidus 合作,開發(fā)基于 2nm 制程工藝的邊緣側 AI 處理器及相關 IP。從目前的 AI 系統(tǒng)市場需求,以及未來該領域對低功耗(數(shù)據(jù)中心、云和邊緣側都要求降低功耗)的要求來看,先進制程的未來發(fā)展前景依然值得期待,因為 3nm、2nm,甚至是 1nm 這樣的先進制程技術,就是要在不斷提升性能的同時,持續(xù)降低功耗。未來,先進制程工藝幾乎就是為 AI 芯片而生的。
對于開發(fā) RISC-V 芯片和系統(tǒng),半導體大國政府都很重視。美國政府已經(jīng)下達了使用 RISC-V 處理器來模擬下一代稀疏性超級計算機的指示,歐盟也建立了一個基于 RISC-V 架構的本土加速器項目,稱為 EPAC。
除了新創(chuàng)企業(yè),傳統(tǒng)大廠也在發(fā)展低功耗 AI 芯片方面不遺余力。
以微軟為例,該公司于近期推出了用于云端軟件服務的處理器 Cobalt,該芯片是基于 Arm 架構的通用處理器,同時,微軟還推出了另一款專用 AI 加速器 Maia 100,用于云端訓練和推理。這兩款芯片將于 2024 年導入該公司的 Azure 數(shù)據(jù)中心。微軟基于 Arm 架構研發(fā)芯片,很重要的一個原因就是其功耗比較低。
除了將 AI 訓練和推理融合,以及低功耗之外,現(xiàn)有架構芯片,特別是 CPU、GPU,在 AI 計算方面都存在局限性,因此,一些初創(chuàng)公司,以及傳統(tǒng)知名廠商還在探索新型架構的 AI 芯片,特別是在打破處理單元與內(nèi)存之間的「通信墻「方面,下了很多功夫。
近些年,以 Groq、Cerebras、SambaNova、NextSilicon 等為代表的創(chuàng)業(yè)公司都在開發(fā)各自的新型 AI 加速器,目標是替代英偉達的 GPU。這些公司的產(chǎn)品多為 ASIC,也就是 AI 專用處理器,目前來看,這些新型處理器正在被美國能源部實驗室所采用,用于科學研究。同時,美國多家大學也對試用這些芯片持開放態(tài)度,例如,NCSA 正在與 SambaNova 合作開發(fā)芯片,Cerebras 的處理器已經(jīng)用于 AI 訓練。
在創(chuàng)新架構處理器研發(fā)方面,大廠 IBM 一直都是業(yè)界的典型代表,AI 專用芯片方面同樣如此。最近,IBM 推出了一種新的原型芯片架構 NorthPole,可以使 AI 計算更快、更節(jié)能。NorthPole 是一款基于人腦計算通路進行神經(jīng)推理的數(shù)字 AI 芯片,它采用了一種截然不同的設計方法,將所有內(nèi)存都集成在了處理器芯片上,無需外掛 RAM,這使得該處理器能夠進行快速的 AI 推理。該芯片專為 AI 推理而設計,不需要復雜的冷卻系統(tǒng)。據(jù)悉,小巧靈活的 NorthPole 非常適合邊緣側 AI 應用。
以上介紹的都是各種 AI 處理器,是硬件。要使整個 AI 系統(tǒng)充分發(fā)揮效能,軟件工具的作用也很重要。如前文所述,GPU 架構大神 Raja Koduri 離開英特爾后,創(chuàng)建了新公司 Mihira AI,該公司研發(fā)的就是 AI 軟件工具。
據(jù) Koduri 介紹,Mihira AI 的最底層是一個異構數(shù)據(jù)中心架構,涵蓋三類工作負載,分別是:用于渲染通用 CPU 計算;用于 AI 的異構加速器;用于游戲 GPU 工作負載。他說,未來的第四個集群可以針對低功耗 AI 推理進行優(yōu)化。
從未來發(fā)展來看,Mihira AI 的目標很可能是替代英偉達的 CUDA,以及 AMD 的 ROCm 軟件生態(tài)系統(tǒng)。不過,目前它還處于發(fā)展初期,未來的道路十分艱辛。
結語
AI 系統(tǒng)、芯片和軟件市場發(fā)展?jié)摿薮螅鞣N傳統(tǒng)和創(chuàng)新產(chǎn)品同臺競爭,隨著應用和市場的發(fā)展,未來具有很大的想象和操作空間。
正是看到了各種 AI 技術、產(chǎn)品和商業(yè)的發(fā)展可能性,越來越多的行業(yè)大牛依托創(chuàng)業(yè)公司,或依托各大知名廠商,開始了各種創(chuàng)新工作。
在本文截稿時,報道稱 Sam Altman 又回到了 OpenAI,繼續(xù)擔任 CEO。經(jīng)過這一波操作,Altman 有望在 OpenAI 獲得更多的施展空間,其 AI 技術和商業(yè)拓展之路很可能會加速。
評論