AI芯片的未來，未必是GPU

發(fā)布人：傳感器技術時間：2024-06-25 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

在人工智能計算架構的布局中，CPU與加速芯片協(xié)同工作的模式已成為一種典型的AI部署方案。CPU扮演基礎算力的提供者角色，而加速芯片則負責提升計算性能，助力算法高效執(zhí)行。常見的AI加速芯片按其技術路徑，可劃分為GPU、FPGA和ASIC三大類別。在這場競爭中，GPU憑借其獨特的優(yōu)勢成為主流的AI芯片。那么，GPU是如何在眾多選項中脫穎而出的呢？展望AI的未來，GPU是否仍是唯一解呢？ 01GPU如何制勝當下？
AI與GPU之間存在著密切的關系。強大的并行計算能力AI大模型指的是規(guī)模龐大的深度學習模型，它們需要處理海量的數據和進行復雜的計算。GPU的核心優(yōu)勢就在于其強大的并行計算能力。與傳統(tǒng)的CPU相比，GPU能夠同時處理多個任務，特別適合處理大規(guī)模數據集和復雜計算任務。在深度學習等需要大量并行計算的領域，GPU展現(xiàn)出了無可比擬的優(yōu)勢。完善的生態(tài)系統(tǒng)其次，為了便于開發(fā)者充分利用GPU的計算能力，各大廠商提供了豐富的軟件庫、框架和工具。例如，英偉達的CUDA平臺就為開發(fā)者提供了豐富的工具和庫，使得AI應用的開發(fā)和部署變得相對容易。這使得GPU在需要快速迭代和適應新算法的場景中更具競爭力。通用性好GPU最初是用于圖形渲染的，但隨著時間的推移，它的應用領域逐漸擴大。如今，GPU不僅在圖形處理中發(fā)揮著核心作用，還廣泛應用于深度學習、大數據分析等領域。這種通用性使得GPU能夠滿足多種應用需求，而ASIC和FPGA等專用芯片則局限于特定場景。有人將GPU比作一把通用的多功能廚具，適用于各種烹飪需求。因此在AI應用的大多數情況下，GPU都被視為最佳選擇。相應的，功能多而廣的同時往往伴隨著特定領域不夠“精細”，接下來看一下，相較其他類型的加速芯片，GPU需要面臨哪些掣肘？ 02GPU也存在它的掣肘
文首提到，常見的AI加速芯片根據其技術路徑，可以劃分為GPU、FPGA和ASIC三大類別。FPGA（Field Programmable Gate Array，現(xiàn)場可編程門陣列），是一種半定制芯片。用戶可以根據自身的需求進行重復編程。FPGA 的優(yōu)點是既解決了定制電路的不足，又克服了原有可編程器件門電路數有限的缺點，對芯片硬件層可以靈活編譯，功耗小于 CPU、GPU；缺點是硬件編程語言較難，開發(fā)門檻較高，芯片成本、價格較高。FPGA 比 GPU、CPU 更快是因為其具有定制化的結構。ASIC（Application Specific Integrated Circuit特定用途集成電路）根據產品的需求進行特定設計和制造的集成電路，其定制程度相比于 GPU 和 FPGA 更高。ASIC 算力水平一般高于GPU、FPGA，但初始投入大，專業(yè)性強縮減了其通用性，算法一旦改變，計算能力會大幅下降，需要重新定制。再看GPU相較于這兩類芯片存在哪些劣勢。第一點，GPU的單位成本理論性能低于FPGA、ASIC。從成本角度看，GPU、FPGA、ASIC 三種硬件從左到右，從軟件到硬件，通用性逐漸降低、越專用，可定制化逐漸提高，相應的設計、開發(fā)成本逐漸提高，但是單位成本理論性能越高。舉個例子，對于還在實驗室階段的經典算法或深度學習算法，使用GPU 做軟件方面的探索就很合適；對于已經逐漸成為標準的技術，適合使用 FPGA 做硬件加速部署；對于已經成為標準的計算任務，則直接推出專用芯片ASIC。從公司的角度來說，同樣對于大批量數據的計算任務，同等內存大小、同等算力的成熟 GPU 和 FPGA 的部署成本相近。如果公司的業(yè)務邏輯經常變化，比如1-2年就要變化一次，那么GPU 的開發(fā)成本低、部署速度快；如果公司業(yè)務5年左右才變化一次，F(xiàn)PGA 開發(fā)成本雖高、但芯片本身的成本相比 GPU 低很多。第二點，GPU的運算速度要遜色于FPGA和ASIC。FPGA、ASIC和GPU內都有大量的計算單元，因此它們的計算能力都很強。在進行神經網絡運算的時候，三者的速度會比CPU快很多。但是GPU由于架構固定，硬件原生支持的指令也就固定了，而FPGA和ASIC則是可編程的，其可編程性是關鍵，因為它讓軟件與終端應用公司能夠提供與其競爭對手不同的解決方案，并且能夠靈活地針對自己所用的算法修改電路。因此在很多場景的應用中，F(xiàn)PGA和ASIC的運算速度要大大優(yōu)于GPU。具體到場景應用，GPU 浮點運算能力很強，適合高精度的神經網絡計算；FPGA 并不擅長浮點運算，但是對于網絡數據包、視頻流可以做到很強的流水線處理；ASIC 則根據成本有幾乎無限的算力，取決于硬件設計者。第三點，GPU的功耗遠遠大于FPGA和ASIC。再看功耗。GPU的功耗，是出了名的高，單片可以達到250W，甚至450W（RTX4090）。而FPGA一般只有30~50W。這主要是因為內存讀取。GPU的內存接口（GDDR5、HBM、HBM2）帶寬極高，大約是FPGA傳統(tǒng)DDR接口的4-5倍。但就芯片本身來說，讀取DRAM所消耗的能量，是SRAM的100倍以上。GPU頻繁讀取DRAM的處理，產生了極高的功耗。另外，F(xiàn)PGA的工作主頻（500MHz以下）比CPU、GPU（1~3GHz）低，也會使得自身功耗更低。再看ASIC，ASIC的性能和功耗優(yōu)化是針對特定應用進行的，因此在特定任務上性能更高、功耗更低。由于設計是針對特定功能的，ASIC在執(zhí)行效率和能效比方面通常優(yōu)于FPGA。舉個例子，在智能駕駛這樣的領域，環(huán)境感知、物體識別等深度學習應用要求計算響應方面必須更快的同時，功耗也不能過高，否則就會對智能汽車的續(xù)航里程造成較大影響。第四點，GPU時延高于FPGA、ASIC。FPGA相對于GPU具有更低的延遲。GPU通常需要將不同的訓練樣本，劃分成固定大小的“Batch（批次）”，為了最大化達到并行性，需要將數個Batch都集齊，再統(tǒng)一進行處理。FPGA的架構，是無批次的。每處理完成一個數據包，就能馬上輸出，時延更有優(yōu)勢。ASIC也是實現(xiàn)極低延遲的另一種技術。在針對特定任務進行優(yōu)化后，ASIC通常能夠實現(xiàn)比FPGA更低的延遲，因為它可以消除FPGA中可能存在的額外編程和配置開銷。既如此，為什么GPU還會成為現(xiàn)下AI計算的大熱門呢？在當前的市場環(huán)境下，由于各大廠商對于成本和功耗的要求尚未達到嚴苛的程度，加之英偉達在GPU領域的長期投入和積累，使得GPU成為了當前最適合大模型應用的硬件產品。盡管FPGA和ASIC在理論上具有潛在的優(yōu)勢，但它們的開發(fā)過程相對復雜，目前在實際應用中仍面臨諸多挑戰(zhàn)，難以廣泛普及。因此，眾多廠商紛紛選擇GPU作為解決方案，這也導致了第五點潛在問題的浮現(xiàn)。第五點，高端GPU的產能問題也令人焦慮。OpenAI 首席科學家 IlyaSutskever?表示，GPU 就是新時代的比特幣。在算力激增的背景下，英偉達的B系列和H系列 GPU 成為“硬通貨”。然而，雖然該系列需求十分旺盛，但考慮到HBM和CoWos供需緊張，以及臺積電先進產能吃緊的情況，GPU產能實在無法跟得上需求。要知道“巧婦難為無米之炊”，在這種形勢下，科技巨頭們需要更加靈活地應對市場變化，囤積更多的GPU產品或者尋找替代方案。如今已經有不少廠商開始另辟蹊徑，在GPU之外的道路上探索并研發(fā)更為專業(yè)化、精細化的計算設備和解決方案。那么未來的AI加速芯片又將如何發(fā)展？ 03科技巨頭另辟蹊徑
在當下這個科技發(fā)展極快、算法以月為單位更迭的大數據時代，GPU 確實適合更多人；但是一旦未來的商業(yè)需求固定下來，F(xiàn)PGA 甚至 ASIC 則會成為更好的底層計算設備。各芯片龍頭和科技龍頭也早已開始研發(fā)生產專用于深度學習、DNN 的運算芯片或基于 FPGA 架構的半定制芯片，代表產品有 Google 研發(fā)的張量計算處理器 TPU、 Intel 旗下的 Altera Stratix V FPGA等。Google押注定制化的 ASIC 芯片：TPUGoogle 早在 2013 年就秘密研發(fā)專注 AI機器學習算法芯片，并用于云計算數據中心，取代英偉達 GPU。這款TPU自研芯片2016年公開，為深度學習模型執(zhí)行大規(guī)模矩陣運算，如自然語言處理、計算機視覺和推薦系統(tǒng)模型。Google 其實在 2020 年的資料中心便建構 AI 芯片 TPU v4，直到 2023 年 4 月才首次公開細節(jié)。值得注意的是TPU是一種定制化的 ASIC 芯片，它由谷歌從頭設計，并專門用于機器學習工作負載。2023年12月6日，谷歌官宣了全新的多模態(tài)大模型Gemini，包含了三個版本，根據谷歌的基準測試結果，其中的Gemini Ultra版本在許多測試中都表現(xiàn)出了“最先進的性能”，甚至在大部分測試中完全擊敗了OpenAI的GPT-4。而在Gemini出盡了風頭的同時，谷歌還丟出了另一個重磅炸彈——全新的自研芯片TPU v5p，它也是迄今為止功能最強大的TPU。根據官方提供的數據，每個TPU v5p pod在三維環(huán)形拓撲結構中，通過最高帶寬的芯片間互聯(lián)（ICI），以4800 Gbps/chip的速度將8960個芯片組合在一起，與TPU v4相比，TPU v5p的FLOPS和高帶寬內存（HBM）分別提高了2倍和3倍。隨后在今年5月，谷歌又宣布了第六代數據中心 AI 芯片 Tensor 處理器單元--Trillium，并表示將于今年晚些時候推出交付。谷歌表示，第六代Trillium芯片的計算性能比TPU v5e芯片提高4.7倍，能效比v5e高出67%。這款芯片旨在為從大模型中生成文本和其他內容的技術提供動力。谷歌還表示，第六代Trillium芯片將在今年年底可供其云客戶使用。據悉，英偉達在AI芯片市場的市占高達80%左右，其余20%的絕大部分由各種版本的谷歌TPU所控制。谷歌自身不出售芯片，而是通過其云計算平臺租用訪問權限。微軟：推出基于Arm架構的通用型芯片Cobalt、ASIC芯片Maia 1002023年11月，微軟在Ignite技術大會上發(fā)布了首款自家研發(fā)的AI芯片Azure Maia 100，以及應用于云端軟件服務的芯片Azure Cobalt。兩款芯片將由臺積電代工，采用5nm制程技術。據悉，英偉達的高端產品一顆有時可賣到3萬到4萬美元，用于ChatGPT的芯片被認為大概就需要有1萬顆，這對AI公司是個龐大成本。有大量AI芯片需求的科技大廠極力尋求可替代的供應來源，微軟選擇自行研發(fā)，便是希望增強ChatGPT等生成式AI產品的性能，同時降低成本。Cobalt是基于Arm架構的通用型芯片，具有128個核心，Maia 100是一款專為 Azure 云服務和 AI 工作負載設計的 ASIC 芯片，用于云端訓練和推理的，晶體管數量達到1050億個。這兩款芯片將導入微軟Azure數據中心，支持OpenAI、Copilot等服務。負責Azure芯片部門的副總裁Rani Borkar表示，微軟已開始用Bing和Office AI產品測試Maia 100芯片，微軟主要AI合作伙伴、ChatGPT開發(fā)商OpenAI，也在進行測試中。有市場評論認為，微軟 AI 芯片立項的時機很巧，正好在微軟、OpenAI 等公司培養(yǎng)的大型語言模型已經開始騰飛之際。不過，微軟并不認為自己的 AI 芯片可以廣泛替代英偉達的產品。有分析認為，微軟的這一努力如果成功的話，也有可能幫助它在未來與英偉達的談判中更具優(yōu)勢。據悉，微軟有望在即將到來的Build技術大會上發(fā)布一系列云端軟硬件技術新進展。而備受關注的是，微軟將向Azure用戶開放其自研的AI芯片Cobalt 100的使用權限。英特爾押注FPGA芯片英特爾表示，早期的人工智能工作負載，比如圖像識別，很大程度上依賴于并行性能。因為 GPU 是專門針對視頻和顯卡設計的，因此，將其應用于機器學習和深度學習變得很普遍。GPU 在并行處理方面表現(xiàn)出色，并行執(zhí)行大量計算操作。換句話說，如果必須多次快速執(zhí)行同一工作負載，它們可以實現(xiàn)令人難以置信的速度提高。但是，在 GPU 上運行人工智能是存在局限的。GPU 不能夠提供與 ASIC 相媲美的性能，后者是一種針對給定的深度學習工作負載專門構建的芯片。而 FPGA 則能夠借助集成的人工智能提供硬件定制，并且可以通過編程提供與 GPU 或 ASIC 相類似的工作方式。FPGA 可重新編程、重新配置的性質使其格外適合應用于飛速演變的人工智能領域，這樣，設計人員就能夠快速測試算法，并將產品加速推向市場。英特爾FPGA 家族包括英特爾 Cyclone 10 GX FPGA、英特爾 Arria 10 GX FPGA 和英特爾Stratix 10 GX FPGA等。這些產品具備 I/O 靈活性、低功耗（或每次推理的能耗）和低時延，本就可在 AI 推理上帶來優(yōu)勢。這些優(yōu)勢在三個全新的英特爾 FPGA 和片上系統(tǒng)家族的產品中又得到了補充，使得 AI 推理性能進一步獲得了顯著提升。這三個家族分別是英特爾 Stratix 10 NX FPGA 以及英特爾 Agilex FPGA 家族的新成員：英特爾 Agilex D 系列 FPGA，和代號為“Sundance Mesa”的全新英特爾 Agilex 設備家族。這些英特爾FPGA 和 SoC 家族包含專門面向張量數學運算優(yōu)化的專用 DSP 模塊，為加速 AI 計算奠定了基礎。今年3月，芯片巨頭英特爾宣布成立全新獨立運營的FPGA公司——Altera。英特爾在2015年6月以167億美元收購Altera，被收購時Altera是全球第二大FPGA公司，九年后英特爾決定讓FPGA業(yè)務獨立運營，再次選擇以Altera命名。NPU(Neural Processing Unit)也是一種參考人體神經突觸的 ASIC 芯片。隨著深度學習神經網絡的興起，CPU和 GPU 逐漸難以滿足深度學習的需要，專門用于神經網絡深度學習的處理器NPU應運而生。NPU 采用“數據驅動并行計算”的架構，特別擅長處理視頻、圖像類的海量多媒體數據。區(qū)別于 CPU 以及 GPU 所遵循的馮諾依曼架構，NPU 參考人體的神經突觸結構，將存儲與運算結為一體。Arm 近日宣布推出 Ethos-U85 NPU。作為 Arm 面向邊緣 AI 的第三代 NPU 產品，Ethos-U85 適用于工業(yè)自動化和視頻監(jiān)控等場景，在性能方面提升了四倍。Ethos-U85 較上一代產品在能效方面擁有 20% 的提升，還可在常用神經網絡上實現(xiàn) 85% 的利用率。其在設計上適合基于 Arm Cortex-M / A 處理器內核的系統(tǒng)，能接受較高的內存延遲。協(xié)同、訓練推理融合、具備統(tǒng)一生態(tài)的系列化智能芯片產品和平臺化基礎系統(tǒng)軟件。寒武紀產品廣泛應用于服務器廠商和產業(yè)公司，面向互聯(lián)網、金融、交通、能源、電力和制造等此外，OpenAI也正在探索自研AI芯片，同時開始評估潛在收購目標。AWS自研AI芯片陣容包括推理芯片Inferentia和訓練芯片Trainium。電動汽車制造商特斯拉也積極參與AI加速器芯片的開發(fā)。特斯拉主要圍繞自動駕駛需求，迄今為止推出了兩款AI芯片：全自動駕駛（FSD）芯片和Dojo D1芯片。去年5月Meta披露了旗下數據中心項目支持AI工作的細節(jié)，提到已經打造一款定制芯片，簡稱MTIA，用于加快生成式AI模型的訓練。這是Meta首次推出AI定制芯片。Meta稱，MTIA是加快AI訓練和推理工作負載的芯片“家族”的一分子。此外，Meta介紹，MTIA采用開源芯片架構RISC-V，它的功耗僅有25瓦，遠低于英偉達等主流芯片廠商的產品功耗。值得注意的是，今年4月，Meta公布了自主研發(fā)芯片MTIA的最新版本。分析指出，Meta的目標是降低對英偉達等芯片廠商的依賴。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

AI芯片的未來，未必是GPU

相關推薦

技術專區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

AI芯片的未來，未必是GPU

相關推薦

技術專區(qū)

AI芯片的未來，未必是GPU