處理器的第三極

發(fā)布人：傳感器技術時間：2022-08-09 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

很長一段時間，CPU 主導了整個數(shù)據(jù)中心，虛擬化算力成為云計算的重點。

直到人工智能應用的爆發(fā)性增長，GPU 的芯片架構被發(fā)現(xiàn)更適合支持大規(guī)模的AI模型訓練和推理，GPU 成為數(shù)據(jù)中心第二大算力芯片。

當數(shù)據(jù)中心基礎設施遇到的瓶頸越來越難以克服時，新一代 DPU 出現(xiàn)了。

01
什么是DPU

從2021年下半年開始，陸陸續(xù)續(xù)出現(xiàn)了很多DPU領域的初創(chuàng)公司。DPU可以說是當前芯片行業(yè)最火熱的方向，可能沒有之一，風頭和聲勢甚至超過了AI芯片這個“前浪”。

DPU的出現(xiàn)是異構計算又一個階段性標志。摩爾定律放緩使得通用CPU 性能增長的邊際成本迅速上升，數(shù)據(jù)表明現(xiàn)在CPU的性能年化增長（面積歸一化之后）僅有3%左右1，但計算需求卻是爆發(fā)性增長，這幾乎是所有專用計算芯片得以發(fā)展的重要背景因素。
以AI芯片為例，千億級參數(shù)的超大型模型將算力需求推向了一個新的高度，DPU也不例外。
隨著2019 年我國以信息網絡等新型基礎設施為代表的“新基建”戰(zhàn)略帷幕的拉開，5G、千兆光纖網絡建設發(fā)展迅速，云計算、數(shù)據(jù)中心、智算中心等基礎設施快速擴容。網絡帶寬從主流10G朝著25G、40G、100G、200G甚至400G發(fā)展。網絡帶寬和連接數(shù)的劇增使得數(shù)據(jù)的通路更寬、更密，直接將處于端、邊、云各處的計算節(jié)點暴露在了劇增的數(shù)據(jù)量下，而CPU的性能增長率與數(shù)據(jù)量增長率出現(xiàn)了顯著的“剪刀差”現(xiàn)象。所以，尋求效率更高的計算芯片就成為了業(yè)界的共識。

人們發(fā)現(xiàn)，單純使用CPU并不能滿足AI工程師和調參者對算力的野心，而GPU特別適合這類計算。GPU上有成千上萬個小型計算單元，他們可以同時計算一個難題里的不同部分，然后再把結果結合起來，也就是“并行計算”。這種人海戰(zhàn)術比CPU的“串行計算”不知道要高到哪里去了。從此，CPU不再是數(shù)據(jù)中心里唯一的王。英偉達也成了世界上市值最高的芯片公司。

GPU的登場，只是這場大秀的序曲。把CPU的一大部分算力卸載給GPU之后，人們發(fā)現(xiàn)可以把很多其他功能也外包出去，于是又有了智能網卡或者SmartNIC。

這個名字聽起來既不智能，也不上口，這也注定了它并不能被大多數(shù)人所認知。工程師通常不屑于營銷，但不可否認的是，沒有營銷，再好的產品也賣不出來。

當一個人既懂技術、又懂人心，創(chuàng)造一個新的概念就是順理成章的事情。

2020年10月，黃仁勛在英偉達GTC大會上將基于Mellanox的SmartNIC方案命名為數(shù)據(jù)處理單元(Data Processing Units, DPU)。

這一年，應該可以算是DPU的元年。

DPU 是以數(shù)據(jù)為中心的 IO 密集型芯片,采用軟件定義技術路線支撐基礎設施資源層虛擬化，可以大幅提升計算系統(tǒng)效率、降低整體系統(tǒng)的總擁有成本。DPU可以通過軟件定義,延伸至存儲、安全等功能，從而滿足不同應用場景的具體需求。因此，DPU 也被稱為繼 CPU、GPU之后的“第三塊主力芯片”。

DPU概念一炮而紅，吸引業(yè)內眾多競爭者紛至沓來。作為主力芯片新物種，DPU 市場空間正快速擴張，預計至 2025 年，全球、國內市場有望分別達到 245.3 億美元、565.9 億元，復合增速分別為 51.73%、170.60%。當前，DPU 正快速進入數(shù)據(jù)中心、云計算、智能駕駛、數(shù)據(jù)通信、網絡安全、信創(chuàng)、國防軍工等領域。

特別是在數(shù)據(jù)中心、云計算應用場景，需求較為迫切。在智能駕駛領域，未來，每個車機節(jié)點都可視為小型數(shù)據(jù)中心，隨機將產生大量數(shù)據(jù)的處理、轉發(fā)、交換和存儲需求，為降低車載終端無線側傳輸時延，智能駕駛平臺有望配備相應 DPU 智能加速平。以 NVIDIA 為例，其智能駕駛平臺 Atlan 即集成了 DPU 芯片，并預計在 2025年用于車機之上。

面向DPU巨大潛在市場，海外科技巨頭加大布局力度，NVIDIA收購 Mellanox 并發(fā)布 BlueField DPU 系列產品，Intel 收購 Altera 發(fā)布 IPU 產品，Marvell 和 AMD 等公司也積極跟進。到國內的DPU創(chuàng)企中科馭數(shù)、星云智聯(lián)、大禹智芯、芯啟源、云豹智能，每一家企業(yè)都在摩拳擦掌，躍躍欲試。

經過一波收購，在“DPU”全球市場，四天王已完成布局。

02
DPU與CPU、GPU的關系從SmartNIC變?yōu)镈PU并非簡單的改改名字。為了在數(shù)據(jù)中心充分實現(xiàn)應用程序的效率，傳輸卸載、可編程的數(shù)據(jù)平面以及用于虛擬交換的硬件卸載等功能是SmartNIC的重要部分，但只是DPU的最基本要求之一。
要將SmartNIC提升到DPU的高度，還需要支持更多的功能，比如能夠運行控制平面，以及在Linux環(huán)境下提供C語言編程等。
DPU是面向數(shù)據(jù)中心的專用處理器，新增了AI、安全、存儲和網絡等各種加速功能，將成為新一代的重要算力芯片。它能夠完成性能敏感且通用的工作任務加速，更好地支撐CPU、GPU的上層業(yè)務，成為整個網絡的中心節(jié)點。

老黃總結了3個DPU的特點：卸載、加速、隔離。對應DPU的三個主要應用場景：網絡、存儲、安全：

卸載：數(shù)據(jù)中心網絡服務，比如虛擬交換、虛擬路由；數(shù)據(jù)中心存儲服務，比如RDMA、NVMe（可以把它們理解成一些遠程存儲技術）；數(shù)據(jù)中心的安全服務，比如防火墻、加解密等等
加速：上面說的那些服務和應用通常使用軟件實現(xiàn)，并在CPU里運行。而DPU可以使用硬件實現(xiàn)并運行這些應用，這樣比軟件運行要快好幾個數(shù)量級，這也就是我們常常會聽到的“硬件加速”
隔離：由于上面說的應用在DPU里運行，而用戶應用在CPU里運行，這樣就把二者隔離開了。這樣會帶來很多安全和性能上的好處

一些基本的定位分析：

獨立的DPU定位在基礎設施處理器，主要是硬件加速
獨立的GPU主要做應用層的彈性計算加速
而CPU主要負責低計算密度高價值密度的應用層的工作

如下圖所示：CPU有60個面積單位，共計60個CPU核；GPU有60個面積單位，共計60個GPU Core（差不多對應流式多核處理器SM）；而DPU則由10個CPU核、10個GPU核以及40個其他加速引擎核組成。

CPU是整個IT生態(tài)的定義者，無論是服務器端的x86還是移動端的ARM，都各自是構建了穩(wěn)固的生態(tài)系統(tǒng)，不僅形成技術生態(tài)圈，還形成了閉合價值鏈。
GPU是執(zhí)行規(guī)則計算的主力芯片，如圖形渲染。經過NVIDIA對通用GPU （GPGPU）和CUDA編程框架的推廣，GPU在數(shù)據(jù)并行的任務如圖形圖像、深度學習、矩陣運算等方面成為了主力算力引擎，并且成為了高性能計算最重要的輔助計算單元。2021年6月公布的Top500高性能計算機（超級計算機）的前10 名中，有六臺（第2、3、5、6、8、9名）都部署有NVIDIA的GPU。

DPU的出現(xiàn)是異構計算的一個階段性標志。與GPU的發(fā)展類似，DPU是應用驅動的體系結構設計的又一典型案例；但與GPU不同的是，DPU面向的應用更加底層。隨著DPU將數(shù)據(jù)中心的基礎設施操作從CPU上卸載過來，數(shù)據(jù)中心將形成DPU、GPU、CPU三位一體的狀態(tài)。

DPU首先作為計算卸載的引擎，直接效果是給CPU“減負”。DPU的部分功能可以在早期的TOE（TCP/IP Offloading Engine）中看到。正如其名，TOE就是將CPU的處理TCP協(xié)議的任務“卸載”到網卡上。

傳統(tǒng)的TCP軟件處理方式雖然層次清晰，但也逐漸成為網絡帶寬和延遲的瓶頸。軟件處理方式對CPU的占用，也影響了CPU處理其他應用的性能。TCP卸載引擎（TOE）技術，通過將TCP協(xié)議和IP協(xié)議的處理進程交由網絡接口控制器進行處理，在利用硬件加速為網絡時延和帶寬帶來提升的同時，顯著降低了 CPU 處理協(xié)議的壓力。

網絡數(shù)據(jù)處理結構分析：

03
DPU的實現(xiàn)形式

主流的DPU三種技術路線對比：

一是以通用眾核處理器為基礎DPU（FPGA路線），例如Broadcom的Stingray架構，以多核ARM為核心，以眾取勝，可編程靈活性較好，但是應用針對性不夠，對于特殊算法和應用的支持，與通用CPU相比并無太顯著優(yōu)勢
二是以專用核為基礎的異構核陣列（ASIC路線），這種架構的特點是針對性較強、性能較好，但是犧牲了部分靈活性，如IPU
三是將通用處理器的可編程靈活性與專用的加速引擎相結合（MP路線），正在成為最新的產品趨勢，以NVIDIA的BlueField-3系列DPU來看，就包括16個ARM核及多個專用加速引擎，F(xiàn)ungible的DPU則包含6大類的專用核，和52個MIPS小型通用核

主流的DPU廠家產品對比：

04
DPU構建新一代數(shù)據(jù)中心

DPU要解決的核心問題是基礎設施的“降本增效”，即將“CPU處理效率低下、GPU處理不了”的負載卸載到專用DPU，提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本（TCO）。DPU的出現(xiàn)也許是體系結構朝著專用化路線發(fā)展的又一個里程碑。

DPU最直接的作用是作為CPU的卸載引擎，接管網絡虛擬化、硬件資源池化等基礎設施層服務，釋放CPU的算力到上層應用。

從處理網絡負載和卸載 CPU 任務的智能網卡，演變成新一代數(shù)據(jù)中心算力和服務的核心，讓云服務商“將基礎設施和客戶應用分而治之”，這個思想也指導著數(shù)據(jù)基礎設施領域近年來的諸多創(chuàng)新。

隨著單一服務器的網絡端口的速度達到 200G 或以上，原來的網絡、存儲、虛擬化、安全等基礎設施多方面任務，已經無法有效率地由 CPU 承載，而將這一類基礎設施任務轉移到新的計算單元 DPU 上，這也就意味著，DPU 的設計邏輯需要遵從軟件定義思路，它一定是靈活且兼具可編程性的，可以支持不同客戶的不同業(yè)務和私有協(xié)議。

有幾個重要的研究報告強有力地證明了，這些基礎設施任務的運行可以消耗大量的 CPU 性能。

一項由哈佛大學和谷歌的團隊在 2015 年發(fā)表的研究報告 Profiling a warehouse-scale computer 稱，該研究對谷歌數(shù)據(jù)中心業(yè)務和數(shù)以萬計的服務器進行了經過三年深度分析，結果顯示，跨越不同服務器的應用所產生的屬于基礎設施類的任務構成了“數(shù)據(jù)中心稅”，消耗了服務器中約 30% 的算力資源。該報告也指出，因為谷歌數(shù)據(jù)中心服務器數(shù)量龐大，若每臺服務器資源利用率能提升一點，都會帶來巨大的成本效益。

另一項研究是 Meta 數(shù)據(jù)中心團隊 2020 年的分析 Accelerometer: Understanding Acceleration Opportunities for Data Center Overheads at Hyperscale。該團隊對運行在 Facebook 計算優(yōu)化數(shù)據(jù)中心平臺上的微服務進行全面描述，發(fā)現(xiàn)執(zhí)行核心應用程序邏輯只占用 CPU 18% 的時間；剩余時間完全用于非應用程序邏輯核心的一般操作。也就是說，在 Facebook 執(zhí)行核心應用時，其數(shù)據(jù)中心里的 CPU 82% 的時間都消耗在基礎設施類任務，這個數(shù)字是相當驚人的。也正因如此，F(xiàn)acebook 團隊態(tài)度更加鮮明地表示，“加速此類基礎設施的通用模塊，可以極大地提高數(shù)據(jù)中心的性能”。

全球云計算老大亞馬遜云 AWS 最早看到數(shù)據(jù)中心算力的瓶頸和提升空間，因此 AWS 也是最早嘗試自研 DPU 芯片的云服務商。AWS 的數(shù)據(jù)中心體量最為龐大，因此對于算力痛點的體會是最深刻的。其CTO Werner Vogels 就公開表示過，傳統(tǒng)架構的數(shù)據(jù)中心已經優(yōu)化到了極限。

在傳統(tǒng)架構下，大量的資源浪費在算力、網絡、存儲的運營和調度管理上，這些資源沒有為客戶提供直接價值。

（圖｜AWS Nitro；來源：AWS）

對此，AWS 的提出的解決方案，就是把大部分虛擬機管理程序遷移到其自研的 DPU —— Nitro 中。

以網絡協(xié)議處理為例：

要線速處理10G的網絡需要的大約4個Xeon CPU的核，也就是說，單是做網絡數(shù)據(jù) 包處理，就可以占去一個8核高端CPU一半的算力。如果考慮40G、100G的高速網絡，性能的開銷就更加難以承受了。A m a z o n 把這些開銷都稱之為 “Datacenter Tax”，即還未運行業(yè)務程序，先接入網絡數(shù)據(jù)就要占去的計算資源。AWS Nitro產品家族旨在將數(shù)據(jù)中心開銷（為虛擬機提供遠程資源，加密解密，故障跟蹤，安全策略等服務程序）全部從CPU卸載到Nitro加速卡上，將給上層應用釋放30%的原本用于支付“Tax” 的算力！

效果是立竿見影的，Nitro 的應用成功證實了 DPU 的市場價值，管理云服務的程序從原來的 CPU 轉移到 DPU 上之后：

CPU 的資源幾乎可以完全用來運行客戶業(yè)務負載，其 DPU 使用上不但靈活還兼具高性能
在成本上，DPU 令寶貴的 CPU 資源被充分利用，AWS 大幅提高了能售賣給云客戶的算力資源
對于云客戶來說，他們同樣買到了更高性價比的算力

通過 DPU 達到其數(shù)據(jù)中心的算力資源利用率最大化，AWS 迎來了前所未有的最高云服務利潤：2022 年第一季度，AWS 業(yè)務實現(xiàn)收入 184 億美元，同比去年增長 36.6%；利潤 65.1 億美金，同比去年增長 57%，利潤率 35.3% 達到了歷史新高。這些數(shù)字的背后，離不開其自研的 DPU 芯片 Nitro。

05
DPU助力算力提升

隨著“東數(shù)西算”在2022年2月正式啟動，進一步加速了全國一體化算力網絡國家樞紐節(jié)點的建設步伐。在《2021-2022全球計算力指數(shù)評估報告》顯示，算力指數(shù)每提高一個點，數(shù)字經濟和GDP將分別增長千分之3.3和千分之1.8。算力已經成為了數(shù)字經濟時代核心生產力。

直觀的理解算力網絡包含兩個關鍵部分：一是“算力”，二是“網絡”。然而，“算力網絡”的效力不應該是二者的簡單的加和，而應該是“倍乘”，通過網絡來對算力進行價值放大，承載更多的應用。缺乏算力的網絡只能作為數(shù)據(jù)的傳輸網，而缺乏網絡的算力的使用價值也將大大降低。

根據(jù)著名的梅特卡夫定律，一個網絡的價值等于該網絡內的節(jié)點數(shù)的平方。對于算力網絡，宏觀來看“節(jié)點”包括一下兩部分：

各種算力中心（如數(shù)據(jù)中心、超算中心、智算中心、邊緣計算節(jié)點等等）
服務的終端應用（如PC、智能手機等具有強交互性的設備，也包括攝像頭、智能電表等弱交互性設備）

為了便于分析算力相關的核心基礎技術，我們把算力劃分為兩大類：

應用層算力（Application-Domain Computing Power）

用于執(zhí)行業(yè)務層應用的算力，例如視頻解析，數(shù)據(jù)查詢，路徑規(guī)劃，圖像渲染等，大體對應到全系統(tǒng)分層架構SaaS和PaaS層

基礎層算力(Infrastructure-Domain Computing Power)

用來做資源池化，數(shù)據(jù)轉發(fā)，壓縮存儲，加密解密，文件系統(tǒng)，網絡功能虛擬化等基礎層負載的算力

預計應用算力的提升主要來自于專用服務器的采用，雖然局部來看，應用層算力一方面得益于更高性能CPU、GPU的采用，另一方面得益于計算從通用走向專用的過程中各種FPGA和ASIC的XPU的引入。雖然引入了大量專用計算單元，但宏觀來看，得益于CPU的核心地位，仍然可以維持算力的通用性。

基礎算力層的核心功能之一是構建算力流通的“管道”，在傳統(tǒng)系統(tǒng)架構中，網絡與計算是分離，計算的主體是服務器，網絡的主體是網卡、路由器和交換機。

隨著DPU技術的逐漸成熟，我們看到大量原本在服務器上運行的基礎層負載可以被卸載到與服務器CPU直連的DPU上，保持網絡特性的功能不再由服務器端的CPU來維護。DPU的存在，將本地物理資源虛擬化，也將遠層訪問本地化。

DPU開始承載基礎算力的角色，并且是在不改變現(xiàn)有路由器和交換機的前提下。DPU的出現(xiàn)也使得網內計算（In-Network Computing）的成熟度得到進一步提升。

注：本節(jié)內容選自中科馭數(shù) CEO 鄢貴海先生《關于“算力網絡”底層技術的思考》一文，特此說明。

06
DPU，云廠商兵家必爭之地

DPU的戰(zhàn)鼓早已敲響，未來五年，中國DPU市場規(guī)模或超千億。作為數(shù)據(jù)中心的“叱咤紅人”，DPU勢必會是各個巨頭和初創(chuàng)公司的必爭之地。自研、并購、融資各家公司拿出看家本領來搶占市場先機。

云廠商、芯片大廠、初創(chuàng)公司……誰執(zhí)牛耳？

如果不解決數(shù)據(jù)中心資源利用率低下造成的算力供需矛盾，未來還會有更多的算力需求無法匹配上供給。羅蘭·貝格 Roland Berger 公司就預測，從 2018 年到 2030 年，無人駕駛算力需求增加 390 倍，數(shù)字貨幣算力需求增加約 2000 倍，VR 游戲算力需求增加約 300 倍。有能力解決這個問題的 DPU 創(chuàng)企，一旦抓住時代機遇便可快速發(fā)展。

特別是國內數(shù)據(jù)中心產業(yè)正處于高速發(fā)展期，本身就為 DPU 的應用提供了很好的土壤。再加上國內從政府到社會層面意識到芯片產業(yè)具有經濟性和戰(zhàn)略性雙重屬性，對國產芯片提供前所未有的扶持，以及像東數(shù)西算這樣的大工程提供了國產 DPU 充分的商用場景，必定可以培育出有世界競爭力的 DPU 芯片公司，做出一款世界級芯片。

越是高端的芯片產品，準入門檻就越高，“贏家獨贏”的特點也越明顯，即資本、人才、客戶等行業(yè)資源會不斷地集中到頭部企業(yè)。

一家頭部芯片企業(yè)的市占率，可能比幾家非頭部企業(yè)的市占率總和還要高很多倍。非頭部芯片企業(yè)的生存空間會非常小，其投資者的風險也特別大。

雖然 DPU 市場目前仍是一片藍海，但也會不可避免地走向贏家通吃的局面。

（正文完）來源：技術大院

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯(lián)系工作人員刪除。