計算機架構(gòu)和設計的發(fā)展方向在哪里?
摩爾定律的 125 年歷程
處理器行業(yè)最著名的概念之一是摩爾定律,該定律指出,芯片上的晶體管數(shù)量大約每 18 個月翻一番。在很長一段時間里,這一規(guī)律都適用,但如今其增速已大幅放緩,甚至可以說已瀕臨終結(jié)。
本文引用地址:http://www.biyoush.com/article/202502/467278.htm晶體管如今已變得極小,我們正逼近物理層面的基本極限。對于傳統(tǒng)的硅基中央處理器(CPU)而言,摩爾定律實際上已宣告終結(jié)。晶體管尺寸縮小的速度已顯著下降,這使得英特爾、超威半導體和臺積電等芯片制造商將重心轉(zhuǎn)向先進封裝技術、小芯片架構(gòu)以及 3D 堆疊技術。
插圖由 Steve Jurvetson 繪制。請注意圖表中,在過去十年里,數(shù)據(jù)點是如何從通用 CPU 轉(zhuǎn)變?yōu)?Nvidia 的 GPU、TPU 以及其他形式的 ASIC 的。
這種發(fā)展瓶頸的一個直接后果是,企業(yè)開始通過增加核心數(shù)量而非提升頻率來提高性能。這就是為什么我們看到八核處理器逐漸成為主流,而非 10GHz 的雙核芯片。除了增加更多核心,提升性能的空間已極為有限。
量子計算
從一個截然不同的角度來看,量子計算是一個未來有著巨大發(fā)展空間的領域。我們不會佯裝自己是這方面的專家,而且鑒于這項技術仍在研發(fā)之中,實際上也沒有太多真正的「專家」。為了破除一些誤解,量子計算并不會讓你在類似真實場景渲染中獲得 1000 幀每秒的速度或諸如此類的效果。就目前而言,量子計算機的主要優(yōu)勢在于,它能夠運行一些更先進的算法,而這些算法用傳統(tǒng)計算機是無法處理的。
IBM 量子系統(tǒng)一號內(nèi)部探秘
在傳統(tǒng)計算機中,晶體管只有開或關兩種狀態(tài),分別代表 0 或 1。而在量子計算機中,疊加態(tài)是可能的,這意味著量子比特可以同時為 0 和 1。憑借這種新特性,計算機科學家可以開發(fā)新的計算方法,并能夠解決我們目前因計算能力不足而無法處理的問題。量子計算機并非僅僅是速度更快,而是它們代表了一種新的計算模式,使我們能夠解決不同類型的問題。
這項技術距離成為主流應用可能還需要一二十年(具體時間因人而異),那么我們目前在實際的處理器中能看到哪些趨勢呢?當下有數(shù)十個活躍的研究領域,不過我想談談在我看來最具影響力的幾個方面。
高性能計算趨勢與人工智能
我們正受其影響的一個日益顯著的趨勢是異構(gòu)計算。這是一種在單個系統(tǒng)中融入多種不同計算元件的方法。我們大多數(shù)人都受益于系統(tǒng)中配備的專用圖形處理器(GPU),這就是異構(gòu)計算的一種體現(xiàn)。
CPU 具有很強的可定制性,能以合理的速度執(zhí)行各種各樣的計算任務。而 GPU 則是專門為執(zhí)行諸如矩陣乘法之類的圖形計算而設計的。它在這方面表現(xiàn)出色,處理這類指令的速度比 CPU 快幾個數(shù)量級。通過將特定的圖形計算任務從 CPU 轉(zhuǎn)移到 GPU,我們可以加快工作負載的處理速度。任何程序員都可以通過調(diào)整算法輕松優(yōu)化軟件,但優(yōu)化硬件則要困難得多。
然而,GPU 并非是加速器應用日益普遍的唯一領域。隨著人工智能和機器學習工作負載的增加,我們看到定制化人工智能處理器大量涌現(xiàn)。例如,谷歌的張量處理器和英偉達的張量核心就是專為深度學習計算而設計的。同樣,AMD 的 Instinct MI300 和英特爾的 Gaudi 人工智能加速器也在塑造人工智能領域的格局,為訓練和推理工作負載提供更專業(yè)的性能。
谷歌云 TPU V6e Trillium 3
除了人工智能領域,專用加速器如今在移動計算和云計算中也不可或缺。大多數(shù)智能手機都配備了數(shù)十個硬件加速器,旨在加速特定任務的處理。這種計算方式被稱為「加速器陣列」,其中包括加密處理器、圖像處理器、機器學習加速器、視頻編解碼器、生物識別處理器等。
隨著工作負載越來越專業(yè)化,硬件設計師在芯片中集成了更多的加速器。像亞馬遜網(wǎng)絡服務(AWS)這樣的云服務提供商,現(xiàn)在為開發(fā)者提供現(xiàn)場可編程門陣列(FPGA)實例,以便在云端加速工作負載。傳統(tǒng)的計算元件,如中央處理器(CPU)和圖形處理器(GPU),內(nèi)部架構(gòu)是固定的,而 FPGA(現(xiàn)場可編程門陣列)則具有靈活性——它幾乎就像可編程硬件,可以根據(jù)特定的計算需求進行配置。
例如,如果你想加速圖像識別,就可以在硬件中實現(xiàn)這些算法。如果你想模擬一種新的硬件設計,在實際制造之前,可以先在 FPGA 上進行測試。雖然 FPGA 比 GPU 具有更高的性能和能效,但定制的專用集成電路(ASIC)表現(xiàn)更優(yōu)。谷歌、特斯拉(Dojo)和 Cerebras 等公司正在開發(fā) ASIC,以優(yōu)化深度學習和人工智能處理。
高性能計算和芯片架構(gòu)領域的另一個新興趨勢是向小芯片發(fā)展(詳見我們的解讀文章),我們在本系列的第三部分探討過這一內(nèi)容。傳統(tǒng)的單片芯片越來越難以實現(xiàn)擴展,這促使 AMD、英特爾和蘋果等公司探索模塊化設計,即將較小的處理單元(小芯片)組合在一起,使其作為單個處理器發(fā)揮作用。AMD 的 Zen 4 和 Zen 5 架構(gòu),以及英特爾的 Meteor Lake 和 Foveros 3D 封裝技術,都展示了將 CPU 分解為獨立的小芯片如何提高性能和效率。
觀察一些最新處理器的芯片照片,我們可以發(fā)現(xiàn),CPU 的大部分面積實際上并非核心本身。越來越多的面積被各種不同類型的加速器占據(jù),包括人工智能核心、神經(jīng)網(wǎng)絡處理器(NPU)和數(shù)字信號處理器(DSP)。這種轉(zhuǎn)變顯著加快了特定工作負載的處理速度,同時還大幅節(jié)省了功耗,這在數(shù)據(jù)中心和移動計算中是一個關鍵因素。
展示幾款常見移動處理器組成結(jié)構(gòu)的芯片照片 圖片來源:mostlikelynotarobot
從歷史上看,如果你想在一個系統(tǒng)中添加視頻處理功能,通常會單獨添加一個芯片來實現(xiàn)。但這種方式效率極低。每次信號通過物理線路離開芯片傳輸時,每個比特都需要消耗大量能量。雖然一焦耳的極小部分看似不多,但在同一芯片內(nèi)進行通信的效率,可比芯片間通信高出三到四個數(shù)量級。這推動了超低功耗芯片的發(fā)展,將加速器直接集成到 CPU 和片上系統(tǒng)(SoC)中,以提高能源效率。
然而,加速器并非完美無缺。隨著我們添加越來越多的加速器,芯片的靈活性會降低,為了在某些工作負載下實現(xiàn)峰值性能,犧牲了整體通用性能。在某種程度上,整個芯片可能會變成一堆加速器的集合,這會使其作為通用處理器的實用性降低。專用性能和通用性能之間的權(quán)衡始終在不斷微調(diào)。這個持續(xù)存在的挑戰(zhàn)被稱為「專業(yè)化差距」,即在使硬件針對特定任務高效運行的同時,保持其對不同工作負載的適應性之間尋求微妙的平衡。
直到幾年前,還有人認為我們正處于 GPU/機器學習加速器熱潮的頂峰,但現(xiàn)實顯然走上了一條截然不同的道路。隨著人工智能模型變得越來越大、越來越復雜,且云計算持續(xù)擴張,我們很可能會看到更多計算任務被卸載到專用加速器上。
近內(nèi)存計算與其他內(nèi)存創(chuàng)新
設計師們尋求提升性能的另一個領域是內(nèi)存。傳統(tǒng)上,讀寫數(shù)據(jù)一直是處理器面臨的最大瓶頸之一。雖然快速、大容量的緩存能有所幫助,但從隨機存取存儲器(RAM)或固態(tài)硬盤(SSD)訪問數(shù)據(jù)可能需要數(shù)萬個時鐘周期。因此,工程師們通常認為內(nèi)存訪問比計算本身成本更高。
如果處理器要將兩個數(shù)字相加,它首先需要計算內(nèi)存地址,確定數(shù)據(jù)在存儲層級中的位置,將其提取到寄存器中,進行計算,計算目標地址,然后將結(jié)果寫回。對于可能只需要一兩個周期就能完成的簡單操作來說,這種方式極其低效。
一種受到大量研究的新穎想法是一種名為近內(nèi)存計算(NMC)的技術。研究人員沒有將少量數(shù)據(jù)從內(nèi)存中取出,送到快速處理器進行計算,而是將這個思路反轉(zhuǎn):他們將計算能力直接嵌入到內(nèi)存控制器、RAM 模塊或 SSD 等存儲設備中。內(nèi)存內(nèi)處理(PIM)作為近內(nèi)存計算的一個子集,旨在直接在數(shù)據(jù)所在的位置執(zhí)行操作,消除了傳統(tǒng)內(nèi)存訪問的大部分延遲和能源消耗。
三星、SK 海力士和美光等主要半導體公司已在開發(fā)高帶寬內(nèi)存內(nèi)處理(HBM - PIM,High Bandwidth Memory Processing - In - Memory)解決方案,即在內(nèi)存堆棧中集成小型計算單元。例如,三星的 HBM - PIM 原型通過減少所需的數(shù)據(jù)移動量,在人工智能、云計算和高性能計算工作負載方面展現(xiàn)出兩位數(shù)的性能提升。
另一項新興的內(nèi)存創(chuàng)新技術是計算快速鏈接(Compute Express Link,CXL),這是一種高速、緩存一致性的互連技術,支持內(nèi)存池化和近內(nèi)存處理。英特爾、AMD 和英偉達等公司已將基于 CXL 的內(nèi)存擴展集成到數(shù)據(jù)中心和人工智能工作負載中,使多個處理器能夠高效共享大型內(nèi)存池。這項技術有助于緩解傳統(tǒng)架構(gòu)中因 CPU 限制而導致的內(nèi)存訪問瓶頸。
近內(nèi)存計算需要克服的障礙之一是制造工藝的限制。如第三部分所述,硅片制造極其復雜,涉及數(shù)十個步驟。這些工藝通常專門用于快速邏輯元件(用于計算)或密集存儲元件(用于內(nèi)存)。如果嘗試使用針對計算優(yōu)化的制造工藝來制造內(nèi)存芯片,其密度會受到影響。反之,如果使用存儲制造工藝來構(gòu)建處理器,其性能和時序會很差。
3D 集成:芯片設計的下一次演進
解決內(nèi)存和性能瓶頸的一個潛在方案是 3D 集成。傳統(tǒng)處理器采用單層晶體管布局,但這種方式存在局限性。3D 堆疊是將多層晶體管垂直堆疊的過程,以提高密度、帶寬并降低延遲。這些堆疊層可以使用不同的制造工藝制造,并通過硅通孔(TSVs)或混合鍵合技術進行連接。
一個 3D 集成的示例,展示了晶體管層之間的垂直連接。
3D NAND 存儲技術是 3D 堆疊早期取得商業(yè)成功的案例,而如今高性能處理器也在采用類似理念。AMD 的 3D V - Cache 技術首次應用于銳龍 7 5800X3D,它成功地在傳統(tǒng) CPU 之上堆疊了額外的 L3 緩存層,在游戲及對延遲敏感的應用程序中實現(xiàn)了顯著的性能提升。同樣,英特爾的 Foveros 封裝技術實現(xiàn)了邏輯芯片的堆疊,使得不同的芯片組件能夠分開制造,隨后再集成到單個封裝中。
高帶寬內(nèi)存(HBM)是另一種廣泛應用的 3D 堆疊內(nèi)存形式,多個 DRAM 芯片相互堆疊,并通過硅通孔(TSV)連接。與傳統(tǒng)的 DDR 內(nèi)存相比,HBM 具有更高的帶寬和更低的功耗,因此已成為人工智能加速器、GPU 和高性能計算處理器的標準配置。英偉達的 H100 張量核心 GPU 和 AMD 的 Instinct MI300 人工智能加速器都借助 HBM 技術來應對人工智能工作負載所需的海量數(shù)據(jù)吞吐量。
未來展望
除了物理層面和架構(gòu)上的變革,半導體行業(yè)的一個發(fā)展趨勢是更加注重安全性。直到最近,處理器的安全性在一定程度上都被視為事后考慮的問題。這就如同互聯(lián)網(wǎng)、電子郵件以及我們依賴的許多其他系統(tǒng),在設計時幾乎沒有考慮到安全性。芯片上現(xiàn)有的任何安全措施通常都是事后添加的,只是為了讓我們感覺更安全。
對于處理器而言,這種情況最終給企業(yè)帶來了麻煩。Spectre 和 Meltdown 漏洞就是推測執(zhí)行缺陷的早期例子,而最近出現(xiàn)的諸如 Zenbleed、Downfall 和 Hertzbleed 等側(cè)信道攻擊表明,現(xiàn)代處理器架構(gòu)仍然存在重大安全漏洞。因此,處理器制造商如今在設計芯片時會內(nèi)置安全功能,如機密計算、內(nèi)存加密和安全隔離區(qū)。
隨著芯片開發(fā)成本持續(xù)飆升,半導體行業(yè)越來越依賴軟件輔助硬件設計以及人工智能輔助驗證工具來優(yōu)化制造過程。
隨著傳統(tǒng)計算架構(gòu)逐漸逼近極限,研究人員正在探索全新的計算范式,這些范式有可能重新定義我們處理信息的方式。其中最具潛力的兩個方向是神經(jīng)形態(tài)計算和光計算,它們旨在突破傳統(tǒng)基于半導體芯片的根本性瓶頸。
神經(jīng)形態(tài)計算是一個新興領域,它模仿人類大腦處理信息的方式,采用人工神經(jīng)元和突觸網(wǎng)絡,而非傳統(tǒng)的邏輯門。與此同時,光計算則用光子處理器取代傳統(tǒng)的電子電路,利用光而非電來傳輸和處理信息。由于光子的傳播速度比電子快,且受到的阻力更小,光計算機在某些任務上甚至有可能超越最先進的半導體芯片。
評論