關于處理器流水線，此流水線非彼流水線

作者：時間：2018-03-27 來源：網(wǎng)絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　本文將討論處理器的一個重要的基礎知識：“流水線”。熟悉計算機體系結構的讀者一定知道，言及處理器微架構，幾乎必談其流水線。處理器的流水線結構是處理器微架構最基本的一個要素，猶如汽車底盤對于汽車一般具有基石性的作用，它承載并決定了處理器其他微架構的細節(jié)。本文將簡要介紹處理器的一些常見流水線結構，讓您真正讀懂處理器流水線。

本文引用地址：http://www.biyoush.com/article/201803/377449.htm

　　1 從經(jīng)典的五級流水線說起

　　流水線的概念來源于工業(yè)制造領域，以汽車裝配為例來解釋流水線的工作方式，假設裝配一輛汽車需要四個步驟：

　　第一步?jīng)_壓：制作車身外殼和底盤等部件。

　　第二步焊接：將沖壓成形后的各部件焊接成車身。

　　第三步涂裝：將車身等主要部件清洗、化學處理、打磨、噴漆和烘干。

　　第四步總裝：將各部件(包括發(fā)動機和向外采購的零部件)組裝成車。

　　汽車裝配則同時對應需要沖壓、焊接、涂裝和總裝四個工人。最簡單的方法是一輛汽車依次經(jīng)過上述四個步驟裝配完成之后，下一輛汽車才開始進行裝配，最早期的工業(yè)制造就是采用的這種原始的方式，即同一時刻只有一輛汽車在裝配。不久之后人們發(fā)現(xiàn)，某個時段中一輛汽車在進行裝配時，其它三個工人都處于閑置狀態(tài)，顯然這是對資源的極大浪費，于是思考出能有效利用資源的新方法，即在第一輛汽車經(jīng)過沖壓進入焊接工序的時候，立刻開始進行第二輛汽車的沖壓，而不是等到第一輛汽車經(jīng)過全部四個工序后才開始，這樣在后續(xù)生產中就能夠保證四個工人一直處于運行狀態(tài)，不會造成人員的閑置。這樣的生產方式就好似流水川流不息，因此被稱為流水線。

　　計算機體系結構教材中被提及最多的經(jīng)典MIPS五級流水線如圖1所示。在此流水線中一條指令的生命周期分為：

　　取指：

　　指令取指(Instruction Fetch)是指將指令從存儲器中讀取出來的過程。

　　譯碼：

　　指令譯碼(Instruction Decode)是指將存儲器中取出的指令進行翻譯的過程。經(jīng)過譯碼之后得到指令需要的操作數(shù)寄存器索引，可以使用此索引從通用寄存器組(Register File，Regfile)中將操作數(shù)讀出。

　　執(zhí)行：

　　指令譯碼之后所需要進行的計算類型都已得知，并且已經(jīng)從通用寄存器組中讀取出了所需的操作數(shù)，那么接下來便進行指令執(zhí)行(Instruction Execute)。指令執(zhí)行是指對指令進行真正運算的過程。譬如，如果指令是一條加法運算指令，則對操作數(shù)進行加法操作;如果是減法運算指令，則進行減法操作。

　　在“執(zhí)行”階段的最常見部件為算術邏輯部件運算器(Arithmetic Logical Unit，ALU)，作為實施具體運算的硬件功能單元。

　　訪存：

　　存儲器訪問指令往往是指令集中最重要的指令類型之一，訪存(Memory Access)是指存儲器訪問指令將數(shù)據(jù)從存儲器中讀出，或者寫入存儲器的過程。

　　寫回：

　　寫回(Write-Back)是指將指令執(zhí)行的結果寫回通用寄存器組的過程。如果是普通運算指令，該結果值來自于“執(zhí)行”階段計算的結果;如果是存儲器讀指令，該結果來自于“訪存”階段從存儲器中讀取出來的數(shù)據(jù)。

　　在工業(yè)制造中采用流水線可以提高單位時間的生產量，同樣在處理器中采用流水線設計也有助于提高處理器的性能。以上述的五級流水線為例，由于前一條指令在完成了“取指”進入“譯碼”階段后，下一條指令馬上就可以進入“取指”階段，依次類推，如圖2所示，如果流水線沒有停頓，理論上可以取得每個時鐘周期都完成一條指令的性能。

　　圖1 MIPS五級流水線結構圖

　　圖2 MIPS五級流水線運行圖

　　2 可不可以不要流水線——流水線和狀態(tài)機的關系

　　言及處理器微架構，幾乎必談流水線。那么，我們能否挑戰(zhàn)一下權威提出一個有意思的問題：處理器難道就一定需要流水線嗎?可否不要流水線呢?

　　在回答這個問題之前，我們先探討下流水線的本質：

　　流水線并不限于處理器設計，在所有的ASIC電路實現(xiàn)中都廣泛采用流水線的思想。流水線本質上可以理解為是一種以面積換性能(Trade Area for Performance)、以空間換時間(Trade Space for Timing)的手段。

　　譬如，以5級流水線為例，其增加了5組寄存器，每一個流水線級數(shù)內部都有各自的組合邏輯數(shù)據(jù)通路，彼此之間沒有復用資源，因此，其面積開銷是比較大的，但是由于可以讓不同的流水線級數(shù)同時做不同的事情，而達到流水的效果，提高了性能，優(yōu)化了時序，增加了吞吐率。

　　與流水線相對應的另外一種策略是狀態(tài)機，狀態(tài)機是流水線的“取反”，同樣在所有的ASIC電路實現(xiàn)中都廣泛采用。狀態(tài)機本質上可以理解為是一種以性能換面積(Trade Performance for Area)、以時間換空間(Trade Timing for Space)的手段。

　　“流水線”和“狀態(tài)機”的關系，還有一種說法稱之為“展開”和“折疊”的關系。本質上都是一種電路設計時，選擇側重時間(性能)還是空間(面積)的一種取舍。

　　通過上述分析，假設處理器不采用流水線，而是使用一個狀態(tài)機來完成，則需要多個時鐘周期才能完成一條指令的所有操作，每個時鐘周期完成狀態(tài)機的一個狀態(tài)(譬如分別為取指、譯碼、執(zhí)行、訪存和寫回)。通過使用狀態(tài)機，可以省掉上述流水線中的寄存器開銷，還可以復用組合邏輯數(shù)據(jù)通路，因此面積開銷比較小，但是每條指令都需要5個周期才能完成，吞吐率和性能很差。

　　談及此處，就不得不提及8位單片機時代的傳奇老炮兒8051內核，早期原始的8051內核微架構就是采用了類似狀態(tài)機的實現(xiàn)方式而不是流水線。因此，回到最開始我們提出的問題，處理器可否不要流水線，答案是：當然可以，傳奇老炮兒8051內核就沒有流水線。

　　所以說從功能能上來講，處理器完全可以不使用流水線，而使用狀態(tài)機的方式來實現(xiàn)，只不過由于這種方式性能比較差，在現(xiàn)代處理器設計中比較罕見而已。

　　3 深處種菱淺種稻，不深不淺種荷花——流水線的深度

　　流水線的級數(shù)(又稱深度)多少最好呢?要回答這個問題，就需要了解流水線的深淺各自的優(yōu)劣。此處有一個常見面試題，題目便是：處理器的流水線是否越深越好?在此我們給出答案：

　　早期的經(jīng)典流水線是5級流水線，分別為取指、譯碼、執(zhí)行、訪存和寫回?，F(xiàn)代的處理器往往具有極深的流水線級數(shù)，譬如高達十幾級，或者二十幾級的深度。流水線就像一根黃瓜，切五刀下去得到的每一截長度和切二十到下去得到的每一截長度肯定是不一樣的。當流水線的級數(shù)越多，那么意味著流水線被切的很細，每一級流水線內容納的硬件邏輯便越少，熟悉數(shù)字同步電路設計的讀者應該比較熟悉，在兩級寄存器(每一級流水線由寄存器組成)之間的硬件邏輯越少，則意味能夠運行到更高的主頻。因此現(xiàn)代的處理器流水線極深主要是由于處理器追求高頻的指標所驅使，高端的ARM Cortex-A系列由于有十幾級的流水線，所以能夠運行到高達2GHz的主頻，而Intel的x86處理器甚至采用幾十級的流水線深度將主頻推到3-4GHz的高度。主頻越高也意味著流水線的吞吐率越高從而性能越高，這是流水線加深的正面意義。

　　由于每一級流水線都由寄存器組成，那么意味著更多的流水線級數(shù)要消耗更多的寄存器，也意味著更多的面積開銷。這是流水線加深的負面意義。

　　同時流水線越深，由于每一級流水線需要進行握手，流水線最后一級的反壓信號可能會一直串擾到最前一級造成嚴重的時序問題，需要使用一些比較高級的技巧來解決此類反壓時序問題。這是流水線加深的負面意義。

　　較深的處理器流水線還有一個問題，由于在流水線的取指令階段無法得知條件跳轉的結果是跳還是不跳，因此只能進行預測，而到了流水線的末端才能夠通過實際的運算得知該分支是真的該跳還是不該跳，如果發(fā)現(xiàn)真實的結果(譬如該跳)與之前預測的結果(譬如預測為不跳)不相符，則意味著預測失敗，需要將所有預取的錯誤指令流全部丟棄掉，而重新取正確的指令流，這個過程叫做流水線沖刷(Pipeline Flush)，雖然可以使用分支預測器來保證前期的分支預測盡可能的準確，但是也無法做到萬無一失。那么，流水線的深度越深，則意味著已經(jīng)預取了很多的錯誤指令流，需要將其全部拋棄然后重啟，不僅白白的浪費了功耗，還造成了性能的損失。流水線越深則意味著浪費和損失越嚴重，流水線越淺則浪費和損失越少。這是流水線加深的另一個主要的負面意義。

　　綜上，所謂深處種菱淺種稻，不深不淺種荷花，流水線的不同深度皆有其優(yōu)缺點，需要根據(jù)不同的應用背景合理地進行選擇。

　　由于處理器流水線深淺的不同優(yōu)劣，根據(jù)不同的應用場景，當今處理器的流水線深度在向著兩個不同的極端發(fā)展，一方面級數(shù)越來越深，另一方面又越來越淺，下面我們結合不同的商用處理器例子予以探討。

　　4 向上生長——越來越深的流水線

　　現(xiàn)代的高性能處理器相比最早期的處理器明顯存在著流水線越來越深的現(xiàn)象，其驅動因素很簡單，那就是追求更高的主頻以獲取更高的吞吐率和性能。

　　以最知名的ARM Cortex-A系列處理器IP為例，Cortex-A7主打的低功耗前提下的能效比，其流水線級數(shù)為8級;而Cortex-A15主打高性能，其流水線深度為15級。

　　當然流水線越來越深也需有其限度，曾有某些商業(yè)處理器產品一味地追求極端流水線深度(達到幾十級)反而遭遇失敗的例子。目前最新的Intel處理器和ARM 高性能Cortex-A系列處理器的流水線深度都在十幾級的范圍左右。

　　5 向下生長——越來越淺的流水線

　　現(xiàn)代低功耗處理器的另外一個趨勢也存在著流水線越來越淺的現(xiàn)象，其驅動因素同樣很簡單，那就是在性能夠用的前提下追求極低的功耗。

　　以最知名的ARM Cortex-M系列處理器IP為例，2004年發(fā)布的Cortex-M3處理器核的流水線級數(shù)只有3級，2009年發(fā)布的Cortex-M0處理器核的流水線級數(shù)也只有3級，而2012年發(fā)布的Cortex-M0+處理器核的流水線級數(shù)反而只有2級，變得越來越少了，正因為此ARM也宣傳Cortex-M0+處理器核為世界上能效比最高的處理器核。

　　2級的流水線深度似乎已經(jīng)淺到底了，讀者可能會問，那是不是接下來要發(fā)布只有1級深度的流水線了?當深度變?yōu)?之后也就談不上流水線了，其整體也就變成一個單周期的組合邏輯了，在眾多的計算機體系結構教學案例中我們確實見到過很多流水線深度為1的處理器核，從功能上來說其仍然可以完成處理器的所有功能，只不過主頻相當之低而已。

　　6 處理器流水線中的反壓

　　隨著流水線越深，由于每一級流水線都需要進行握手，流水線最后一級的反壓信號可能會一直串擾到最前一級造成嚴重的反壓(Back-pressure)時序問題，需要使用一些比較高級的技巧來解決這些時序問題。在現(xiàn)代處理器設計中，通常有如下若干種方法：

　　取消握手：此方法能夠徹底杜絕反壓的發(fā)生，時序表現(xiàn)非常好。但是取消握手即意味著流水線中的每一級并不會與其下一級進行握手，因此可能會造成功能錯誤或者指令丟失。因此這種方法往往需要配合其他的機制，譬如重執(zhí)行(Replay)，預留大緩存等等。簡而言之，此方法比較激進，輔以一系列其他的配置機制，硬件總體的復雜度會比較大。只有在一些非常高級的處理器設計中才會用到。

　　加入乒乓緩存：加入乒乓緩存(Ping-pong Buffer)是一種用面積換時序的方法，也是解決反壓最簡單的方法。通過使用乒乓緩存(有兩個表項)替換普通的一級流水線(只有一個表項)，可以使得此級流水線向上一級流水線的握手接受信號僅僅需要關注乒乓緩存中是否有一個以上有空的表項即可，而無需將下一級的握手接受信號串擾至上一級。

　　加入前向旁路緩存：加入前向旁路緩存(Forward Bypass Buffer)也是一種用面積換時序的方法，這是在解決反壓時一種非常巧妙的方法。旁路緩存僅有一個表項，由于增加了這一個額外的緩存表項，可以將后向的握手信號時序路徑砍斷，但是對前向路徑不產生影響，因此，可以廣泛使用于握手接口。蜂鳥E200即于設計中采用此方法，有效地解決了多處反壓造成的時序瓶頸。

　　以上解決反壓的技術方法，不僅在處理器設計中能夠用到，而且在普通的ASIC電路設計中也會經(jīng)常用到。

　　7 處理器流水線中的沖突

　　處理器的流水線設計中另外一個問題便是流水線中的沖突(Hazards)，主要分為資源沖突和數(shù)據(jù)沖突。

　　7.1 流水線中的資源沖突

　　資源沖突是指流水線中硬件資源的沖突，最常見的是運算單元的沖突，譬如除法器需要多個時鐘周期才能完成運算，因此在前一條除法指令運算完成之前，新的除法指令如果也需要除法器則會存在著資源沖突。在處理器的流水線中硬件資源沖突種類還有較多，在此不做一一贅述。解決資源沖突的方法可以通過復制硬件資源或者流水線停頓等待硬件資源的方法解決。

　　7.2 流水線中的數(shù)據(jù)沖突

　　數(shù)據(jù)沖突是指不同的指令之間的操作數(shù)存在數(shù)據(jù)相關性造成的沖突。常見的數(shù)據(jù)相關性包括：

　　WAR(Write-After-Read)相關性，又稱先讀后寫相關性：表示“后序執(zhí)行的指令需要寫回的結果寄存器索引”與“前序執(zhí)行的指令需要讀取的源操作數(shù)寄存器索引”相同造成的數(shù)據(jù)相關性。因此，從理論上來講，在流水線中“后序指令”一定不能比和它有WAR相關性的“前序指令”先執(zhí)行，否則“后序指令”先寫回了結果至通用寄存器組中，“前序指令”再讀取操作數(shù)時，就會讀到錯誤的數(shù)值。

　　WAW(Write-After-Write)相關性，又稱先寫后寫相關性：表示“后序執(zhí)行的指令需要寫回的結果寄存器索引”與“前序執(zhí)行的指令需要寫回的結果寄存器索引”相同造成的數(shù)據(jù)相關性。因此，從理論上來講，在流水線中“后序指令”一定不能比和它有WAW相關性的“前序指令”先執(zhí)行，否則“后序指令”先寫回了結果至通用寄存器組中，“前序指令”再寫回結果至通用寄存器組中就會將其覆蓋。

　　RAW(Read-After-Write)相關性，又稱先寫后讀相關性：表示“后序執(zhí)行的指令需要讀取的源操作數(shù)寄存器索引”與“前序執(zhí)行的指令需要寫回的結果寄存器索引”相同造成的數(shù)據(jù)相關性。因此，從理論上來講，在流水線中“后序指令”一定不能比和它有RAW相關性的“前序指令”先執(zhí)行，否則“后序指令”便會從通用寄存器組中讀回錯誤的源操作數(shù)。

　　以上的三種相關性中，RAW屬于真數(shù)據(jù)相關。

　　解決數(shù)據(jù)沖突的常見方法如下：

　　WAW和WAR可以通過寄存器重命名的方法將相關性去除，從而無需擔心其執(zhí)行順序。

　　寄存器重命名技術在Tomasulo算法中通過保留站和ROB(Re-Order Buffer)完成，或者采用純物理寄存器(而不用ROB)的方式完成。

　　之所以RAW稱之為真數(shù)據(jù)相關，是因為其沒有辦法通過寄存器重命名的方法將相關性去除。一旦產生RAW相關性，后序的指令一定要使用和它有RAW數(shù)據(jù)相關性的前序指令執(zhí)行完成的結果，從而造成流水線的等待停頓。為了能夠盡可能的減少流水線停頓帶來的性能損失，可以使用“動態(tài)調度”的方法。動態(tài)調度的思想本質上可以歸結于以下方面：

　　一方面采用數(shù)據(jù)旁路傳播(Data Bypass and Forward)技術盡可能的讓前序指令的計算結果更快的旁路傳播給后序相關指令的操作數(shù);

　　另一方面盡可能的讓后序相關指令在等待的過程中不阻塞流水線而讓其他無關的指令能夠繼續(xù)順利執(zhí)行。

　　早期的Tomasulo算法中通過保留站可以達到這兩方面的功效，但是保留站由于保存了操作數(shù)無法做到很大的深度(否則面積和時序的開銷巨大)。

　　最新的高性能處理器普遍采用在每個運算單元前配置亂序發(fā)射隊列(Issue Queue)的方式，發(fā)射隊列僅追蹤RAW相關性而并不存放操作數(shù)，因此可以做的很深(譬如16個表項)。在發(fā)射隊列中的指令一旦相關性解除之后，再從發(fā)射隊列中發(fā)射出來讀取物理寄存器組(Physical Register File)，然后發(fā)送給運算單元開始計算。

　　有關處理器的數(shù)據(jù)相關性問題和包括動態(tài)調度技術在內的解決方法，如果闡述清楚幾乎可以單獨成書，本文限于篇幅只能提綱挈領式的予以簡述，感興趣的讀者可以自行查閱。

　　本文試圖以最通俗化的方式對處理器流水線進行介紹，首先討論了處理器流水線概述，包括：從經(jīng)典的五級流水線說起、可不可以不要流水線——流水線和狀態(tài)機的關系、深處種菱淺種稻，不深不淺種荷花——流水線的深度、向上生長——越來越深的流水線、向下生長——越來越淺的流水線。然后本文介紹了處理器流水線設計的兩大難題及其多種解決方法：處理器流水線中的反壓、處理器流水線中的沖突。