什么是QPI總線
利用雙向串聯(lián)點對點傳輸,它可提供與FSB相近的Latency,可讓軟件及操作系統(tǒng)管理,并且針對部份Streams(Threading、ISOC、LT/VT)及out of order requests作出了優(yōu)化,單向最高速度暫定為6.4GT/s,雙向最高速合共10.8GT/s,相比AMD采用的Hyper-Transport 3.0的速度更高。
QPI最大的改進是采用單條點對點模式下,QPI的輸出傳輸能力非常驚人,在4.8至6.4GT/s之間。一個連接的每個方向的位寬可以是5、10、20bit。因此每一個方向的QPI全寬度鏈接可以提供12至16BG/s的帶寬,那么每一個QPI鏈接的帶寬為24至32GB/s。(不過,這仍是遜色于AMD的Hypertransport3---單條連接最大傳輸帶寬可以達到45GB/s,但我們相信未來英特爾仍會對QPI進行進一步提速改進。)在早期的Nehalem處理器中,Intel預計使用20bit的鏈接位寬,大約能提供25.6GB/s的數(shù)據(jù)傳輸能力。這個數(shù)字是Intel在上一季IDF中公布的。舉例來說,在X48芯片組中,F(xiàn)SB的速度為1600MHz,這是目前為止規(guī)格最高的FSB總線了。不過最初的QPI總線具備25.6GB/s的吞吐量,這個值相當于1600MHz FSB帶寬的2倍。
此外,QPI另一個亮點就是支持多條系統(tǒng)總線連接,Intel稱之為multi-FSB。系統(tǒng)總線將會被分成多條連接,并且頻率不再是單一固定的,也無須如以前那樣還要再經(jīng)過FSB進行連接。根據(jù)系統(tǒng)各個子系統(tǒng)對數(shù)據(jù)吞吐量的需求,每條系統(tǒng)總線連接的速度也可不同,這種特性無疑要比AMD目前的Hypertransport總線更具彈性。
例如,針對服務器的Nehalem處理器將擁有至少4組QPI傳輸,可至少組成包括4枚處理器的4路高端服務器系統(tǒng)(也就是16枚運算內(nèi)核至少32線程并行運作)。而且在多處理器作業(yè)下,每顆處理器可以互相傳送資料,并不需經(jīng)過芯片組,從而大幅提升整體系統(tǒng)性能。隨著未來Nehalem架構的處理器集成內(nèi)存控制器、PCI-E 2.0圖形接口乃至圖形核心,QPI架構的優(yōu)勢將進一步發(fā)揮出來。
為了降低QPI總線的延遲,Intel打算在4路處理器以上的系統(tǒng)中使用一種叫做粘貼緩存的技術。它主要是倚靠更大容量的二級高速緩存來存儲南橋和北橋的數(shù)據(jù),使處理器不必反復通過QPI總線來讀取南北橋信息。同時,為了更高提升數(shù)據(jù)處理效率,英特爾還將在處理器內(nèi)部集成內(nèi)存控制器(IMC)。QPI和IMC結合,可以讓Intel更輕松地擴展多路系統(tǒng)和高性能計算(HPC)應用,而Intel現(xiàn)有的處理器架構更關注于指令執(zhí)行引擎和緩存架構,以便在單線程應用中提高性能,導致雙路服務器平臺性能受限,也無法在對內(nèi)存帶寬需求甚高的HPC中發(fā)揮作用。對于第一代采用QPI總線的Nehalem Xeon來說,集成了3通道的DDR3內(nèi)存控制器,這樣在搭配DDR3 1066的情況下,每個處理器自己就能得到25.6GB/s的內(nèi)存帶寬,大概是現(xiàn)在Tigerton系統(tǒng)的5倍,并且這個帶寬數(shù)量隨著處理器插座的增長而增長,對于四插座系統(tǒng),總的帶寬將增長到恐怖的102.4GB/s。強大的內(nèi)存性能將保證即使每個插座上邊采用8核心的處理器,內(nèi)存帶寬也不會成為性能發(fā)揮的瓶頸。需要說明的是在QPI中,對于四路系統(tǒng)來說,任何兩個處理器之間都可以直接通信,這樣,一個處理器可以很方便的訪問到其他處理器控制的內(nèi)存,這可以大大提升效率。另外,由于在QPI系統(tǒng)下不同處理器可以直接通信,同步緩存稱為很方便的事情,再也不用通過北橋的內(nèi)存讀寫來進行了。
結語:
隨著QPI的正式推出,英特爾主導的QPI及AMD的HT 兩大未來總線系統(tǒng)將會正面沖突。為了讓多核心的系統(tǒng)更高效的工作,我們相信今后的芯片組會更加復雜,多條系統(tǒng)總線連接才是今后系統(tǒng)總線發(fā)展的王道。需要說明的是,英特爾在季秋IDF是已經(jīng)在展示了可以工作的、首個采用QPI互聯(lián)架構的Nehalem平臺。我們有理由相信,QPI將沖破內(nèi)存性能帶來的樊籬,實現(xiàn)性能的新飛躍。
評論