如何減少光學(xué)器件的數(shù)據(jù)延遲
光學(xué)和電氣領(lǐng)域正開(kāi)始在更深層次上交叉,特別是在數(shù)據(jù)中心對(duì) 3D-IC 和 AI/ML 訓(xùn)練日益關(guān)注的情況下,推動(dòng)了芯片設(shè)計(jì)方式及集成方法的變化。
本文引用地址:http://www.biyoush.com/article/202404/457959.htm這種轉(zhuǎn)變的根源在于 AI/ML 的功耗、性能需求?,F(xiàn)在,僅僅為了訓(xùn)練一個(gè)模型可能需要占用數(shù)據(jù)中心的多座大樓。這些性能需求,再加上數(shù)據(jù)中心本身的爆炸式增長(zhǎng)——從獨(dú)立建筑物發(fā)展為遍布數(shù)個(gè)電網(wǎng)的地理分布網(wǎng)絡(luò),需要專(zhuān)用光纖網(wǎng)絡(luò)來(lái)處理大量帶寬——要求光子學(xué)行業(yè)進(jìn)行創(chuàng)新。
為了應(yīng)對(duì)海量數(shù)據(jù)和不斷擴(kuò)展的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以太網(wǎng)速度正在迅速?gòu)?800 Gb/s 標(biāo)準(zhǔn)(IEEE P802.3df 工作組于 2024 年 2 月批準(zhǔn))提高到 2026 年計(jì)劃中的 1.6Tb/s。與此同時(shí),芯片架構(gòu)師和工程團(tuán)隊(duì)正在努力減小系統(tǒng)延遲。但即便如此還不夠,這就是光通信突然受到更多關(guān)注的原因。
十多年前,有人預(yù)測(cè)光學(xué)將在數(shù)據(jù)中心內(nèi)變得至關(guān)重要。Alphawave Semi 首席技術(shù)官 Tony Chan Carusone 表示:「現(xiàn)在,有些人非常高興地看到光學(xué)在一些大規(guī)模應(yīng)用中占據(jù)了應(yīng)有的位置——比如人工智能/機(jī)器學(xué)習(xí)等?!埂肝覀兯腥硕荚谂︻A(yù)測(cè)將得到廣泛應(yīng)用的技術(shù),以及哪些方面需要開(kāi)發(fā)更定制化的解決方案。」
一個(gè)主要的關(guān)注領(lǐng)域是電光開(kāi)關(guān)技術(shù)。光學(xué)器件是長(zhǎng)距離的最佳解決方案,正確調(diào)整的電子器件可以降低延遲和阻抗。二者結(jié)合在數(shù)據(jù)中心機(jī)架和集群中,使用帶有電氣線(xiàn)路的 ASIC 開(kāi)關(guān),從整個(gè)板面延伸到前面板,在前面板插入可插拔光學(xué)元件以執(zhí)行電光轉(zhuǎn)換及其反向操作。過(guò)去,這被認(rèn)為是一種高效而優(yōu)雅的解決方案,但所有這些毫米都會(huì)累加起來(lái),使傳統(tǒng)的系統(tǒng)架構(gòu)不可持續(xù)。
「將來(lái)會(huì)有一個(gè)時(shí)間點(diǎn),你的所有功耗都會(huì)被用來(lái)嘗試在沒(méi)有任何錯(cuò)誤的情況下高效地將信號(hào)從 A 點(diǎn)傳輸?shù)?B 點(diǎn),」Ansys 的首席研發(fā)工程師 Ahsan Alam 說(shuō)道?!高@就是所謂的『功耗墻』。當(dāng)你所有的功耗都用來(lái)將信號(hào)從一個(gè)芯片傳輸?shù)搅硪粋€(gè)芯片時(shí),你就沒(méi)有剩余的功耗來(lái)執(zhí)行 CPU、GPU 或 ASIC 中的實(shí)際計(jì)算?!?/span>
CPO 和 LPO
業(yè)界正在尋找解決功耗墻問(wèn)題的不同方法。「一種方法是共同封裝光學(xué)器件,」Synopsys 高速 SerDes IP 解決方案首席產(chǎn)品經(jīng)理 Priyank Shukla 表示?!概c其在表面積有限機(jī)架單元邊緣進(jìn)行電光轉(zhuǎn)換(LPO),不如將光纖直接引入芯片封裝中并在其中進(jìn)行轉(zhuǎn)換?!?/span>
盡管如此,可插拔器件與共封裝光學(xué)器件 (CPO) 之間的爭(zhēng)論仍在繼續(xù)。一方面,有人主張采用簡(jiǎn)單易行且運(yùn)行良好的傳統(tǒng)系統(tǒng),擁有長(zhǎng)期建立的 IEEE 標(biāo)準(zhǔn)。另一方面,是一種較新的方法,采用最近批準(zhǔn)的標(biāo)準(zhǔn),可能提升性能并降低成本。
Broadcom 光學(xué)系統(tǒng)市場(chǎng)和運(yùn)營(yíng)副總裁 Manish Mehta 表示:「共封裝光學(xué)架構(gòu)促進(jìn)了 ASIC 與光學(xué)引擎在共同基板上的集成,并消除了信號(hào)傳輸?shù)角岸瞬灏问绞瞻l(fā)器所產(chǎn)生的信號(hào)損傷。由于 CPO 基板上的信號(hào)路徑簡(jiǎn)化,通過(guò)移除光學(xué) DSP 并在光學(xué)引擎中使用 CMOS 電子 IC 組件,光互連功耗減少了 70%?!?/span>
與此同時(shí),線(xiàn)性驅(qū)動(dòng)光學(xué)器件已成為一種可能的獨(dú)立選擇,也是可插拔光學(xué)器件和共封裝光學(xué)器件過(guò)渡的一種方式,ASIC 而非 DSP 驅(qū)動(dòng)光學(xué)器件。英偉達(dá)于 2023 年在 OIF 上首次提出了這一想法,迄今為止已經(jīng)推出了許多變體,希望能夠在降低功耗的情況下創(chuàng)建更快的連接。
「英偉達(dá)首席執(zhí)行官黃仁勛在 GTC 主題演講中指出,通過(guò)光子傳輸數(shù)據(jù)需要在光纖的一側(cè)安裝發(fā)射器,在另一側(cè)安裝接收器。黃仁勛談到取消收發(fā)器并直接使用銅纜?!笰nsys 戰(zhàn)略合作伙伴總監(jiān) Rich Goldman 說(shuō)道?!副M管光子學(xué)有諸多已知的優(yōu)勢(shì),但這個(gè)想法可能也具有一定的價(jià)值,因?yàn)槭瞻l(fā)器需要進(jìn)行一些工作,任何工作都可能減慢速度并增加功耗。這意味著我們需要從芯片一直討論到整個(gè)系統(tǒng),這些都是相互關(guān)聯(lián)的。我們已經(jīng)討論了很長(zhǎng)時(shí)間,現(xiàn)在我們已經(jīng)實(shí)現(xiàn)了?!?/span>
隨著設(shè)計(jì)的不斷發(fā)展,當(dāng)前的光學(xué)互連選擇介于傳統(tǒng)的可插拔式模塊、CPO 和線(xiàn)性驅(qū)動(dòng)可插拔光學(xué)(LPO)之間,而 LPO 位于中間位置。對(duì)于那些還沒(méi)有準(zhǔn)備好完全過(guò)渡到 CPO 的人來(lái)說(shuō),LPO 的優(yōu)勢(shì)在于熟悉的外形尺寸,損失較少。
「這是新的低功耗互連,」Synopsys 的 Shukla 說(shuō)道。「Meta 和其他超大規(guī)模網(wǎng)絡(luò)服務(wù)提供商公開(kāi)要求線(xiàn)性驅(qū)動(dòng)技術(shù),在電光轉(zhuǎn)換中,你可以消除中間的再定時(shí)器,這樣電驅(qū)動(dòng)器直接驅(qū)動(dòng)光學(xué)組件,這就是你在信號(hào)鏈電光轉(zhuǎn)換中節(jié)省功耗的方式。但這也使得 SerDes 設(shè)計(jì)更加具有挑戰(zhàn)性。」
圖 1:共封裝光學(xué)與可插拔光學(xué)的插入損耗節(jié)約比較。Broadcom 將線(xiàn)性驅(qū)動(dòng)可插拔光學(xué)視為一個(gè)中間步驟。來(lái)源:Broadcom
LPOs 是由交換機(jī) SerDes 直接驅(qū)動(dòng)的,沒(méi)有再定時(shí)器。再定時(shí)器曾因通過(guò)創(chuàng)建新信號(hào)來(lái)延長(zhǎng)傳輸距離而受到重視,它們?cè)黾恿诵盘?hào),但不會(huì)放大噪音,與再驅(qū)動(dòng)器不同,后者會(huì)同時(shí)放大信號(hào)和噪音。但現(xiàn)在,它們的存在受到質(zhì)疑,因?yàn)樗鼈兊墓δ軙?huì)增加延遲并消耗額外的功耗。
Infinera 的市場(chǎng)營(yíng)銷(xiāo)高級(jí)副總裁 Rob Shore 表示:「任何需要數(shù)字信號(hào)處理器的東西都需要功耗?!埂笇?duì)于數(shù)據(jù)中心運(yùn)營(yíng)商來(lái)說(shuō),特別是那些試圖建立人工智能基礎(chǔ)設(shè)施的運(yùn)營(yíng)商來(lái)說(shuō),最主要的問(wèn)題是功耗。他們希望將每瓦功耗都用于服務(wù)器,盡可能少地用于光學(xué)設(shè)備?!?/span>
圖 2:無(wú)再定時(shí)器接口。來(lái)源:Synopsys
對(duì)于支持者來(lái)說(shuō),LPO 是功能性和熟悉度之間經(jīng)過(guò)深思熟慮的折衷方案?!笇?duì)于 CPO,如果你從傳統(tǒng)的可插拔式光學(xué)模塊轉(zhuǎn)向一種在實(shí)施方面看起來(lái)非常不同的技術(shù),在可靠性方面不可避免會(huì)產(chǎn)生質(zhì)疑,」Ansys 的 Alam 說(shuō)道。「LPO 仍將具有與當(dāng)前可插拔設(shè)備相同的外形尺寸。這對(duì)于人們選擇這條路線(xiàn)而不是選擇 CPO 來(lái)說(shuō)是一個(gè)很大的動(dòng)機(jī),因?yàn)楹笳邔?huì)有根本不同的變化。」
然而,LPO 也有其自身的局限性?!改銦o(wú)法在非常長(zhǎng)的距離上傳輸數(shù)據(jù),」Alam 解釋道?!钙鋫鬏斁嚯x遠(yuǎn)比 CPO 短。CPO 未來(lái)也將提供更多的功耗優(yōu)勢(shì)。相反,LPO 由于其模塊化結(jié)構(gòu),將提供更優(yōu)秀的可維護(hù)性。最終,一些團(tuán)體會(huì)選擇 LPO,一些會(huì)選擇 CPO,還有一些會(huì)兩者兼而有之。在一些情況下,如當(dāng)前可插拔式收發(fā)器和 LPO,可插拔式光學(xué)模塊是有意義的,而在另一些情況下,CPO 是有意義的。兩者都將繼續(xù)存在,并且市場(chǎng)份額將在兩者之間劃分?!?/span>
從設(shè)計(jì)的角度來(lái)看,CPO 和 LPO 面臨的挑戰(zhàn)有很好的重疊,并且應(yīng)該主要由當(dāng)前的 EDA 工具支持,尤其是 LPO,因?yàn)樗c當(dāng)前的可插拔收發(fā)器相似。Alam 指出:「您可以使用目前用于 LPO 可插拔收發(fā)器設(shè)計(jì)的相同解決方案,而對(duì)于 CPO,則有多物理場(chǎng)工作流程來(lái)應(yīng)對(duì)新興的封裝挑戰(zhàn)?!?/span>
散熱問(wèn)題
盡管 CPO 技術(shù)承諾降低功耗,但設(shè)計(jì)面臨著熱問(wèn)題的挑戰(zhàn)。但問(wèn)題并不在于激光器。
「如果你擔(dān)心熱問(wèn)題,那么『激光』這個(gè)詞聽(tīng)起來(lái)很可怕,」Alam 說(shuō)道。「但是對(duì)于共封裝光學(xué)技術(shù)和芯片內(nèi)外的激光器來(lái)說(shuō),大多數(shù)人將他們的光學(xué)引擎和激光器安裝在單獨(dú)的芯片上,然后將激光器帶入共封裝光學(xué)器件。保持激光器分離的優(yōu)點(diǎn)是可以減少向開(kāi)關(guān)系統(tǒng)產(chǎn)生的熱量。此外,激光器對(duì)溫度變化敏感,因此當(dāng)你將其帶入 3D-IC 時(shí),需要考慮激光器的可靠性,因?yàn)榇嬖跓岽當(dāng)_等問(wèn)題。因此,將激光器置于芯片外是一個(gè)更簡(jiǎn)單的解決方案。話(huà)雖如此,已經(jīng)有一些解決方案將激光器集成到了共封裝光學(xué)器件中??偟膩?lái)說(shuō),無(wú)論使用片內(nèi)還是片外的激光器,都需要對(duì)整個(gè)共封裝光學(xué)器件進(jìn)行熱仿真,以減小熱串?dāng)_、優(yōu)化系統(tǒng)冷卻,并降低工作溫度,以確保性能和可靠性。」
熱量是光子學(xué)中的一個(gè)大問(wèn)題,但在電氣 IC 中并不存在,因?yàn)樗鼤?huì)影響信號(hào)完整性。雖然某些組件的行為可能對(duì)溫度變化非常敏感,但電路通常具有反饋回路,可以調(diào)整熱調(diào)諧器上的電壓,從而調(diào)整設(shè)備溫度和性能。然而,有些對(duì)溫度變化敏感的元件不具備熱調(diào)諧功能。
Ansys 的 Goldman 表示:「你必須非常注意熱量及其對(duì)設(shè)計(jì)的影響?!埂肝覀?cè)跀?shù)據(jù)中心更多地使用光子學(xué),因?yàn)殂~會(huì)升溫,而玻璃不會(huì),而且光還攜帶更多信號(hào)。你可以實(shí)現(xiàn)更大的帶寬,而且速度是光速。它更好、更快、更便宜?!?/span>
簡(jiǎn)單來(lái)說(shuō),產(chǎn)生額外熱量的不是激光器,而是封裝結(jié)構(gòu)。
「共封裝對(duì)整個(gè)行業(yè)來(lái)說(shuō)是一個(gè)挑戰(zhàn),」Shukla 說(shuō)道?!改惚仨毷褂霉卜庋b的部署模擬性能。每個(gè)人都在盡力解決這個(gè)問(wèn)題。光子芯片提供商、光子晶片廠(chǎng)商正在開(kāi)發(fā)這些工藝,以限制他們的光子組件、激光調(diào)制器的熱耗散。EDA 公司正在開(kāi)發(fā)流程,允許系統(tǒng)設(shè)計(jì)人員建模溫度分布,以便正確建模光學(xué)元件的性能。例如,如果激光器的性能隨溫度升高而變化,我們需要工具有效地模擬這一變化,并在數(shù)字方面采取措施來(lái)補(bǔ)償性能的下降。這就是 EDA 工具和設(shè)計(jì)者正在解決的難題,而 SerDes 設(shè)計(jì)者則從電氣方面降低功耗。」
然而,與電子學(xué)不同的是,在某些光子電路中,精確控制的熱量被用來(lái)調(diào)節(jié)激光器,隨著熱量的增加,波長(zhǎng)會(huì)發(fā)生變化。但是,這種特性可能會(huì)使熱過(guò)載成為一個(gè)更加令人擔(dān)憂(yōu)的問(wèn)題。
「很多結(jié)構(gòu)都會(huì)內(nèi)置加熱器來(lái)調(diào)節(jié)其波導(dǎo)的諧振和濾波能力,」Keysight 的業(yè)務(wù)發(fā)展、市場(chǎng)營(yíng)銷(xiāo)和技術(shù)專(zhuān)家 Chris Mueth 說(shuō)道?!杆枰幸粋€(gè)反饋環(huán)路。如果你要調(diào)諧到特定的波長(zhǎng),你就需要對(duì)此進(jìn)行控制。當(dāng)你開(kāi)始在 3D-IC 中進(jìn)行集成時(shí),芯片自身會(huì)加熱,問(wèn)題就變得更加復(fù)雜了。」
情況復(fù)雜,但并非無(wú)望。「你需要考慮控制回路來(lái)處理這個(gè)問(wèn)題。這并不是無(wú)法解決的事情,」Mueth 說(shuō)道。「這是當(dāng)你在集成 3D-IC 和光子學(xué)以及所有這些帶有物理效應(yīng)的不同技術(shù)時(shí),你必須處理的眾多多學(xué)科特征之一?!?/span>
經(jīng)過(guò)幾十年的演示與討論,光子學(xué)和電子學(xué)這兩個(gè)曾經(jīng)分離的領(lǐng)域似乎正在趨于融合。
「無(wú)論是共封裝光學(xué)、可插拔光學(xué)還是單片集成,光子學(xué)在包括數(shù)據(jù)中心光學(xué)和高性能計(jì)算在內(nèi)的廣泛應(yīng)用中與電子學(xué)越來(lái)越接近,」Synopsys 的 EDA 團(tuán)隊(duì)產(chǎn)品營(yíng)銷(xiāo)負(fù)責(zé)人 Jigesh Patel 說(shuō)道?!高@一趨勢(shì)需要在設(shè)計(jì)創(chuàng)新上進(jìn)行范式轉(zhuǎn)變——從 SoC 轉(zhuǎn)向片上系統(tǒng)方法,其中在通用電子光子設(shè)計(jì)自動(dòng)化環(huán)境中多種技術(shù)的協(xié)同設(shè)計(jì)和協(xié)同優(yōu)化是商業(yè)成功的關(guān)鍵?!?/span>
評(píng)論