越來越多的大模型、AI應(yīng)用,以及龐大的服務(wù)器集群,給原有基礎(chǔ)設(shè)施和底層技術(shù)帶來了直接挑戰(zhàn)。高速、大帶寬的網(wǎng)絡(luò)連接,支持數(shù)據(jù)快速傳輸?shù)慕鉀Q方案,成為AI下一步發(fā)展的關(guān)鍵支撐。
前不久的2024年光纖通信大會(OFC)上,英特爾展示了與其CPU封裝在一起的集成OCI(光學(xué)計算互連)芯粒,該項技術(shù)雖然尚處于技術(shù)原型(prototype)階段,但是對于在新興AI基礎(chǔ)設(shè)施中實現(xiàn)光學(xué)I/O(輸入/輸出)共封裝已經(jīng)實現(xiàn)了關(guān)鍵突破,是推動高帶寬互連創(chuàng)新的關(guān)鍵一步。
該OCI芯??稍谧铋L100米的光纖上,單向支持64個32Gbps 通道,有助于實現(xiàn)可擴展的CPU和GPU集群連接,和包括一致性內(nèi)存擴展及資源解聚的新型計算架構(gòu)。雖然英特爾尚未公開這一OCI芯粒的確切尺寸,但最近發(fā)布的一張照片中,也可以直觀感受到OCI芯粒與標準2號鉛筆末端橡皮擦的尺寸對比。
據(jù)介紹,第一代OCI芯粒雙向數(shù)據(jù)傳輸速度達4Tbps,功耗約為每比特5皮焦耳(pJ)。英特爾正致力于對器件和封裝設(shè)計、制造工藝和帶寬擴展的各種改進,以期在后續(xù)幾代產(chǎn)品中將能效降低到每比特3.5皮焦耳以下。
傳統(tǒng)電氣I/O逼近極限,硅光互連展現(xiàn)優(yōu)勢
英特爾研究院副總裁、英特爾中國研究院院長宋繼強在接受<與非網(wǎng)>等媒體采訪時表示,AI大模型對計算密度和內(nèi)存提出了很高要求,包括大容量和高帶寬,此外,存算比顯著提升,接近一比一,這進一步加劇了帶寬挑戰(zhàn)。下一步,隨著AI應(yīng)用普及,云、邊緣計算及領(lǐng)域內(nèi)模型的并發(fā)調(diào)用需求將激增,更需要業(yè)界加快探索新技術(shù),提升算力和存儲密度,同時降低功耗和體積,以適應(yīng)有限空間內(nèi)的高密度計算和存儲需求。
一直以來,銅線實現(xiàn)芯片間的互連較為高效節(jié)能,但傳輸距離不超一米。長距離傳輸時它的短板明顯,因為需要提高驅(qū)動電壓以保持信號完整性,從而增加了功耗開支,這使它難以滿足跨機架以及跨數(shù)據(jù)中心集群部署的長距離連接需求。
“硅光互連被認為是應(yīng)對這一挑戰(zhàn)的關(guān)鍵。在相對較長的距離內(nèi),采用光纖進行互連,能夠大幅提高傳輸帶寬速率;在I/O層面,可以通過包含片上激光器的PIC(硅光子集成電路)發(fā)射和接收光線,并實現(xiàn)光信號和數(shù)字信號的相互轉(zhuǎn)換,這些集成電路可在現(xiàn)有的晶圓生產(chǎn)線上實現(xiàn)大規(guī)模量產(chǎn),十分方便”,宋院長指出。
當硅光技術(shù)以其節(jié)能特性越來越受到重視的時候,英特爾融合了兩大核心技術(shù)的獨特優(yōu)勢也顯現(xiàn)出來:首先,融合了半導(dǎo)體(特別是硅材料)發(fā)光和檢測光的能力,實現(xiàn)了與現(xiàn)有基于硅的生產(chǎn)流程的集成;其次,支持大規(guī)模集成電路設(shè)計,包括硅與非硅晶體管的混合集成,進一步擴展了硅光技術(shù)的應(yīng)用范圍。
據(jù)介紹,這一完全集成的OCI芯粒的雙向數(shù)據(jù)傳輸速度達4 Tbps,并兼容第五代PCIe。在2024年光纖通信大會現(xiàn)場,實時光學(xué)鏈路演示還展示了通過單模光纖(SMF)跳線(patch cord)在兩個CPU平臺之間實現(xiàn)的發(fā)射器(Tx)和接收器(Rx)互連。CPU生成并測量了比特誤碼率(BER)。英特爾還展示了發(fā)射器的光譜(optical spectrum),包括單一光纖上200GHz間隔的八個波長,以及32Gbps發(fā)射器眼圖(eye diagram),表明了較強的信號質(zhì)量。
滿足AI需求,I/O“馬車”升級“摩托騎士”
在數(shù)據(jù)中心和早期AI集群中,普遍使用可插拔光收發(fā)器模塊來延長傳輸距離,但就AI工作負載的擴展需求而言,其成本和功耗不可持續(xù)。
因為要擴展AI或機器學(xué)習(xí)基礎(chǔ)設(shè)施,就需要大幅提高I/O帶寬密度和互連距離??刹灏问瞻l(fā)器模塊雖然可增加傳輸距離,但體積較大,通常需要高速串行器與解串器(SerDes)或數(shù)字信號處理技術(shù)(DSP)。因此功耗較高,帶寬密度較低,延遲較高。
目前,可插拔光收發(fā)器模塊的功耗大約為每比特15皮焦耳,而這種光電共封裝解決方案的功耗僅為每比特5皮焦耳(pJ)。英特爾的OCI芯粒單向支持64個32Gbps 通道,傳輸距離達100米(由于傳輸延遲,實際應(yīng)用中距離可能僅限幾十米)。它采用8對光纖,每根8波長密集波分復(fù)用(DWDM)。下一步,OCI芯粒(或任何光學(xué)I/O解決方案)將實現(xiàn)與CPU、GPU或SoC共封,可以優(yōu)化和改善I/O帶寬密度、總能效比、延遲和成本。
對于OCI芯粒的實現(xiàn)方式,宋院長也有一個貼切的比喻,“傳統(tǒng)電氣I/O正在逼近物理極限,好比馬車,傳輸速度和距離都很有限;光學(xué)I/O則像是摩托車甚至汽車,速度快且距離長?!?/p>
OCI芯粒是單一晶圓上硅光混合集成的創(chuàng)新之舉
與普通芯粒相比,OCI芯粒的制造需要哪些特殊的半導(dǎo)體技術(shù)?現(xiàn)有的制造傳統(tǒng)半導(dǎo)體芯片的工廠能否快速轉(zhuǎn)產(chǎn)OCI芯粒?
宋院長解釋說,OCI芯粒是一個完整的物理層光I/O器件,包括一個帶有片上密集波分復(fù)用(DWDM)激光器和半導(dǎo)體光放大器(SOA)的硅光子集成電路(PIC),以及一個用于控制硅光子集成電路和連接主機的電子集成電路(EIC)。硅光子集成電路采用基于300毫米硅晶圓上運行的英特爾硅光子制造工藝,電子集成電路則采用標準CMOS工藝節(jié)點。
目前,英特爾已出貨超過800萬個硅光子集成電路,包含多達3200萬個片上集成激光器,時基故障率(FIT)小于0.1(時基故障率是一種廣泛使用的測量可靠性的方法,體現(xiàn)了故障率和發(fā)生故障的次數(shù))。在可插拔光收發(fā)器模塊中已經(jīng)應(yīng)用了這項技術(shù),數(shù)百萬個可插拔光收發(fā)器模塊已于實際應(yīng)用中部署,滿足大型數(shù)據(jù)中心100/200/400 Gbps網(wǎng)絡(luò)傳輸速率需求。
完全集成的OCI(光學(xué)計算互連)芯粒,標志著英特爾將半導(dǎo)體激光器與硅基光放大器混合集成于單一晶圓的創(chuàng)新,不僅縮減了體積、降低了功耗,還預(yù)示著規(guī)?;a(chǎn)后,將進一步帶來良率提升與成本降低的優(yōu)勢。
宋院長透露,英特爾還正在探索新的硅光子制造工藝節(jié)點,該節(jié)點具有先進的器件性能、更高的密度、更好的耦合性,并能大幅提高經(jīng)濟性。英特爾將繼續(xù)在片上激光器和性能、成本(芯片面積減少 40% 以上)和功耗(減少 15% 以上)等方面取得進步。并且,英特爾也在與客戶合作,開發(fā)共封OCI和客戶SoC作為光學(xué)I/O的解決方案。
談及OCI芯粒與英特爾CPU集成在技術(shù)層面的挑戰(zhàn),宋院長表示,將光學(xué)I/O芯粒集成到 CPU 或 GPU 封裝中,可能會增加熱量管理、封裝設(shè)計和供電方面的需求。不過,英特爾在硅光子領(lǐng)域已深耕超過25年,是硅光集成的開拓者和領(lǐng)導(dǎo)者。依托這些技術(shù)經(jīng)驗,已經(jīng)能夠滿足這些設(shè)計需求。
他補充,為了使光學(xué)I/O芯粒更加靈活,并減少集成過程中的工作量,通常會考慮在主機xPU與I/O之間使用電氣接口,這些接口已通過健全的IP生態(tài)系統(tǒng)實現(xiàn)標準化,例如 UCIe、PCIe、以太網(wǎng)等。
OCI芯粒將聚焦三大指標持續(xù)迭代升級
今年以來,數(shù)據(jù)中心普遍進入“萬卡”甚至“五萬卡”級別。在算力集群的構(gòu)建過程中,OCI芯??芍С志嚯x長達100米的傳輸,它可以通過提高岸線密度和擴展集群中CPU或GPU之間的連接范圍來實現(xiàn)更高的帶寬,還可以通過支持資源解聚的新架構(gòu)(如HBM或CXL內(nèi)存池化)來實現(xiàn)更高效的資源利用。面向傳輸速率需求達800 Gbps和1.6 Tbps的新興應(yīng)用,速度達200G/通道的硅光子集成電路正在開發(fā)中。
“我們相信,隨著時間的推移和產(chǎn)量的提升(如新興AI擴展所預(yù)期的那樣),在系統(tǒng)層級,光學(xué)I/O的每比特總互連成本將可與電氣I/O相比。此外,光學(xué)I/O性能更強,將有助于在系統(tǒng)層級提高性能”,宋院長表示,“英特爾目前正在開發(fā)第二代硅光子制造工藝節(jié)點,預(yù)計能將芯片面積減少40%以上,從而提高經(jīng)濟效益,并在功率耗散、光耦合效率、激光功率等方面實現(xiàn)多重性能提升。”
根據(jù)當前的路線圖,英特爾將主要進行三方面指標的迭代,包括:提高線速率、每條光纖的波長數(shù)、光纖數(shù)量和偏振模式,從而擴展未來幾代OCI芯粒的性能,打造出帶寬達32Tb/s的器件。