受到人工智能/機器學習(AI/ML)和數(shù)據(jù)中心、云、高性能計算等數(shù)據(jù)密集型應用的驅動,數(shù)據(jù)中心架構正在持續(xù)演進,這對PCIe接口提出了更高的要求。
面對未來市場需求,近日Rambus發(fā)布了由PHY和控制器IP組成的PCI Express?(PCIe?)6.0接口子系統(tǒng),這是繼今年年初Rambus推出PCIe 6.0控制器產(chǎn)品后的又一大動作。
圖 | PCIe 性能加速隨著時間的推移(圖片來源:Rambus Inc.)
Rambus 戰(zhàn)略營銷副總裁Matt Jones表示:“芯片設計周期通常都非常長,而通過采用Rambus的PCIe 6.0接口子系統(tǒng),可以降低芯片設計人員的設計復雜性。這是因為在過去,芯片設計人員需要把PHY和控制器單獨拿來使用,同時還要重復一些冗雜的驗證工作,而現(xiàn)在,Rambus PCIe 6.0接口子系統(tǒng)集成了控制器和PHY,并已經(jīng)經(jīng)過設計驗證,可以直接在其芯片中實施?!?/p>
Matt Jones以數(shù)據(jù)中心舉了三個例子,在這三個例子中,每個示例都有一個存儲主機總線適配器、一個智能網(wǎng)卡和一個AI加速器或GPU卡。我們看到,PCIe PHY和控制器的組合提供了一個成熟的接口,可以從服務器主板上的PCIe插槽和物理接口連接到控制器芯片上。這三個例子都保證了PCIe或CXL接口是經(jīng)過硅驗證的,并且不會增加設計復雜性。
圖 | 數(shù)據(jù)中心應用示例(圖片來源:Rambus Inc.)
Rambus PCIe 6.0接口子系統(tǒng)有何特色?
Rambus PCIe 6.0接口子系統(tǒng)的數(shù)據(jù)傳輸速率高達64GT/s,并且經(jīng)過全面優(yōu)化,可滿足先進異構計算架構的需求。該子系統(tǒng)中的PCIe控制器具備完整性和數(shù)據(jù)加密(IDE)引擎,專門用于保護PCIe鏈接和通過它們傳輸?shù)闹匾獢?shù)據(jù)。另外在PHY方面,它還提供對CXL 3.0的全面PHY支持,支持緩存一致性內存共享、擴展和池化的芯片級解決方案。
圖 | PCIe 6.0接口子系統(tǒng)(圖片來源:Rambus Inc.)
Rambus PCIe 6.0接口子系統(tǒng)有以下主要特性:
- 支持PCIe 6.0規(guī)范,包括64 GT/s數(shù)據(jù)傳輸速率和PAM4調制信號
- 實現(xiàn)低延遲前向糾錯(FEC),保證鏈路穩(wěn)健性
- 支持固定尺寸的FLIT,可實現(xiàn)高帶寬效率
- 向后兼容PCIe 5.0、0和3.0/3.1
- 通過IDE引擎(控制器)實現(xiàn)最先進的安全性
- 支持CXL 3.0,用于優(yōu)化內存資源的新使用模式(PHY)
總的來講,PCIe 6.0能夠提供高帶寬,低功耗以及低延遲互聯(lián),所以是數(shù)據(jù)中心以及很多其他數(shù)據(jù)應用的非常理想的解決方案。
從NRZ切換到PAM4,PCIe 6.0的功耗是否會增加?
為了進一步滿足PCIe 6.0達到64GT/s數(shù)據(jù)傳輸速率的需求,它的架構必須要重新優(yōu)化和調整。同時,在整個電路和電路傳輸機制的配比上也存在著巨大的差異,其中最大的變化就是從不歸零編碼NRZ到四電平脈沖輔助調制PAM4的轉變。通常,在PAM4的編碼體系下,數(shù)據(jù)傳輸速率可以實現(xiàn)翻倍,但Rambus卻采用了和之前一樣的時鐘速率,即兩個比特。這是因為如果用傳統(tǒng)的方法,通過增加時鐘周期頻率來提升數(shù)據(jù)傳輸速率,毫無疑問功耗會顯著增加。
Matt Jones表示:“Rambus選擇的是另外一種方法來增加數(shù)據(jù)傳輸速率,即采用全新的L0p模式,在該模式下可以對信道進行更加動態(tài)化的調整和控制,可以在減少信道總數(shù)的情況下保證現(xiàn)有的數(shù)據(jù)傳輸速率。同時,在管理功耗過程中,PPA是非常重要的,所以在設計PCIe 6.0相關子系統(tǒng)產(chǎn)品時,我們也進一步優(yōu)化了相關的設計?!?/p>
不過,Matt Jones也坦言:“基于上述全新的創(chuàng)新技術,可以實現(xiàn)對PCIe 6.0功耗的可控,但在對性能需求比較高的時候,我們的確會犧牲掉一部分功耗,但是在對性能要求沒有那么高的時候,我們在功耗上就可以實現(xiàn)更強的可控性。所以整體來講,系統(tǒng)功耗在PCIe 6.0標準下是得到了優(yōu)化的。”
為什么PCIe 6.0可以提供對CXL 3.0的全面PHY支持?
關于PCIe 6.0可以提供對CXL 3.0的全面PHY支持,Matt Jones認為這是CXL 3.0和CXL整個工作小組和委員會做出的一個非常聰明的決定,因為CXL 3.0重新使用PCIe 6.0作為物理層的接口,并且重新復用了PCIe 6.0的電氣接口是一個非常重要的,可以保證兼容性的決定。從而可以確保在數(shù)據(jù)中心,各個服務器之間數(shù)據(jù)傳輸和數(shù)據(jù)移動的一致性,可以在現(xiàn)有的服務器架構下,在不改變現(xiàn)有PCIe插槽以及其他組件的前提下,進一步實現(xiàn)低延遲,以及CXL 3.0所支持的閃存一致性。
值得一提的是,不管是PCIe 6.0還是CXL 3.0,它們所具備的更高數(shù)據(jù)傳輸速率都更好地與異構計算所需要的分布式數(shù)據(jù)傳輸模式相吻合,兩者相輔相成。
Rambus大中華區(qū)總經(jīng)理蘇雷表示:“Rambus也發(fā)布了CXL內存互聯(lián)計劃,CXL帶來了池化、內存共享,還有內存擴展的概念,將從根本上改變整個數(shù)據(jù)中心的架構,特別是池化解決方案,未來將直接提高數(shù)據(jù)中心內存資源的利用率。”
PCIe 6.0可以給數(shù)據(jù)中心帶來哪些改變?
Matt Jones認為PCIe 6.0的落地,將給數(shù)據(jù)中心帶來四個重要的變化,具體如下:
- 第一點,PCIe 6.0和64GT/s數(shù)據(jù)傳輸速率的提升,會帶來數(shù)據(jù)中心架構的變化,這意味著越來越多的數(shù)據(jù)中心會向異構計算進行迭代和變化。
- 第二點,隨著PCIe 6.0的推出,數(shù)據(jù)中心本身的架構會變得更加先進,不管是分布式計算還是可組合的架構。
- 第三點,隨著系統(tǒng)帶寬大幅提高,在異構計算的模型之下,會催生出專門針對特別應用所開發(fā)的不同加速器,而且也可以進一步實現(xiàn)數(shù)據(jù)在不同組件之間傳輸效率的提升,然后針對不同的工作負載也會有一些具體的更好的應用,比如高性能計算、云服務商工作負載的進一步管理和優(yōu)化等。
- 第四點,隨著數(shù)據(jù)使用量的爆炸性增長,以及人工智能和機器學習的持續(xù)發(fā)展,PCIe 6.0將使更大的數(shù)據(jù)集能夠在整個系統(tǒng)中移動,以進行處理,并提高數(shù)據(jù)中心的智能化。
PCIe的速率隨著迭代不斷提高,板級接口何時需要用到光纖連接?
PCIe的每一次迭代都會帶來速率的提高,當PCIe發(fā)展到6代,甚至后面的7代以后,對板級接口方面的要求也會越來越高,或許會使用到光纖連接。當前,不管是從系統(tǒng)層面,還是從研發(fā)層面,包括一些PCIe 的工作小組,大家也都在探討,并且已經(jīng)把這個問題納入日程。
對此,Matt Jones表示:“在不同的PCIe版本之間,到目前為止還是盡可能地做到對前代更好的兼容性,有關未來的發(fā)展我們很難推斷,以及預測未來的走向,未來什么時候,到底是在PCIe 7.0,還是PCIe 8.0,我們需要用到光纖的連接,這些都還是未知的。但是不管怎么樣,這個問題是必須要解決的。至于未來的發(fā)展方向,我們只能根據(jù)下一步的動向來作出具體的決定?!?/p>
數(shù)據(jù)中心剛開始向PCIe 5.0過渡,PCIe 6.0何時能商業(yè)落地?
當前,數(shù)據(jù)中心新的服務器平臺基本才開始向PCIe 5.0過渡,而Rambus現(xiàn)在就開始推出PCIe 6.0接口子系統(tǒng)方案,是否為時過早?答案肯定是否定的,因為當年PCIe 5.0的相關技術,Rambus等比較領先的廠商也是在多年以前就開始開發(fā),到現(xiàn)在才能得到普及。
Matt Jones表示:“根據(jù)對既往模式的預估,PCIe 6.0現(xiàn)在已經(jīng)正式發(fā)布,預計需要兩年時間才能夠完成所有后續(xù)系統(tǒng)的籌備和開發(fā),到2025年左右才會出現(xiàn)更大范圍的系統(tǒng)性應用。不過兩年后設計完成,社會面對其進一步的廣泛采納取決于很多其他因素,比如基礎設施、CPU和其他組件的準備情況等?!?/p>
同時,關于PCIe 6.0首先會在哪些領域首先落地的問題,Matt Jones認為,每次進入新一代PCIe標準,最先推出相關產(chǎn)品并最先采納類似技術的都是那些大規(guī)模的云服務商,或者是一些終端用戶的應用場景。針對PCIe 6.0,我們認為那些針對專門應用或者專門工作負載的加速器應該最先會用到PCIe 6.0。”