作者:沈忱
一、前言
DDR SDRAM,是一種雙數(shù)據(jù)速率(DDR)同步動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(SDRAM)。作為現(xiàn)代數(shù)字系統(tǒng)里最重要的核心部件之一,應(yīng)用十分廣泛。從消費(fèi)類電子到商業(yè)工業(yè)類設(shè)備,從終端產(chǎn)品到數(shù)據(jù)中心,用于CPU進(jìn)行數(shù)據(jù)處理運(yùn)算的緩存。近20多年來(lái),經(jīng)歷了從SDRAM發(fā)展到DDR RAM,又從DDR發(fā)展到目前的DDR5,每一代 DDR 技術(shù)在帶寬、性能和功耗等各個(gè)方面都實(shí)現(xiàn)了顯著的進(jìn)步,極大地推動(dòng)了計(jì)算性能的提升。
二、DDR標(biāo)準(zhǔn)發(fā)展和DDR5簡(jiǎn)介
圖1展示的是RAM(Random Access Memory)20多年來(lái)的發(fā)展歷程和信號(hào)特點(diǎn)。在SRAM時(shí)代,由于較低的信號(hào)速率,我們更多關(guān)心的是信號(hào)的扇出以及走線所帶來(lái)的容性負(fù)載。在DDR1/2/3時(shí)代,信號(hào)速率的不斷提升,傳統(tǒng)的使用集總參數(shù)方式來(lái)進(jìn)行電路分析已越發(fā)顯得不足,我們更關(guān)心的是信號(hào)的建立保持時(shí)間,以及信號(hào)線之間的延遲skew。來(lái)到DDR4時(shí)代,有限帶寬的PCB、連接器等傳輸通道,把原始信號(hào)里的高頻分量削弱或者完全去掉,使得信號(hào)在時(shí)域波形上的表現(xiàn)為邊沿變緩、出現(xiàn)振鈴或者過(guò)沖。我們要像分析傳統(tǒng)串行數(shù)據(jù)那樣去更加關(guān)心數(shù)據(jù)的眼圖,接收端模板和誤碼率。隨著AI、機(jī)器學(xué)習(xí)以及5G的發(fā)展,以往的DDR4技術(shù),開(kāi)始顯得力不從心。如今DDR5的第5代高速I/O數(shù)據(jù)傳輸開(kāi)始大規(guī)模走向市場(chǎng)化。
圖1 DDR標(biāo)準(zhǔn)發(fā)展和信號(hào)特點(diǎn)演進(jìn)
2.1 DDR5的新特性
如下表所示,DDR5相比DDR4而言,帶來(lái)了一系列關(guān)鍵的性能提升,同時(shí)也帶來(lái)了新的設(shè)計(jì)挑戰(zhàn)。
表1 DDR4和DDR5比較(源自Rambus)
2.1.1 速率的提升
近年來(lái),內(nèi)存與CPU性能發(fā)展之間的剪刀差越來(lái)越大,對(duì)內(nèi)存帶寬的需求日益迫切。DDR4在1.6GHz的時(shí)鐘頻率下最高可達(dá) 3.2 GT/s的傳輸速率,最初的 DDR5則將帶寬提高了 50%,達(dá)到 4.8 GT/s傳輸速率。DDR5 內(nèi)存的數(shù)據(jù)傳輸速率最終將會(huì)達(dá)到 8.4 GT/s。
2.1.2 電壓的降低
降低工作電壓(VDD),有助于抵消高速運(yùn)行帶來(lái)的功耗增加。在 DDR5 DRAM 中,寄存時(shí)鐘驅(qū)動(dòng)器 (RCD) 電壓從 1.2 V 降至 1.1 V。命令/地址 (CA) 信號(hào)從 SSTL 變?yōu)?PODL,其優(yōu)點(diǎn)是當(dāng)引腳處于高電平狀態(tài)時(shí)不會(huì)消耗靜態(tài)功率。
2.1.3 DIMM 新電源架構(gòu)
使用 DDR5 DIMM 時(shí),電源管理將從主板轉(zhuǎn)移到 DIMM 本身。DDR5 DIMM 將在 DIMM 上安裝一個(gè) 12 V 電源管理集成電路(PMIC),使系統(tǒng)電源負(fù)載的顆粒度更細(xì)。PMIC 分配1.1 V VDD 電源,通過(guò)更好地在 DIMM 上控制電源,有助于改善信號(hào)完整性和噪音。
2.1.4 DIMM通道架構(gòu)
DDR4 DIMM 具有 72 位總線,由 64 個(gè)數(shù)據(jù)位和 8 個(gè) ECC 位組成。在 DDR5 中,每個(gè) DIMM 都有兩個(gè)通道。每個(gè)通道寬 40 位,32 個(gè)數(shù)據(jù)位和 8 個(gè) ECC 位。雖然數(shù)據(jù)寬度相同(共 64 位),但兩個(gè)較小的獨(dú)立通道提高了內(nèi)存訪問(wèn)效率。因此,使用 DDR5 不僅能提高速度,還能通過(guò)更高的效率放大更高的傳輸速率。
2.1.5 更長(zhǎng)的突發(fā)長(zhǎng)度
DDR4 的突發(fā)長(zhǎng)度為4或者8。對(duì)于 DDR5,突發(fā)長(zhǎng)度將擴(kuò)展到8和16,以增加突發(fā)有效載荷。突發(fā)長(zhǎng)度為16(BL16),允許單個(gè)突發(fā)訪問(wèn) 64 字節(jié)的數(shù)據(jù),這是典型的 CPU 高速緩存行大小。它只需使用兩個(gè)獨(dú)立通道中的一個(gè)通道即可實(shí)現(xiàn)這一功能。這極大地提高了并發(fā)性,并且通過(guò)兩個(gè)通道提高了內(nèi)存效率。
2.1.6 更大容量的 DRAM
DDR4 在單芯片封裝(SDP)中的最大容量為16 Gb DRAM。而DDR5的單芯片封裝最大容量可達(dá)64 Gb,組建的DIMM 容量則翻了兩番,達(dá)到驚人的 256 GB。
2.2 DDR5 設(shè)計(jì)面臨的挑戰(zhàn)
2.2.1 采用分離式全速率時(shí)鐘,對(duì)應(yīng)6400M T/s頻率的時(shí)鐘速率高達(dá)3.2GHz(未來(lái)會(huì)支持到8400M T/s)。
DDR5 DQS控制DQ讀寫時(shí)序
時(shí)鐘控制命令信號(hào),選通信號(hào)控制數(shù)據(jù)。對(duì)時(shí)鐘信號(hào)抖動(dòng)的要求更加嚴(yán)格,對(duì)各種命令信號(hào)與數(shù)據(jù)和地址信號(hào)的時(shí)序要求也更高。
2.2.2 雙向復(fù)用的數(shù)據(jù)總線,讀寫數(shù)據(jù)分時(shí)復(fù)用鏈路。
由于有限的鏈路通道和布板空間等資源讀寫操作繼續(xù)采用共享總線,因此需要分時(shí)操作。從驗(yàn)證測(cè)試角度來(lái)看也需要分別對(duì)讀和寫信號(hào)進(jìn)行分離以檢查其是否滿足規(guī)范。
DDR5讀寫共享總線
2.2.3 突發(fā)DQS和DQ信號(hào)在更高速率的背景下在有限帶寬的鏈路傳輸時(shí)帶來(lái)更多ISI效應(yīng)問(wèn)題。
在DQS讀寫前導(dǎo)位,突發(fā)的第一個(gè)bit等等均有不同的效應(yīng)和表現(xiàn)。此外考慮到存儲(chǔ)電路在設(shè)計(jì)上不同于串行電路存在較多的阻抗不匹配,因此反射問(wèn)題或干擾帶來(lái)的ISI也會(huì)更嚴(yán)重。
DDR5在接收端采用更多的類似高速串行總線的信號(hào)處理
因此在接收側(cè)速率大于3600MT/s時(shí)采用類似高速串行電路和標(biāo)準(zhǔn)總線中已經(jīng)成熟的DFE均衡技術(shù),可變?cè)鲆娣糯?VGA)則通過(guò)MR寄存器配置,以補(bǔ)償在更高速率傳輸時(shí)鏈路上的損耗。DDR4標(biāo)準(zhǔn)采用的CTLE作為常用的線性均衡放大,雖然簡(jiǎn)單易實(shí)現(xiàn)但是其放大噪聲的副產(chǎn)品也更為常見(jiàn),考慮到DDR5總線里的反射噪聲比沒(méi)有采用。另外考慮到并行總線的串?dāng)_和反射等各信號(hào)抖動(dòng)的定義和分析也會(huì)隨之變化。
從測(cè)試角度來(lái)看,示波器是無(wú)法得到TP2點(diǎn)即均衡后的信號(hào)的,而僅能得到TP1點(diǎn)的信號(hào),然后通過(guò)集成在示波器上的分析軟件里的均衡算法對(duì)信號(hào)進(jìn)行均衡處理以得到張開(kāi)的眼圖。眼圖分析的參考時(shí)鐘則來(lái)自基于時(shí)鐘信號(hào)的DQS信號(hào)。另外眼圖測(cè)試也從以往僅對(duì)DQ進(jìn)行擴(kuò)展到包括CMD/ADDR總線。
三、DDR5的測(cè)試新方法
3.1 發(fā)送端TX測(cè)試挑戰(zhàn)
3.1.1 讀寫分離
由于規(guī)范規(guī)定DDR5,不再像傳統(tǒng)的DDR一樣,讀寫在pin腳處有嚴(yán)格的相位差別。所以使用DQS-DQ 相位差和前置信號(hào)模式的傳統(tǒng)方法可能不再適用,需要采用新方法進(jìn)行讀寫數(shù)據(jù)分離。
根據(jù)真值表可以看出,CA4在讀寫操作過(guò)程中有不同的邏輯電平,所以可以根據(jù)CA4的狀態(tài)來(lái)結(jié)合讀寫延遲來(lái)進(jìn)行讀寫分離。
3.1.2新增的測(cè)試參數(shù)
由于速率的提高,可能需要新的測(cè)試參數(shù)來(lái)鑒定關(guān)鍵信號(hào)。抖動(dòng)成為關(guān)鍵信號(hào)的重要組成部分。規(guī)范定義了全新的UI抖動(dòng)定義。
以及針對(duì)該UI的測(cè)量算法。
UI的測(cè)量項(xiàng)將覆蓋CLK(input)、DQS(tx)和DQ(tx) 信號(hào),且要求非常嚴(yán)格。
根據(jù)下表的計(jì)算,按照DDR5 4800的速率為例,要求測(cè)量出來(lái)的Rj最大值為0.0037UI,也就是769.6fs。
如此高要求的測(cè)量結(jié)果,也對(duì)儀表本身的性能提出了非常高的要求。儀表的抖動(dòng)測(cè)量本底計(jì)算公式如下,可以看出示波器的本底噪聲以及本底抖動(dòng),對(duì)抖動(dòng)測(cè)量起了非常大的影響。
是德科技UXR旗艦級(jí)實(shí)時(shí)示波器,具有25fs的極低本底抖動(dòng),165μV(rms)(16G帶寬下)?的本底噪聲??梢蕴峁┛煽康腄DR5的相關(guān)抖動(dòng)測(cè)試。
3.1.3 測(cè)試方法
DDR的TX測(cè)量手法,一直是我們所關(guān)心的內(nèi)容。在DDR4以前,規(guī)范規(guī)定的測(cè)試點(diǎn),均在DRAM的ball處。DDR5里,除了眼圖測(cè)試以外,其他測(cè)試點(diǎn)沒(méi)有做額外更新。
我們推薦使用interposer的方式來(lái)進(jìn)行測(cè)量,如下圖所示。
測(cè)量完成后,通過(guò)S參數(shù)的數(shù)學(xué)計(jì)算,實(shí)現(xiàn)從實(shí)測(cè)點(diǎn)到理論測(cè)試點(diǎn)的波形轉(zhuǎn)換。
而針對(duì)于DDR5的眼圖測(cè)試,如果打開(kāi)了DFE功能,示波器可以在去嵌的基礎(chǔ)上,進(jìn)一步完成均衡的操作,最后得到需要的波形。
當(dāng)然,是德科技已經(jīng)提供自動(dòng)化的測(cè)試App,方便的給用戶提供可視化的一鍵測(cè)試方案。
3.1.4 控制器測(cè)試新場(chǎng)景
由于信號(hào)速率的不斷提升,控制器、鏈路、芯片,紛紛加入了測(cè)試大軍。下圖展示了針對(duì)于控制器、PCB互聯(lián)鏈路的TX測(cè)試場(chǎng)景,通過(guò)示波器,配合夾具的使用,來(lái)實(shí)現(xiàn)發(fā)送端的信號(hào)質(zhì)量測(cè)試。
3.2 接收端RX測(cè)試挑戰(zhàn)
3.2.1 接收端新技術(shù)
以往的高速串行鏈路設(shè)計(jì)中,我們知道隨著速率的不斷提升,鏈路的損耗,以及ISI,對(duì)高頻分量的影響越來(lái)越大,所以在PCIE Gen3的時(shí)候,引入了接收端均衡的概念,用于彌補(bǔ)高頻分量的損失。
具體來(lái)看,有下面幾點(diǎn)。①是接收端的信號(hào)會(huì)先經(jīng)過(guò)CTLE(連續(xù)時(shí)間線性均衡)均衡,圖上展示的是具有7個(gè)DC gain的CTLE曲線。然后信號(hào)會(huì)一分為二,一部分給到CDR②,CDR中的核心PLL的OJTF函數(shù)是一個(gè)類似左邊的高通濾波器。信號(hào)的另一部分信號(hào)會(huì)給到③具有一個(gè)tap的DFE(判決反饋均衡)。
我們特別注意一下圖里標(biāo)識(shí)的2個(gè)測(cè)試點(diǎn),一個(gè)是TP2,一個(gè)是TP2`。通常TP2是使用示波器真實(shí)捕獲到的信號(hào),而TP2`則是使用標(biāo)準(zhǔn)的參考接收機(jī)模型,來(lái)去復(fù)原芯片真實(shí)看到的波形。那這種均衡技術(shù)對(duì)DDR5是否有參考借鑒的意義呢?
首先看一下DDR5相對(duì)于傳統(tǒng)serdes技術(shù)有什么特殊的地方。
a)
全速率時(shí)鐘
接收端沒(méi)有PLL
b)
單端信號(hào)
數(shù)量眾多,不僅要考慮損耗帶來(lái)的影響,更多的還需要考慮串?dāng)_帶來(lái)的影響
c)
分布式
多顆粒應(yīng)用場(chǎng)景,每片顆粒獨(dú)立的訓(xùn)練和均衡
了解了DDR5和傳統(tǒng)Serdes的幾個(gè)特別之處外,參考在PCIE上使用的均衡技術(shù),進(jìn)行了部分調(diào)整后如下。
首先是CDR,由于系統(tǒng)里有了顯示時(shí)鐘,可以使用不具有頻率跟蹤能力的DLL模塊,來(lái)代替原先復(fù)雜的CDR模塊。第二個(gè)是CTLE,雖然CTLE實(shí)現(xiàn)簡(jiǎn)單,但是考慮到單端的DDR5總線里的反射和串?dāng)_等,對(duì)信噪比惡化嚴(yán)重,所以使用了VGA可變?cè)鲆?a class="article-link" target="_blank" href="/tag/%E6%94%BE%E5%A4%A7%E5%99%A8/">放大器來(lái)代替CTLE。第三個(gè)是借鑒了成熟的DFE均衡技術(shù)。最后一個(gè),沿用了DDR以往的write leveling和read leveling機(jī)制。把原先在接收端實(shí)現(xiàn)的去加重功能放在了控制器端來(lái)實(shí)現(xiàn)。
3.2.2 接收端測(cè)試的新挑戰(zhàn)
傳統(tǒng)的Serdes接收端測(cè)試(以PCIe為例),目的是確定DUT能否在芯片封裝的ball處(或者CEM規(guī)范的金手指處)可靠接收帶有指定受損的信號(hào),達(dá)到要求的誤碼率要求。
針對(duì)DDR的單端并行總線系統(tǒng),非相關(guān)抖動(dòng)、電平干擾、ISI、串?dāng)_、反射,對(duì)于系統(tǒng)的可靠運(yùn)行至關(guān)重要。DDR5的接收端測(cè)試,不僅包括了壓力眼測(cè)試,也就是在給定的壓力眼信號(hào)下,達(dá)到特定的誤碼率要求,還包括了幅度電壓方面和水平抖動(dòng)方面的靈敏度測(cè)試。
而被測(cè)DUT,可以是控制器、DRAM、緩沖器/寄存器、DIMM 等。
3.2.3 接收端測(cè)試的新方法
規(guī)范定義了接收端測(cè)試?yán)锏乃袦y(cè)試點(diǎn)要求,以及波形在均衡器之后的指標(biāo)要求。測(cè)試前,需要按照規(guī)范的要求進(jìn)行校準(zhǔn)。
校準(zhǔn)之前,考慮到DDR總線的特殊性。ODT 會(huì)用于優(yōu)化發(fā)送端到接收端的信號(hào)質(zhì)量,由于其允許不同的阻抗設(shè)置,接收端測(cè)試過(guò)程中,建議使用 48 歐姆進(jìn)行校準(zhǔn),以盡量減少與標(biāo)準(zhǔn)測(cè)試設(shè)備之間的不匹配。在此假設(shè)下,通過(guò)電平和抖動(dòng)的 BERT 設(shè)置來(lái)調(diào)整信號(hào)的形狀,實(shí)現(xiàn)壓力信號(hào)的產(chǎn)生。
是德科技提供以M8000系列誤碼儀為基礎(chǔ)的DDR5接收端測(cè)試方案,支持控制器、DRAM、緩沖器/寄存器、DIMM的測(cè)試。
3.2.4 接收端測(cè)試的校準(zhǔn)
下圖是DDR在系統(tǒng)產(chǎn)品中實(shí)際應(yīng)用的拓?fù)浣Y(jié)構(gòu)。依次從DDR控制器,經(jīng)過(guò)PCB路徑,來(lái)到DIMM上的DRAM顆粒。
做校準(zhǔn)的時(shí)候,也是參考上圖的拓?fù)鋪?lái)完成整個(gè)路徑的模擬。針對(duì)DIMM或者顆粒而言,信號(hào)由BERT發(fā)出,經(jīng)過(guò)CTC2 Board和replicate card,最終由示波器接收,組成完整的端到端鏈路。
這里要特別說(shuō)明的是,針對(duì)不同的產(chǎn)品測(cè)試,有對(duì)應(yīng)的夾具來(lái)進(jìn)行配合。主要的夾具有如下幾種。分別是下圖中的C2C test card,System Motherboard Test Fixture,Device Validation Fixture。
其中,CTC2 test card提供DIMM插座,同時(shí)將DIMM上所有信號(hào)包括CA/CMD、DQS,DQ通過(guò)SMP連接器的形式引出。用于DIMM、RCD測(cè)試夾具、Data Buffer測(cè)試夾具、DRAM測(cè)試夾具等的校準(zhǔn)和測(cè)試。
CTC2 test?card
System Motherboard Test Fixture也同樣把CA/CMD、DQS,DQ的信號(hào)通過(guò)SMP的方式引出,用于控制器的發(fā)送端測(cè)試,以及控制器的接收端測(cè)試校準(zhǔn)和測(cè)試,同時(shí)還支持系統(tǒng)主板的通道特性驗(yàn)證。
System Motherboard Test Fixture
Device Validation Fixture包括了RCD的測(cè)試夾具,Data Buffer的測(cè)試夾具,DRAM的測(cè)試夾具,以及Combo測(cè)試夾具等。主要用于單個(gè)器件產(chǎn)品的校準(zhǔn)與測(cè)試,以及多器件的校準(zhǔn)與測(cè)試。測(cè)試時(shí)插在CTC2的test card上。
Device Validation Fixture
下圖展示的是基于CTC2 test card進(jìn)行的校準(zhǔn)操作。連接方式如圖所示。
使用M80885RCA自動(dòng)化軟件,根據(jù)向?qū)?,完成測(cè)試環(huán)境參數(shù)的setup,并對(duì)DUT進(jìn)行初始化。
一步一步,實(shí)現(xiàn)DQS&DQ和CK&CA的各參數(shù)自動(dòng)化校準(zhǔn)。完成自動(dòng)化校準(zhǔn)后,可以查看每個(gè)校準(zhǔn)項(xiàng)目的測(cè)試結(jié)果,如下圖所示。
3.2.5 接收端測(cè)試
接收端測(cè)試包括兩大部分測(cè)試內(nèi)容,Sensitivity測(cè)試和Stressed Eye測(cè)試。其中Sensitivity測(cè)試又包含Voltage Sensitivity和Jitter Sensitivity。
DQS和DQ的Voltage Sensitivity測(cè)試中,測(cè)試DQS的時(shí)候保持DQ的信號(hào)不變,測(cè)試DQ的時(shí)候保持DQS的信號(hào)不變。不斷調(diào)整另外一個(gè)參數(shù)的變量,遍歷整個(gè)參數(shù)的范圍后,統(tǒng)計(jì)誤碼率。
DQS的Jitter Sensitivity測(cè)試中,首先輸出clean的clk和dq。在此基礎(chǔ)上,遍歷DQS和DQ的相位,計(jì)算出本底jitter的Sensitivity測(cè)試。然后依次改變DCD和Rj以及DCD和Rj的組合,遍歷DQS和DQ的相位,完成各種場(chǎng)景下的jitter Sensitivity測(cè)試。
Stressed Eye測(cè)試中,使用校準(zhǔn)過(guò)程中的壓力信號(hào)(如下圖),來(lái)進(jìn)行環(huán)回誤碼率測(cè)試。
測(cè)試完成后,M80885一致性軟件會(huì)給出上圖右側(cè)的測(cè)試結(jié)果與測(cè)試報(bào)告。
四、總結(jié)
是德科技可以給大家?guī)?lái)完整的端到端解決方案。包括設(shè)計(jì)前期的仿真,涵蓋了memory designer的建模和ADS的前后仿真。發(fā)送端測(cè)試中,我們提供業(yè)內(nèi)旗艦級(jí)性能指標(biāo)的UXR實(shí)時(shí)示波器和高性能的RC模型探頭,有效降低測(cè)試負(fù)載。接收端測(cè)試中,我們提供all-in-box的M8000系列誤碼儀,支持控制器、DRAM、Data Buffer、RCD、DIMM的接收端校準(zhǔn)與測(cè)試。協(xié)議分析儀方面,U4164A系列,支持完整的DDR、LPDDR的協(xié)議解碼測(cè)試。