加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Teledyne e2v宇航級(jí)數(shù)字處理產(chǎn)品的輻射緩解技術(shù)

2022/08/11
975
閱讀需 16 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

摘要
最先進(jìn)的耐輻射 CPU存儲(chǔ)器使用的技術(shù)會(huì)受太空嚴(yán)苛輻射環(huán)境的影響。為了應(yīng)對(duì)銀河宇宙射線、質(zhì)子或中子撞擊對(duì)器件產(chǎn)生的單粒子效應(yīng)(SEE),我們必須采取輻射緩解措施。了解特定輻射環(huán)境下的輻射效應(yīng)對(duì)制定、設(shè)計(jì)和驗(yàn)證使用耐輻射器件的宇航系統(tǒng)的流程以及提出輻射緩解方案非常重要。合適的輻射緩解技術(shù)需考慮輻射環(huán)境和電子器件的不同,這一點(diǎn)是降低成本、提高系統(tǒng)可用性和吞吐帶寬并減少引入的誤差的關(guān)鍵。在設(shè)計(jì)階段,必須計(jì)算模型和錯(cuò)誤率,以預(yù)測(cè)系統(tǒng)的性能需求。Teledyne e2v 可提供最先進(jìn)的可在嚴(yán)苛輻射環(huán)境下工作的耐輻射數(shù)字器件,并幫助驗(yàn)證輻射緩解技術(shù)是否適用于宇航環(huán)境,是否能最大程度地為當(dāng)前和未來的設(shè)計(jì)降低系統(tǒng)輻射效應(yīng)。本文將首先介紹在半導(dǎo)體上可觀測(cè)到的一般輻射效應(yīng),然后討論在 Teledyne e2v 的計(jì)算密集型宇航器件上觀測(cè)到的典型輻射效應(yīng),最后提出并討論針對(duì)這些輻射效應(yīng)的可用的輻射緩解技術(shù)。

1. 太空輻射效應(yīng)的介紹
輻射對(duì)半導(dǎo)體的影響與多個(gè)因數(shù)有關(guān),例如工藝制程、器件幾何結(jié)構(gòu)、電路實(shí)現(xiàn)和器件應(yīng)用的太空輻射環(huán)境(低地球軌道(LEO)、中地球軌道(MEO)或地球靜止/地球同步軌道(GEO/GSO))。太空中有 3 種主要的輻射源:銀河宇宙射線、太陽輻射和輻射帶(粒子受地球磁場(chǎng)的影響聚集在地球附近的某個(gè)區(qū)域)。在特定輻射環(huán)境下半導(dǎo)體器件的性能壽命通常用總電離劑量(TID)和單粒子效應(yīng)發(fā)生的頻率(SEE)表述。太空中的電子系統(tǒng)所受的輻射與軌道、任務(wù)壽命和屏蔽措施有關(guān)。輻射帶附近的離子通量的能量范圍在 0.1 到 10MeV 之間,會(huì)擊穿半導(dǎo)體的封裝并導(dǎo)致總電離劑量(TID)效應(yīng)和單粒子效應(yīng)(SEE)。具體來說,動(dòng)能超過 300KeV 的輻射離子有更大的潛力穿透塑料、陶瓷或金屬的半導(dǎo)體封裝從而影響到內(nèi)部的裸片。

輻射通過兩種方式影響半導(dǎo)體:1)累積效應(yīng)(很多高能粒子通過而導(dǎo)致的長(zhǎng)期效應(yīng))或 2)單個(gè)粒子通過而導(dǎo)致的事件。累積輻射劑量效應(yīng)通常用總電離劑量(TID)量化,即捕獲并計(jì)算特定器件內(nèi)由輻射產(chǎn)生的電荷,它隨時(shí)間的累積導(dǎo)致器件參數(shù)的漂移。由單個(gè)粒子產(chǎn)生的效應(yīng)被稱為單粒子效應(yīng)(SEE),它是一種隨機(jī)/瞬時(shí)的中斷。

SEE 會(huì)導(dǎo)致破壞性或非破壞性的異常。非破壞性的 SEE 會(huì)破壞輸出或數(shù)據(jù)狀態(tài),但不會(huì)影響或損壞器件本身。當(dāng)發(fā)生非破壞性 SEE 時(shí),只要非平衡電荷和其效應(yīng)完成重組并保持穩(wěn)定,就無需外部輸入來恢復(fù)系統(tǒng)的狀態(tài)。非破壞性 SEE 包括:SET(單粒子瞬變)、SEU(單粒子翻轉(zhuǎn))、SEFI(單粒子功能中斷)和某些限制最大電流并不造成器件損壞的 SEL(單粒子栓鎖)。破壞性的 SEE 會(huì)破壞輸出或數(shù)據(jù)狀態(tài),并導(dǎo)致半導(dǎo)體器件損壞。破壞性 SEE 包括離子撞擊導(dǎo)致的低阻抗/大電流對(duì)器件造成的永久損壞。如果器件不是永久性損壞,則需重新上電(關(guān)/開)以恢復(fù)正常運(yùn)行。除了破壞性的 SEL 之外,SEGR(單粒子?xùn)糯?和 SEB(單粒子燒毀)也是災(zāi)難性的事件,它們會(huì)導(dǎo)致電源和地之間突然出現(xiàn)低阻抗通路,并在輻射事件結(jié)束之后依然存在。

2. TELEDYNE E2V 的宇航級(jí)數(shù)字處理產(chǎn)品的輻射效應(yīng)
Teledyne e2v 用高能重離子和質(zhì)子對(duì)耐輻射 CPU 和存儲(chǔ)器樣片進(jìn)行輻射,在加速器中實(shí)現(xiàn) SEE,從而測(cè)試待測(cè)器件(DUT)的輻射性能。當(dāng) DUT 上電并在正常條件下運(yùn)行時(shí)(SEL 是例外,需在最大電壓和溫度下測(cè)試),我們會(huì)檢測(cè)電源電流和輸出狀態(tài)。隨后,我們用重離子或質(zhì)子轟擊 DUT,并記錄電源電流和輸出狀態(tài)的任何瞬態(tài)變化。線性能量傳遞(LET)是電離粒子在單位距離內(nèi)傳遞到器件上的能量。LET 取決于離子束的離子和能量,因此不同的離子會(huì)有不同的 LET。LET 會(huì)影響 SEE 的概率。LET 越高,硅中產(chǎn)生的載流子越多,載流子被困在電場(chǎng)中的概率越大,這種效應(yīng)是可以被測(cè)量的。

對(duì)于數(shù)字設(shè)備,我們監(jiān)視其被輻射時(shí)產(chǎn)生的單粒子效應(yīng)(SEE)(即由單個(gè)高能粒子撞擊產(chǎn)生的任何可測(cè)量或可觀察的性能狀態(tài)的變化)。SEE 包括單粒子翻轉(zhuǎn)(SEU)、單粒子功能中斷(SEFI)、單位/多位錯(cuò)誤(S/MBE)和單粒子栓鎖(SEL)。檢測(cè) SEE 通常需要打開封裝以露出裸片的有效區(qū)域。例如,采用倒裝結(jié)構(gòu)封裝的器件需要移除蓋子并將裸片打薄至大約 75 微米,以最大化其所受的輻射影響。

除 SEE 測(cè)試外,我們還進(jìn)行 TID 測(cè)試,流程如下:1)將晶圓單位封裝 2)使用自動(dòng)測(cè)試設(shè)備(ATE)測(cè)試待測(cè)器件(DUT)的電性能 3)將 DUT 放在測(cè)試板上,使其一半處于正常工作條件 4)將測(cè)試板暴露于輻射源下,對(duì)其進(jìn)行額定TID 的輻射,溫度為室溫,并檢測(cè)其狀態(tài) 5)使用 ATE 重新測(cè)試 DUT 以確保器件的功能依然正常,且沒有任何關(guān)鍵參數(shù)漂移出數(shù)據(jù)手冊(cè)的范圍。對(duì)于耐輻射器件,Teledyne e2v 的總劑量(TID)的目標(biāo)值是 100krad,栓鎖(SEL)的免疫值為最低 60MeV.cm2/mg。這是面向 GEO 軌道的參數(shù)。即使器件有能力耐受高輻射水平和劑量,它們依然會(huì)發(fā)生 SEU 和 SEFI 事件。

對(duì)于存儲(chǔ)器產(chǎn)品(例如 DDR4),我們通常會(huì)檢測(cè)字錯(cuò)誤(SBE 和 MBE),包括:1)行和列 2)SEFI 3)stuck 位。對(duì)于處理器產(chǎn)品(即 LS1046-Space),需檢測(cè)的錯(cuò)誤通常包括:緩存上的 SEU 以及核心和外設(shè)上的 SEFI。

從根本上說,太空/衛(wèi)星研發(fā)團(tuán)隊(duì)必須準(zhǔn)確了解特定的耐輻射存儲(chǔ)器和/或 CPU 器件在太空飛行中可能出現(xiàn)的錯(cuò)誤類型。顯然,若器件沒有出現(xiàn)某種類型的錯(cuò)誤,則無需對(duì)這種從未發(fā)生的錯(cuò)誤實(shí)施任何緩解技術(shù)。而對(duì)于出現(xiàn)過某種錯(cuò)誤的存儲(chǔ)器和處理器器件,則需使用輻射緩解技術(shù)以消除或減少錯(cuò)誤率,從而優(yōu)化太空飛行的運(yùn)行狀態(tài)。

Teledyne e2v 通過分析錯(cuò)誤截面與 LET 的關(guān)系并繪制威布爾曲線(圖 1)來計(jì)算器件的 SEE 概率
(即 SEU、SEFI 等)。為了計(jì)算和預(yù)測(cè)在軌錯(cuò)誤率,需將數(shù)據(jù)擬合到威布爾曲線上。若要完全了解器件對(duì)重離子和質(zhì)子輻射的響應(yīng),可能需要進(jìn)行多次試驗(yàn)。若產(chǎn)品發(fā)生任何重大變更,如使用新的硅片設(shè)計(jì)或版本變更,通常都需要重復(fù)進(jìn)行 SEE 特性測(cè)試。

在測(cè)試存儲(chǔ)器時(shí),孤立字錯(cuò)誤(圖 3)是由于記憶單元上的局部離子撞擊,改變了 1 位(SBE)或幾位(MBE)的狀態(tài),而導(dǎo)致的錯(cuò)誤。另一個(gè)例子是 QLS1046-Space 處理模塊(圖 2)。這個(gè)處理模塊使用一片 LS1046-Space 處理器和一片高速 DDR4 存儲(chǔ)器。我們對(duì)其進(jìn)行了多次輻射測(cè)試,以測(cè)試處理器和存儲(chǔ)器的性能。對(duì)于 DDR4 存儲(chǔ)器,我們觀察到 4 種不同類型的事件:孤立字錯(cuò)誤、行/列錯(cuò)誤、SEFI 事件和 stuck 位。

?

圖1 SEU截面/位 - 威布爾曲線

?

圖2 QLS1046-Space處理模塊

?

圖3 孤立字錯(cuò)誤的例子

在完成了器件的測(cè)試后,我們可計(jì)算出軌道錯(cuò)誤率,以估算不采用任何緩解措施時(shí),在特定條件下發(fā)生事件的頻率。

表 1 是 LS1046-Space 的 SEU 錯(cuò)誤結(jié)果的例子。

3. 數(shù)字產(chǎn)品的可用的緩解技術(shù)
由于測(cè)試得到的錯(cuò)誤率對(duì)于某些應(yīng)用可能不夠低,我們可以采用一些緩解技術(shù),以進(jìn)一步降低錯(cuò)誤率并使其器件達(dá)到所需的性能或滿足可用性的需求。宇航/衛(wèi)星開發(fā)的輻射緩解技術(shù)要求選擇并實(shí)現(xiàn)耐輻射的器件,并結(jié)合最新的尖端的 COTS 技術(shù)以平衡性能和可用性。宇航/衛(wèi)星的開發(fā)遵循兩種設(shè)計(jì)方法:1)傳統(tǒng):使用錯(cuò)誤率低、價(jià)格昂貴的防輻射設(shè)計(jì)(RHBD)器件(采用獨(dú)特的設(shè)計(jì)以防止器件損壞并減弱輻射的影響,以及抵抗大電離劑量)。這些為特定目的設(shè)計(jì)的半導(dǎo)體器件通常不會(huì)使用最先進(jìn)的技術(shù)。 2)新宇航:更注重任務(wù)的成功執(zhí)行,愿意使用耐輻射器件,這些器件使用最新的工藝并可擁有強(qiáng)大的性能。

半導(dǎo)體的輻射耐受性取決于多種可控或不可控的變量。由于錯(cuò)誤的發(fā)生難以避免,設(shè)計(jì)帶有內(nèi)置糾錯(cuò)電路(ECC)的耐輻射產(chǎn)品是很重要的,必要時(shí)還可使用冗余糾錯(cuò)電路。例如,Teledyne e2v 的 QLS1046-Space 處理模塊已完成了開發(fā)和測(cè)試流程,它使用了多種輻射緩解技術(shù)(冗余和非冗余),可滿足給定輻射環(huán)境下所需的性能指標(biāo)。為了管理輻射效應(yīng),典型的緩解技術(shù)需要使用板上 ECC(糾錯(cuò)電路)。ECC 在 DDR4 存儲(chǔ)器中使用一個(gè)專用的額外字節(jié),因此存儲(chǔ)器的 72 位字大小被分為 64 位的實(shí)際數(shù)據(jù)和 8 位的糾錯(cuò)碼。ECC 引擎內(nèi)置于 LS1046-Space 處理器的DDR4 控制器里。因此,DDR4 存儲(chǔ)器的 ECC 字節(jié)的行為與其他的數(shù)據(jù)字節(jié)完全相同,而錯(cuò)誤緩解由 LS1046 處理器完成。ECC 可檢測(cè)和糾正 SBE,用戶只需簡(jiǎn)單地啟用這個(gè)功能即可緩解這些錯(cuò)誤。避免 SBE 的累積(由于多次離子撞擊導(dǎo)致)非常重要,因?yàn)殡S著時(shí)間的推移可能會(huì)導(dǎo)致 MBE。LS1046 還具有一個(gè)擦除引擎,可定期掃描整個(gè)DDR4 存儲(chǔ)器的內(nèi)容,并糾正發(fā)生的 SBE。

為了解決輻射耐受的問題,我們還采用了電路級(jí)(多芯片)減少 SEE 的方法。常見的電路級(jí)設(shè)計(jì)技術(shù)包括:1)增加電路驅(qū)動(dòng)能力并提供驅(qū)動(dòng)冗余 2)增加額外的電路用于檢測(cè)和糾正錯(cuò)誤位。錯(cuò)誤檢測(cè)通常需要額外的 1 位來存儲(chǔ)每個(gè)數(shù)據(jù)字的奇偶校驗(yàn)(無論字長(zhǎng)如何)。當(dāng)發(fā)生單位翻轉(zhuǎn)(SBU)時(shí),數(shù)據(jù)的奇偶校驗(yàn)結(jié)果與校驗(yàn)位不同。奇偶校驗(yàn)電路允許在兩個(gè)電路(和存儲(chǔ)器寬度)中以最小的成本檢測(cè)單個(gè)位錯(cuò)誤。不幸的是,奇偶校驗(yàn)電路的實(shí)現(xiàn)有兩個(gè)缺點(diǎn):1)它只是一個(gè)檢測(cè)系統(tǒng),無法糾正錯(cuò)誤 2)多位翻轉(zhuǎn)(MBU)無法被檢測(cè)出,會(huì)一直留在存儲(chǔ)器中。這就是所謂的靜默數(shù)據(jù)損壞。

如今,耐輻射系統(tǒng)需要不斷提高可靠性級(jí)別,同時(shí)避免發(fā)生靜默數(shù)據(jù)損壞,并最大限度地提高處理器的可用性和性能。系統(tǒng)級(jí)架構(gòu)可通過雙模冗余電路(DMR,圖 6)或三模冗余電路(TMR,圖 7)實(shí)現(xiàn)。這兩種架構(gòu)可在邏輯路徑中檢測(cè) SEU 或SEFI 錯(cuò)誤。對(duì)于 DMR 系統(tǒng),當(dāng)兩個(gè)輸出不同時(shí),觸發(fā)錯(cuò)誤檢測(cè)。對(duì)于 TMR 系統(tǒng),錯(cuò)誤檢測(cè)通過否決裁決器的另外兩個(gè)有效輸入實(shí)現(xiàn)。TMR 方法需使用 2 到 3 倍的硅片面積作為無保護(hù)數(shù)據(jù)路徑,并需要專門的仿真工具來識(shí)別關(guān)鍵邏輯路徑。最激進(jìn)且最昂貴的錯(cuò)誤檢測(cè)和糾正電路也可通過系統(tǒng)級(jí)冗余的方式實(shí)現(xiàn)。這需要使用重復(fù)的冗余處理器內(nèi)核——多個(gè)相同的內(nèi)核以lockstep 的方式運(yùn)行(同一時(shí)間執(zhí)行相同的代碼)。由于在每個(gè)冗余的內(nèi)核上都運(yùn)行相同的計(jì)算和指令流,這種方法無論在硅片面積和功耗方面都很昂貴。除了上述的錯(cuò)誤糾正技術(shù),我們還使用了數(shù)據(jù)擦除技術(shù)。數(shù)據(jù)擦除技術(shù)通過一個(gè)后臺(tái)任務(wù)定期檢查主存儲(chǔ)器是否有錯(cuò)誤,并通過冗余數(shù)據(jù)糾正檢測(cè)到的錯(cuò)誤。它降低了單個(gè)可糾正錯(cuò)誤積累成不可糾正錯(cuò)誤的風(fēng)險(xiǎn),并可檢查數(shù)據(jù)的不一致性,從而預(yù)防硬件軟件系統(tǒng)失效。擦除速率由SEU率決定(例如速率可以是1/天到1/5000天)。

圖6

圖7

結(jié)論
如今的 CPU 和存儲(chǔ)器越來越復(fù)雜,測(cè)試越來越難,而且它們對(duì)輻射效應(yīng)越來越敏感。使用這些器件實(shí)現(xiàn)新的輻射緩解技術(shù)對(duì)未來宇航飛行系統(tǒng)的發(fā)展具有重大的戰(zhàn)略意義。我們必須測(cè)試器件的 SEE 錯(cuò)誤,計(jì)算發(fā)生錯(cuò)誤的概率,以理解輻射效應(yīng)并實(shí)現(xiàn)最有效的輻射緩解技術(shù)。最重要的是,深入了解不同的錯(cuò)誤率和概率與輻射環(huán)境之間的關(guān)系,以最低的成本、最少的引入誤差實(shí)現(xiàn)最大的系統(tǒng)可用性和吞吐帶寬。Teledyne e2v 可為開發(fā)團(tuán)隊(duì)提供關(guān)于耐輻射產(chǎn)品的信息和支持??蛻羧缬行枰覀兛商峁iT的輻射緩解應(yīng)用筆記。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜