人們都相信chiplet有希望打破阻礙摩爾定律的壁壘,并顛覆半導體供應鏈。但它們依賴于復雜的封裝解決方案,且這些解決方案遠未達到成熟。
由于chiplet據稱能夠將一個龐大、先進的SoC解構為相對低端制程的較小的die,從而暗示了一種繞過摩爾定律的道路。通過提供一種替代方案,chiplet也有望改變10nm以上芯片制造的兩方壟斷局面,從而帶來更多樣化、更穩(wěn)健的供應鏈。
Chiplet聽起來似乎簡單,但其背的SiP(system-in-package)技術卻是一項非同小可的技術。在基于chiplet的SiP推廣之前,必須克服幾類技術挑戰(zhàn)。目前的跡象是樂觀的,但chiplet得到普及還有一段路要走。
KGD問題??
首先是KGD(known good die)問題,這是一個乘法問題。簡單來說,SiP能夠正常工作的概率小于SiP中每個單獨die的良率的乘積(假設這些單個概率在統(tǒng)計上是獨立的)。
如果你有一個由兩個die組成的SiP(比如,一個CPU和一個大cache),假如CPU die的良率是90%,cache的良率是98%,那么你就可以推算出SiP的良率,即兩者的乘積,大約88%。
于是,這個問題很快就會變得比較復雜。例如,Intel最近宣布,其Ponte Vecchio GPU SiP包含驚人的47種不同類型的die。如果進入SiP的每個die中有1%是有問題的,即使在裝配、封裝和測試中沒有任何損失,Intel也只能在裝配和封裝后獲得低于63%的良率。如果這個進料異常率提高到10%,那么大約每150個GPU SiP中只有一個是可以正常工作的。
那么,該怎么做呢?顯然,第一步是盡一切可能降低進料異常率。這包括在每個入廠die的測試階段增強測試覆蓋。Chiplet供應商(尤其是所有的die不是來自同一供應商的情況下)必須不僅測試短路或開路,還要測試時序故障、內存性能,以及可能暗示早期老化故障的參數(shù),包括他們能識別出可能導致SiP提前失效的任何問題。在晶圓經過測試并分解成單獨的die之后,可能需要再次通過光學檢查和電氣測試,以排除在分離過程中受損的die。
即使進行了廣泛的測試覆蓋,仍然會存在問題。測試向量不可避免地會遺漏一些故障。有些故障會是間歇性的,或者只會隨時間的推移出現(xiàn)。在某些設計中,要達到在SiP級別上可接受的良率可能需要冗余和自我修復技術,而這些技術目前在某些特定的關鍵任務芯片之外還處于非常早期的開發(fā)階段?;蛘?,可能需要一種實際的方法來修復SiP,而不是丟棄它,這在可靠性實驗室之外是不可能的。在一定程度上,修復取決于SiP的組合方式。
結構幾乎決定一切??
在SiP中將die組合在一起有很多種方式。Die之間傳輸信號的方式也有很多種。這兩個問題是分開的,但卻相互交織。
最簡單的die的排列方式是將它們像地磚一樣平放在基板上。Die可以是正面朝上,也可以是正面朝下?;蹇梢允怯糜趩蝹€die封裝的同一材料,或者是更先進的有機材料,支持更細的互連線路和更精細控制的阻抗?;蛘?,它可以是硅。在不久的將來,包括Intel在內的一些公司可能會開始使用玻璃。
如果你需要減小SiP的面積,或者如果你需要讓一些die物理上接觸到彼此,以便在它們之間獲取更多或更快的連接,你可以將die堆疊起來。這可能意味著簡單地將一個die放在其他die的上面,使邊緣重疊,或者在一個更大的die上放一個更小的die?;蛘?,它可能意味著建造精細的die塔,比如在內存控制器die上堆疊一堆高帶寬內存die,形成一個非??焖俚腄RAM塔。
這些技術的組合也是可能的。
互聯(lián)問題??
互連是另一個問題。如何將信號和電源從一個地方傳輸?shù)搅硪粋€地方取決于很多因素:涉及信號數(shù)量、帶寬或比特率、你能容忍的延遲,以及你的預算。
除了最后一點,所有這些都受到一個因素的強烈影響:系統(tǒng)架構如何巧妙地分割為chiplet。如果它們之間只有少數(shù)低速總線和控制信號,那么互連就很容易。相反,如果在SiP中分布的chiplet之間有數(shù)千個信號,而它們的速度限制了最終系統(tǒng)的性能,那么只有最先進的封裝才能有效地工作。
一旦你量化了互連需求,就有很多可選方案。首先是傳統(tǒng)的線鍵合,在die和基板上的鍵合墊之間串接超細線。線鍵合可追溯到晶體管時代的初期,是已經非常成熟并且普及的技術。線鍵合可以將die相互連接起來,也可以將die連接到基板上的鍵合墊上。但目前線鍵合能提供的密度(每平方毫米的墊數(shù))和頻率最低。由于這些原因,焊線技術通常與傳統(tǒng)封裝基板材料一起使用。
如果你需要更高的互連密度或速度,你必須將一個表面上的接觸點直接連接到另一個表面上的接觸點。在中等密度的情況下,通常通過在兩個墊之間放一個焊球來完成。在更高密度時,你需要制造一些更復雜的結構,比如一組銅柱,來連接兩個表面上的墊。(在光學顯微照片中,這些銅柱陣列看起來就像一個農場或城市的天際線。)
這些技術要求兩個表面面對面,完全平整,并且墊要完全對齊。這需要兩個die,或者die和基板,為彼此設計或設計為一個公共的接口標準。但是在某些情況下,所有的die都不能面對面安裝:例如,3個die的堆棧。因此,你將不得不以某種方式將一些信號從die的活動面移動到背面的接觸墊。要做到這一點,你可以在分離后的die上制作穿過die邊緣、向下并繞到背面的導線?;蛘?,現(xiàn)在更常用的方法是在減薄的晶片上鉆通硅孔。無論如何,晶圓都需要進行特殊的處理,以創(chuàng)建連接并在背面制造痕跡和著陸點,這是chiplet供應商必須要理解的事實。
這些技術通常會配合使用高性能有機基板,上面帶有非常精細的互連線,也可能帶有一些活動部件。在最嚴苛的設計中,設計師可能會選擇硅而非有機材料,并使用IC晶圓制造工藝的最后步驟來在硅上創(chuàng)建超精細的互連線。這樣的硅基板通常被稱為interposer。Intel使用的一個有趣的變體,稱為EMIB(embedded multidie interconnect bridge),將小塊的硅植入到有機基板中。Die是朝下安裝的,以便它們的接觸點落在EMIB橋上,這些橋在相鄰的die之間傳送信號。
隨著這些技術變得更加精細,成本也會翻倍,因此這項技術更有可能專屬于一個大型代工廠。但最近,另一種替代方案出現(xiàn)在許多信號需要連接的情況下,其中一些可能具有非常高的數(shù)據速率,但沒有哪個特別敏感于延遲。這種技術,由初創(chuàng)公司Eliyan推廣,借用了來自網絡和FPGA行業(yè)的高速串行接口技術。但Eliyan將接口硬件簡化,以符合芯片互連的特定要求,獲取的接口小,功耗低,但能夠在甚至是傳統(tǒng)基板上以每秒數(shù)十Gb的速度傳輸數(shù)據包。你可以將信號分解成數(shù)據包,將數(shù)據包多路復用,然后將所有數(shù)據通過單線以串行方式傳輸。Eliyan聲稱,該技術可以大大減少die之間的信號線的數(shù)量。更重要的是,由于收發(fā)器可以根據普通鏈路的特性進行調整,因此該技術可以緩解或消除對先進封裝材料和技術的需求。
大量的分析需求??
一旦你決定了SiP的形式,chiplet組裝需要在許多領域進行大量分析,其中只有一部分是電氣方面的。例如,你需要考慮熱行為。封裝中的每一個die都是一個熱源,有自己的熱點和冷點,其位置和溫度會隨著系統(tǒng)操作模式和工作負載的不同而改變。將die組裝到先進的封裝中會使它們相互加熱,并在die間積聚熱量,從而在三維空間中產生局部的、可能是移動的熱點。這些問題區(qū)域可能導致電路故障或SiP的物理損壞。因此,基于電路功率建模的動態(tài)3D熱分析是必要的。
承載SiP的電路板的熱膨脹和彎曲會導致SiP組件本身產生機械應力。這種應力可能會破壞微妙的互連或使die脫層。更嚴重的是,die上的應力會改變其晶體管的電氣行為,從而導致電路故障。因此,除了熱分析外,還需要對SiP進行機械分析,考慮熱膨脹、外部應力和振動。
由于die間的互連比die內部的互連長得多,且物理性質也大不相同,因此需要對其進行專門的建模,通常包括完全的電磁場建模。這是為了獲取穿越die間路徑的精確計時,以及進行信號和功率完整性分析。
另一點涉及到對組裝和封裝的SiP進行最終測試。由于芯片內罕見的未檢測到的故障、機械損傷或互連故障,故障總會發(fā)生的。但是,大部分的SiP信號在設備封裝后無法接觸到測試器。因此,測試設計師必須達到出色的測試覆蓋率(并在此基礎上提供故障的根本原因分析),同時必須嚴重依賴chiplet本身的內建的自我測試。
這只是基于chiplet的SiP可能面臨的問題的一些要點。雖然技術基本上已經到位,盡管更先進的技術如今是各個主要代工廠的專利。許多分析工具已經存在,并正在凝聚成更易于操作的平臺。但是,從架構劃分的基礎知識到die設計,再到封裝設計和分析,到供應鏈管理的每個方面的學習曲線都很艱難,并且每個領域經驗豐富的工程師都很稀缺。今天,將chiplet從一個偉大的想法落地為一種可行的技術,再轉變?yōu)橐环N主流選擇,仍然是一個進行中的工作。