在“后摩爾時代”,隨著先進制程技術的升級速度逐漸減緩,并且進一步發(fā)展的邊際成本不斷攀升,先進封裝技術正日益成為突破摩爾定律限制、推動半導體行業(yè)發(fā)展的關鍵途徑。
2024年11月27日,由博聞創(chuàng)意會展主辦的第八屆中國系統(tǒng)級封裝大會(SiP Conference China 2024)在蘇州日航酒店成功舉辦。大會由芯和半導體副總裁倉巍主持,中國半導體行業(yè)協(xié)會副秘書長兼封測分會秘書長徐冬梅致辭,并匯聚了EDA、IP&DS平臺、晶圓制造&封裝、材料、測試設備和應用等環(huán)節(jié)下的眾多半導體行業(yè)的專家和學者,就AI時代下的挑戰(zhàn)和應對策略展開討論,形成了一場“中國SiP生態(tài)圈”的聚會。
圖 | 中國半導體行業(yè)協(xié)會副秘書長兼封測分會秘書長徐冬梅致辭;來源:與非網攝制
根據(jù)Yole公布的數(shù)據(jù)顯示,2022年全球先進封裝市場規(guī)模為367億美元,預計到2026年將增長至522億美元,期間的復合年增長率(CAGR)為9.2%。這一增長趨勢表明先進封裝市場正在迅速擴張,預計到2026年,先進封裝將占據(jù)整體封裝市場比重的54%,相較于2022年的45%有顯著提升。
受到人工智能(AI)、高性能計算(HPC)以及高帶寬存儲器(HBM)等應用領域的驅動,在各類先進封裝技術中,2.5D/3D封裝技術增速尤為顯著,預計從2022年到2026年的復合年增長率將達到13.4%。
徐冬梅指出,隨著對異構集成、先進封裝等技術日趨重視,越來越多的企業(yè)開始投入布局,與此同時,中國半導體行業(yè)協(xié)會封測分的會員單位同步增長至420多家。
集成系統(tǒng)創(chuàng)新,迎接AI時代挑戰(zhàn)
在萬物AI的時代,半導體行業(yè)正在經歷第三次大演進,并在超級應用的推動下,向萬億美元規(guī)模狂奔。
我們該如何看待這個“萬億”規(guī)模?從歷史的維度來看,從上世紀60年代開始,我們花了40年實現(xiàn)了第一個2000億美元;實現(xiàn)第二個、第三個2000億美元的增長分別用了17年和7年;而近年來,我們正在用5年的時間完成第四個、第五個2000億美元的提升,可見這些超級應用驅動力的強大。
圖 | 在超級應用的推動下,向萬億美元規(guī)??癖?;來源:與非網攝制
關于超級應用的定義,倉巍解釋道:“不同的細分市場對半導體市場增長的貢獻體量不同,其中計算與數(shù)據(jù)存儲、汽車電子帶來的增量最為明顯,分別占據(jù)了25%和20%的比率,原因是他們受到AI大模型的驅動力最強。”
而在生成式AI與大語言模型的發(fā)展中,用來訓練AI大模型的數(shù)據(jù)量非常驚人,以GPT-4為例,其訓練參數(shù)量達到了1800B,OpenAI團隊使用了25000張A100,并花了90-100天的時間才完成了單次訓練,總耗電在2.4億度左右,成本約為6300萬美元。
倉巍指出,在驚人數(shù)據(jù)量的背后還潛藏著AI對半導體行業(yè)的四大挑戰(zhàn),包括算力挑戰(zhàn)、存力挑戰(zhàn)、運力挑戰(zhàn)和電力挑戰(zhàn)。具體來講,隨著人工智能和高性能計算等技術的發(fā)展,對算力的需求正以前所未有的速度增長,然而算力的增長速度遠遠跟不上這種需求的增長,尤其是內存帶寬的提升速度也落后于算力的提升,這限制了數(shù)據(jù)中心的整體計算能力。此外,數(shù)據(jù)中心的能源消耗問題也日益凸顯,預計到2026年將大幅增加,對可持續(xù)發(fā)展構成了挑戰(zhàn)。在這樣的背景下,行業(yè)需要從算力、場地布局和能源效率等多個方面尋求突破,以應對這些挑戰(zhàn)。
關于耗電量這個被認為是未來制約AI發(fā)展的主力因素,倉巍透露:“2022年,全球數(shù)據(jù)中心的用電量相當于法國一年的用電量,所以近期我們常聽到一些數(shù)據(jù)中心的運營商在積極購買核電,比如亞馬遜等?!?/p>
此外,我們看到,即使摩爾定律延續(xù),單位面積內的晶體管數(shù)量保持在每18至24個月內翻一番的增長速度,僅憑這一發(fā)展已無法滿足人類社會算力需求的爆發(fā)式增長。據(jù)IDC的統(tǒng)計,全球算力需求平均每3.5個月翻一倍。面對超大規(guī)模數(shù)據(jù)處理的需求,芯片行業(yè)發(fā)展的關鍵點已從晶體管密度轉移至更為多元的性能增長點。其中,芯片架構的創(chuàng)新成為行業(yè)研發(fā)環(huán)節(jié)的重中之重。
倉巍給出了一組數(shù)據(jù),當前采用傳統(tǒng)架構下的芯片最多集成了2000億顆晶體管,而采用Chiplet架構的芯片已經實現(xiàn)10000億顆晶體管的集成。
事實上,Chiplet技術通過將不同功能的芯片模塊(如CPU、GPU等)以先進封裝的形式組合在一起,不僅能夠提高大型芯片的良率,降低設計的復雜度和制造成本,還能滿足多樣化市場需求,尤其是對定制芯片的需求。這種技術的發(fā)展,被看作是后摩爾時代持續(xù)提高集成度和芯片算力的重要途徑。預計到2024年,Chiplet的市場規(guī)模將達到58億美元,到2035年超過570億美元,將迎來快速增長。
當然,在異構集成方案下,我們還需要不斷提升互聯(lián)接口速率。以英偉達今年發(fā)布的Blackwell GPU為例,它就采用了Chiplet架構,集成了兩顆最大尺寸的GPU Die,通過NVLink 5.0高速互連技術連接在一起,形成一個統(tǒng)一的GPU,還配置了192G HBM3e,以及高達8TB/s的內存帶寬。
圖 | 芯片公司向系統(tǒng)發(fā)展;來源:與非網攝制
此外,我們還看到英偉達通過NVLink互聯(lián),整合了Blackwell GPU、Grace CPU,形成了GB200超級芯片,再通過NVLink Switch將2顆GB200超級芯片和Bluefield NPU打通,形成板卡級的“超異構”加速計算平臺;18個“超異構”加速計算平臺又可以形成一個GB200 NVL72服務器機架;8個GB200 NVL72服務器機架加上1臺QUANTUM INFINIBAND交換機又形成了一個GB200計算機柜。通過這樣的級聯(lián)方式,當前英偉達的AI工廠已經集成了32000顆GPU,13PB內存,58PB/s的帶寬,AI算力達到645 exaFLOPS。
參考英偉達的案例,集成系統(tǒng)的規(guī)?;梢詮拇怪睂用孢M行擴展,另一方面可以增加并行的節(jié)點來增加總體算力。而在這個集成過程中,高速、高頻傳輸已經成為制約數(shù)據(jù)中心發(fā)展的關鍵要素。與此同時,Chiplet異構集成正在加入更多的功能,比如臺積電將硅光技術融入芯片系統(tǒng),接下來還會有傳感等。
為了應對這些挑戰(zhàn),首先需要可靠的EDA平臺來支撐。因此,我們看到越來越多的EDA廠商正在從從傳統(tǒng)芯片EDA設計公司,轉向系統(tǒng)設計的公司。以EDA三大家為例,他們都在通過收購和產品更新來增強自身實力,如Synopsys斥資350億美元收購了Ansys,西門子EDA斥資106億美元收購了Altair,Cadence斥資12.4億美元收購了BET CAE。
圖 | 芯和半導體正在構建系統(tǒng)級EDA平臺;來源:與非網攝制
除了國外EDA市場有動作外,我們看到芯和半導體也在構建系統(tǒng)級EDA平臺,通過端到端多物理場仿真EDA,賦能AI硬件系統(tǒng)設計。
AI芯片:CoWoS/HBM技術方向與未來展望
毫無疑問,今天AI領域最主要的企業(yè)是英偉達,而CoWoS和HBM是英偉達GPU最關鍵的兩項技術。
據(jù)悉,英偉達的GPU,特別是其數(shù)據(jù)中心GPU,如P100、V100和A100,都采用了CoWoS技術,這些產品在TOP 500超算中占據(jù)了超過一半的算力。
圖 | 臺積電AI相關的營收表現(xiàn);來源:與非網攝制
翊杰科技執(zhí)行長兼總經理蘇進成指出,CoWoS技術的大規(guī)模采用也同步驅動了臺積電AI相關的營收表現(xiàn),2024年CoWoS與晶圓測試帶來的營收約為100億美元,占其總營收的比例不到18%,但預計到2027年,該項營收將增長至近300億美元,營收占比高達20%。
為了進一步展示CoWoS+HBM技術的特色和優(yōu)勢,蘇進成還邀請了他的朋友作具體的技術介紹。
根據(jù)該嘉賓的介紹,存儲墻(傳輸帶寬慢或容量有限)是算力提升的重要瓶頸,從存儲器到處理器,數(shù)據(jù)搬運會面臨2個問題,分別為:數(shù)據(jù)搬運慢和搬運能耗大。
的確,在經典的馮諾依曼架構下,數(shù)據(jù)的存儲和計算是分開的,處理器CPU和存儲器之間通過數(shù)據(jù)總線進行數(shù)據(jù)交換,但由于處理器和存儲器的內部結構、工藝和封裝不同,二者的性能也存在很大的差別。從1980年開始,處理器和存儲器的性能差距不斷拉大,存儲器的訪問速度遠遠跟不上CPU的數(shù)據(jù)處理速度,這就在存儲器和處理器之間行程了一道“存儲墻”,嚴重制約了芯片的整體性能提升。
與此同時,由于處理器和存儲器的分離,在處理數(shù)據(jù)的過程中,首先需要將數(shù)據(jù)從存儲器通過總線搬運到處理器,處理完成后,再將數(shù)據(jù)搬運回存儲器進行存儲。數(shù)據(jù)在搬運過程中的能耗是浮點運算的4-1000倍。隨著半導體工藝的進步,雖然總體功耗下降,但是數(shù)據(jù)搬運所占的功耗比越來越大。據(jù)研究顯示,在7nm時代,訪存功耗和通信功耗之和占據(jù)芯片總功耗的63%以上。
為此,業(yè)內提出了三個方向的解決方案,包括光互聯(lián)和2D/3D堆疊等高速帶寬數(shù)據(jù)通信、近存儲運算,以及將存儲器本身進行算法嵌入的存算一體。
其中,CoWoS作為一種先進的2.5D多芯片封裝技術,它能夠有效解決一系列以上提到的在高性能計算和集成電路領域中遇到的存儲墻、系統(tǒng)性能和功耗問題,因此廣受歡迎。
圖 | CoWoS的種類、產品與產能;來源:與非網攝制
但CoWoS今天面臨產能緊張和價格太高的問題,因此一方面臺積電在努力擴產能,另一方面也在尋求降本,于是CoWoS也衍生出了三大種類,分別是CoWoS-S、CoWoS-R和CoWoS-L,其中英偉達前代的產品H100、H200,AMD MI300、英特爾Gaudi 2&3&Falcon Shores、谷歌TPU均采用了性能最高價格也最貴的CoWoS-S;而英偉達最新推出的Blackwell&robin則采用了有重新布線層(RDL)中介層的CoWoS-R;但有時候CoWoS-R不能滿足復雜系統(tǒng)的集成,因此有的廠商采用了結合局部硅互連和RDL中介層的CoWoS-L,如AWS inferential、Trainium。
此外,從存儲的角度,作為一種新型的CPU/GPU內存芯片,HBM從結構上擁有兩大特點:
(1)3D堆疊結構并由TSV互連:HBM 由多顆DRAM die堆疊成3D結構,使用TSV技術實現(xiàn)信號的共享與分配;
(2)高I/O數(shù)量帶來高位寬:HBM的每顆DRAM Die包含多個通道,可獨立訪問。每個通道又包含多個I/O口,位寬64/128bit,使 HBM的總位寬高達1024bit。
圖 | TSV在HBM中的結構
2009年AMD與SK海力士開始研發(fā)探索HBM相關產品,并于2013年聯(lián)合首發(fā)全球首款HBM。目前,HBM已經演進到了第五代,第六代HBM4量產在即。
在此基礎上,蘇進成分享了AI芯片/CoWoS產業(yè)生態(tài)結構及代表廠商,他指出:“美國在整個AI產業(yè)中占據(jù)優(yōu)勢,而中國也是全球AI芯片產業(yè)戰(zhàn)列要沖。當前中國大陸廠商華為正快速崛起,市場需求量呈現(xiàn)出爆發(fā)式增長,根據(jù)華為內部和采購方渠道透露的信息,2023年華為算力GPU出貨量約十萬片,而2024年產能增加到幾十萬片,下單需求已經達到上百萬片。”
圖 | AI芯片/CoWoS產業(yè)生態(tài)結構及代表廠商
圖 | 全球AI芯片產業(yè)戰(zhàn)略要沖
FOPLP應用于AIHPC異構集成封裝,從玻璃載體到玻璃基板
Marvell的創(chuàng)始人Sehat Sutardja教授在2015年的ISSCC上提出了Mochi架構的概念。這個想法最終發(fā)展成為現(xiàn)在廣為人知的Chiplet技術。Mochi架構的核心思想是通過一種新的內連技術實現(xiàn)SoC的功能,降低研發(fā)與生產成本,并且加快上市時間。MoChi互連芯片是基于運行速度高達8Gbps甚至更快的ARM AXI鏈路,它可以保持很低的芯片到芯片時延,將多個芯片以菊花鏈的形式連在一起,并且可以實現(xiàn)緊湊型串行/解串器(micro-serdes)和低電壓差分信號。
后來,AMD在這一領域取得了顯著的進展,成為了Chiplet技術的最大影響者之一。AMD的技術和產品,特別是其Ryzen系列處理器,采用了全新的Zen架構,推動了Chiplet技術的發(fā)展和應用。隨后,英特爾也開始投入到Chiplet技術的研發(fā)中,以應對AMD在性能和功耗方面的競爭壓力。英特爾的技術進步相對緩慢,而AMD的持續(xù)技術創(chuàng)新和產品更新,使得AMD在性能和功耗方面的優(yōu)勢越來越明顯,迫使英特爾需要更多的時間和資源來追趕。
伴隨著Chiplet技術以及AI大芯片的快速發(fā)展,先進封裝乘勢而起,封裝技術從二維轉向三維,從最初的封裝元件轉向封裝系統(tǒng)。
提到先進封裝就不得不提到RDL(Redistribution Layer,重布線層),而RDL在大部分場景下的目的都是Fan Out (扇出),以實現(xiàn)更輕薄、更多的IO接口、更好的電性能。
圖 | 全球扇出型封裝市場規(guī)模,來源:Yole,亞智科技
根據(jù)Yole 2022年12月發(fā)布的數(shù)據(jù)顯示,全球扇出型封裝產值預計將在2028年達到38億美元, 2022-2028年復合年增長率為12.5%。其中,F(xiàn)OPLP(扇出型板級封裝)占據(jù)了整個扇出型封裝市場約5-10%的市場,并且未來幾年還將不斷增長。
雖然,在扇出型封裝技術中,F(xiàn)OWLP(扇出型晶圓級封裝)依舊是主流,但未來隨著芯片越做越大,比如英偉達的B200就有半個巴掌大,F(xiàn)OWLP小于85%的面積使用率就成了短板,單位晶圓可放置的芯片數(shù)量遠小于FOPLP。因此,在產品面世時間和成本的多維度考量下,芯片設計和制造企業(yè)在封裝技術的選擇上,正在逐漸由FOWLP部分轉向FOPLP。
對此,奕成科技VP &CTO方立志表示:“FOPLP相比FOWLP產出效率為4~6倍,成本相對降低;之前FOPLP用于低階產品,而FOWLP用于高階和低階產品,自從臺積電投入FOPLP應用于ALHPC之后,改變了現(xiàn)狀;所以,未來的重點是FOPLP的工藝技術能力與 FOWLP 相同才具有競爭優(yōu)勢,換言之,只有高階的FOPLP才有競爭力,低階的FOPLP將是紅海市場?!?/p>
圖 | 由FOWLP部分轉向FOPLP演進;來源:與非網攝制
不過當前,F(xiàn)OPLP的量產落地還面臨四大挑戰(zhàn):芯片位移、細線路、翹曲和細間距。面對這些挑戰(zhàn),方立志介紹了當前的解決方案,在芯片位移方面,可以在設計時做補償,并且不同的設計要搭配相對應精度的設備;在細線路方面,需要采用更高精度的光刻機實現(xiàn)更高精度的曝光,同時配套優(yōu)化刻蝕以及材料的選擇;在翹曲方面,需要結合仿真來做預補償,在改善結構材料CTE的匹配度的同時,進行Dummy區(qū)設計以及增加翹曲工藝;在細間距方面,需要采用低震動的工藝,同時將Mass Reflow轉向TCB。
FOPLP應用于AI HPC是大勢所趨,當前市場頭部的企業(yè)已經決定往 FOPLP 的技術開發(fā),在其帶領下越來越多的設備和材料供應商加入這一領域,F(xiàn)OPLP的生態(tài)系統(tǒng)將逐步完善。
圖 | 奕成科技板級高密FOMCM平臺批量量產;來源:與非網攝制
方立志透露:“業(yè)界正在利用板級技術將更多的芯片、元器件整合在FOPLP里,目前已經開始小量生產。奕成科技是國內第一家量產板級FOMCM用于高密信號互連AI HPC的產品?!?/p>
圖 | FOPLP技術演化;來源:與非網攝制
“此外,Glass Substrate玻璃基板未來或可替代Fanout on Substrate,但在2-3年內大批量量產還需要業(yè)界共同的努力。因為目前玻璃基板工藝還面臨四大挑戰(zhàn):TGV開孔形狀和良率、玻璃上金屬化、玻璃基板操作與切割,非對稱結構翹曲?!?方立志補充道
方立志認為,板級工藝應用場景廣,未來比晶圓級工藝更有前景。他呼吁更多的行業(yè)從業(yè)者參與,共同推動這一技術的落地。