日前舉行的“中國(guó)計(jì)算機(jī)學(xué)會(huì)芯片大會(huì)”上,英特爾研究院副總裁、英特爾中國(guó)研究院院長(zhǎng)宋繼強(qiáng)博士發(fā)表了題為“堅(jiān)持半導(dǎo)體底層技術(shù)創(chuàng)新,激發(fā)算力千倍級(jí)提升”的主題演講。在演講中,針對(duì)“突破算力瓶頸,滿足多元計(jì)算需求”這一產(chǎn)學(xué)研界所普遍關(guān)注的熱門話題,分享了英特爾的最新洞察,以及在相關(guān)領(lǐng)域所取得的技術(shù)進(jìn)展。
傳統(tǒng)計(jì)算架構(gòu)面臨瓶頸
“數(shù)字經(jīng)濟(jì)增長(zhǎng)十分依賴底層基礎(chǔ)設(shè)施支持,包括計(jì)算能力、計(jì)算效率,如何把目前行業(yè)的傳統(tǒng)做法通過(guò)數(shù)字化技術(shù)、智能化技術(shù)來(lái)更新,會(huì)對(duì)數(shù)字經(jīng)濟(jì)的增長(zhǎng)帶來(lái)量和質(zhì)的變化”,宋繼強(qiáng)表示。
如果把數(shù)字經(jīng)濟(jì)的基礎(chǔ)設(shè)施看成一個(gè)底座,那么,如何更好地分配算力、如何進(jìn)行調(diào)度以應(yīng)對(duì)不同的應(yīng)用,以及對(duì)延時(shí)、計(jì)算量、并發(fā)以及不同加速類型、數(shù)據(jù)類型的要求,實(shí)際上構(gòu)成了一個(gè)很復(fù)雜的算力網(wǎng)絡(luò)。近年來(lái),我國(guó)提出把計(jì)算和網(wǎng)絡(luò)融合起來(lái),尤其是“東數(shù)西算”工程,從技術(shù)方面來(lái)看,實(shí)際上就是在構(gòu)造一個(gè)以能源、計(jì)算能效性為優(yōu)先綜合布局的新型算力網(wǎng)。
未來(lái),各種應(yīng)用要在數(shù)字化轉(zhuǎn)型中真正達(dá)到好的效果,都要依靠數(shù)據(jù)全生命周期的運(yùn)轉(zhuǎn),從采集到預(yù)處理、分析,再到?jīng)Q策、交付。而在數(shù)字化轉(zhuǎn)型的過(guò)程中,數(shù)據(jù)將繼續(xù)呈指數(shù)型增長(zhǎng)。并且,數(shù)據(jù)將有很多種不同的形態(tài)。
宋繼強(qiáng)指出,未來(lái)的數(shù)據(jù)處理可以從實(shí)時(shí)性和智能化兩個(gè)維度進(jìn)行劃分,可以發(fā)現(xiàn)很多數(shù)據(jù)都需要智能化處理,并且相關(guān)的應(yīng)用對(duì)延時(shí)要求都比較高,這意味著未來(lái)的數(shù)據(jù)處理,無(wú)論是算力還是網(wǎng)絡(luò)構(gòu)造,都面臨著非常獨(dú)特的要求。從數(shù)據(jù)量和質(zhì)的演變來(lái)看,傳統(tǒng)的單一計(jì)算架構(gòu)肯定會(huì)遇到性能和功耗的瓶頸。
打破算力瓶頸,應(yīng)對(duì)數(shù)據(jù)處理挑戰(zhàn)
如何應(yīng)對(duì)未來(lái)數(shù)據(jù)處理的挑戰(zhàn)?宋繼強(qiáng)指出,突破算力的瓶頸是第一步,即通過(guò)不同方式來(lái)解決多樣化數(shù)據(jù)的計(jì)算有效性;第二步就是對(duì)現(xiàn)有算力進(jìn)行提升,同時(shí)還需考慮到綠色計(jì)算這個(gè)因素,未來(lái)的計(jì)算方式能耗不能太大,也就是說(shuō),需要以能量?jī)?yōu)化的方式去解決未來(lái)的數(shù)據(jù)處理問(wèn)題。
“異構(gòu)計(jì)算和異構(gòu)集成是我們解決這些問(wèn)題的新抓手”,宋繼強(qiáng)解釋說(shuō),“異構(gòu)計(jì)算就是用不同的架構(gòu)處理不同類型的數(shù)據(jù),真正做到‘用好的工具解決好的問(wèn)題’;異構(gòu)集成則是幫助我們用更好的集成組合方式,把不同工藝下優(yōu)化好的模塊更好地集成到未來(lái)的解決方案中,從而更加高效地處理復(fù)雜計(jì)算?!?/p>
英特爾的異構(gòu)計(jì)算布局——“XPU+oneAPI
在未來(lái)的異構(gòu)計(jì)算體系中,軟硬件結(jié)合變得越來(lái)越重要。宋繼強(qiáng)強(qiáng)調(diào),硬件實(shí)現(xiàn)了不同的架構(gòu)積累,也需要有一套方便且好用的軟件,只需上層應(yīng)用者指定功能需求,下層就可以隨著異構(gòu)變化。
具體到英特爾自身的異構(gòu)計(jì)算布局,體現(xiàn)為“XPU+oneAPI”,既有全面的硬件架構(gòu)布局,覆蓋從終端到邊緣再到服務(wù)器,在CPU、GPU、IPU、FPGA、AI加速器等領(lǐng)域,都有具有代表性的成熟產(chǎn)品,又有oneAPI這一開(kāi)放統(tǒng)一的跨架構(gòu)編程模型,讓現(xiàn)有的和未來(lái)將出現(xiàn)的新硬件都能很好地發(fā)揮能力。
異構(gòu)集成,實(shí)現(xiàn)異構(gòu)計(jì)算的關(guān)鍵技術(shù)
此外,實(shí)現(xiàn)異構(gòu)計(jì)算常常需要將不同制程節(jié)點(diǎn)的芯片封裝在同一個(gè)大封裝里,這時(shí)就需要應(yīng)用異構(gòu)集成,也就是先進(jìn)封裝技術(shù),來(lái)滿足尺寸、成本、帶寬等方面的要求。宋繼強(qiáng)介紹,英特爾在異構(gòu)集成上主要有兩項(xiàng)技術(shù),2.5D封裝技術(shù)EMIB能把在平面上集成的芯片很好地連接起來(lái),3D封裝技術(shù)Foveros則可以通過(guò)把不同尺寸的芯片在垂直層面上封裝,進(jìn)一步降低封裝凸點(diǎn)的間距,提高封裝集成的密度。
宋繼強(qiáng)補(bǔ)充,F(xiàn)overos Omni和Foveros Direct是英特爾在3D封裝上未來(lái)會(huì)使用的兩種技術(shù)。在上面是一個(gè)大的芯片,底下是幾個(gè)小芯片的時(shí)候,F(xiàn)overos Omni可以把不同芯片之間互連的接觸點(diǎn)間距微縮到25微米,同時(shí)還可以通過(guò)封裝邊上的銅柱直接給上層芯片供電,和EMIB相比有接近4倍的密度提升。Foveros Direct則通過(guò)一種更高級(jí)的不需要焊料、直接讓銅對(duì)銅鍵合的技術(shù),實(shí)現(xiàn)更低電阻的互連,進(jìn)一步縮小凸點(diǎn)間距到10微米以下,將整個(gè)互連的密度提升到新的數(shù)量級(jí)。
目前,英特爾迄今為止最復(fù)雜的高性能計(jì)算SoC Ponte Vecchio就運(yùn)用了英特爾在異構(gòu)計(jì)算和異構(gòu)集成上的新技術(shù),集成了來(lái)自5個(gè)不同制程節(jié)點(diǎn)的47種不同晶片,而下一代旗艦級(jí)數(shù)據(jù)中心GPU代號(hào)Rialto Bridge將進(jìn)一步大幅提高計(jì)算密度、性能和效率,同時(shí)通過(guò)oneAPI提供軟件一致性。
如何應(yīng)對(duì)未來(lái)復(fù)雜芯片設(shè)計(jì)和應(yīng)用?
芯片設(shè)計(jì)正變得越來(lái)越復(fù)雜,將實(shí)現(xiàn)不同晶片、不同制程節(jié)點(diǎn)的集成,并且這些復(fù)雜芯片還將組建成更為龐大的系統(tǒng)。未來(lái)芯片設(shè)計(jì)將出現(xiàn)哪些顛覆性的變革?針對(duì)這些復(fù)雜芯片如何降低應(yīng)用門檻?
宋繼強(qiáng)表示,對(duì)不同芯片進(jìn)行封裝集成,在硬連接方面首先面臨挑戰(zhàn),不同生產(chǎn)廠商在凸點(diǎn)、連接點(diǎn)間距、電氣特性,包括電阻、電容、焊錫制造的要求都不太一樣,硬件連接方面還缺乏統(tǒng)一的標(biāo)準(zhǔn)。
其次還面臨測(cè)試挑戰(zhàn)。當(dāng)不同廠商的芯片連接之后,如何測(cè)試?如何定位問(wèn)題源頭?這些問(wèn)題都需要去解決。此外,未來(lái)如果做整個(gè)系統(tǒng)的設(shè)計(jì),如果自己的芯片可能要和其他廠商的芯片封裝在一起的,或是本身就要考慮多封裝系統(tǒng),是否在EDA工具方面就要把先進(jìn)封裝的特性構(gòu)建其中,從而實(shí)現(xiàn)模擬驗(yàn)證?這也是未來(lái)的挑戰(zhàn)。
至于如何降低復(fù)雜芯片的應(yīng)用門檻?宋繼強(qiáng)表示,新的架構(gòu)還在涌現(xiàn),包括未來(lái)架構(gòu)的制程、接口涉及的內(nèi)存控制等,都會(huì)發(fā)生變化。如果考慮通過(guò)先進(jìn)封裝的方式進(jìn)行連接,未來(lái)的帶寬、延遲特性可能和現(xiàn)在又不一樣,所以需要面向未來(lái)去設(shè)計(jì)。
沿著“面向未來(lái)設(shè)計(jì)”的這一思路不難發(fā)現(xiàn),英特爾在盡最大可能推動(dòng)oneAPI的開(kāi)放性。在異構(gòu)計(jì)算設(shè)計(jì)體系中,必須要有更為全面的考慮和設(shè)計(jì)方法。宋繼強(qiáng)指出,原來(lái)也有一些類似異構(gòu)計(jì)算編程的框架或庫(kù),比如OpenCL也兼容CPU、GPU和FPGA,但oneAPI的好處在于它非常開(kāi)放,行業(yè)內(nèi)多家公司都在參與,除英特爾之外,甚至包括英偉達(dá)的GPU、AMD的x86處理器也有相應(yīng)的Level Zero接口包含進(jìn)來(lái)??偠灾琽neAPI能夠比較全面地考慮已有的異構(gòu)硬件,能夠把它們比較好地調(diào)度起來(lái),同時(shí)也在考慮如何把未來(lái)不同廠商的硬件,包括未來(lái)異構(gòu)封裝的技術(shù),不論是數(shù)據(jù)的傳輸,還是控制方面的調(diào)度、協(xié)調(diào)等,都要進(jìn)行充分考慮。
在英特爾的異構(gòu)計(jì)算體系中,oneAPI可以理解為現(xiàn)在和未來(lái)硬件都能良好工作的統(tǒng)一框架。最底層是硬件抽象層,它定義統(tǒng)一的描述方法,把不同架構(gòu)的硬件,以及來(lái)自不同廠商的硬件,用統(tǒng)一的方式向上層開(kāi)發(fā)人員給出描述;再向上是底層高性能庫(kù),針對(duì)不同的、常用的計(jì)算內(nèi)核分別做優(yōu)化,同時(shí),這一層還提供不同的語(yǔ)言,比如DPC++、SYCL,都可以支持并行編程。
以上兩層是oneAPI主要的工作,基于這些就可以對(duì)接現(xiàn)在或未來(lái)應(yīng)用開(kāi)發(fā)領(lǐng)域比較流行的中間件和開(kāi)發(fā)框架,從而很好地達(dá)到上層應(yīng)用開(kāi)發(fā)和底層異構(gòu)硬件之間的解耦,很好地發(fā)揮出硬件能力。
據(jù)了解,oneAPI目前在全球都開(kāi)展了開(kāi)放式的合作,很多企業(yè)、初創(chuàng)公司、研究機(jī)構(gòu)加入,在中國(guó),英特爾和中科院計(jì)算所去年建立了中國(guó)首個(gè)oneAPI卓越中心。
宋繼強(qiáng)補(bǔ)充,針對(duì)不同領(lǐng)域計(jì)算內(nèi)核的加速庫(kù),有著非常多的工作量,因?yàn)椴煌I(lǐng)域有非常細(xì)分的性能加速庫(kù),未來(lái)還可能包含一些專門針對(duì)數(shù)據(jù)流加速的庫(kù)。他強(qiáng)調(diào),oneAPI是一個(gè)很復(fù)雜的、可以幫上層應(yīng)用開(kāi)發(fā)者降低開(kāi)發(fā)門檻的工具,從它目前覆蓋的廣度來(lái)看,業(yè)界還沒(méi)有能對(duì)標(biāo)的工具。
摩爾定律堅(jiān)定不移的推手——還需制程、器件創(chuàng)新
為了突破算力瓶頸,除了異構(gòu)計(jì)算與異構(gòu)集成技術(shù)之外,還需要堅(jiān)持推進(jìn)摩爾定律,打造功耗更低,性能更強(qiáng)的半導(dǎo)體。
宋繼強(qiáng)介紹了英特爾的制程工藝革新和路線圖。英特爾的制程工藝革新主要包括三大技術(shù):在工具上,英特爾自Intel 4將開(kāi)始使用下一代基于高數(shù)值孔徑的極紫外光刻(EUV)技術(shù),降低整個(gè)制程工藝的復(fù)雜度,提高良率;晶體管結(jié)構(gòu)上,Intel 20A將使用全新的RibbonFET結(jié)構(gòu),進(jìn)一步降低平面上晶體管所占面積,同時(shí)可以有更快的驅(qū)動(dòng)速度,也增加驅(qū)動(dòng)電流的強(qiáng)度;供電層面,Intel 20A將同樣啟用全新的PowerVia技術(shù),實(shí)現(xiàn)底部給所有上層功能邏輯部件供電,把供電層和邏輯層完全分開(kāi),從而可以更有效地使用金屬層,大幅減少繞線和能量消耗。
據(jù)了解,英特爾計(jì)劃在四年內(nèi)推進(jìn)五個(gè)制程節(jié)點(diǎn):Intel 7已經(jīng)開(kāi)始批量出貨;Intel 4將于今年下半年投產(chǎn),采用EUV技術(shù),將晶體管的每瓦性能將提高約20%;Intel 3將于2023年下半年投產(chǎn),在生產(chǎn)過(guò)程當(dāng)中會(huì)更大量地使用EUV,在每瓦性能上實(shí)現(xiàn)約18%的提升;Intel 20A預(yù)計(jì)將于2024年上半年投產(chǎn),通過(guò)RibbonFET和PowerVia這兩項(xiàng)技術(shù)在每瓦性能上實(shí)現(xiàn)約15%的提升;最后,Intel 18A預(yù)計(jì)將于2024年下半年投產(chǎn),在每瓦性能上將實(shí)現(xiàn)約10%的提升。宋繼強(qiáng)表示,目前英特爾在Intel 18A和Intel 20A上都取得了不錯(cuò)的進(jìn)展。
前沿研究正在帶來(lái)新的可能性
展望未來(lái),還有一些新興、前沿研究領(lǐng)域有望為計(jì)算帶來(lái)更多的可能性。宋繼強(qiáng)分享了英特爾在以下三個(gè)領(lǐng)域所取得的主要進(jìn)展:組件研究、神經(jīng)擬態(tài)計(jì)算和集成光電。
組件研究向來(lái)都是英特爾生產(chǎn)、制造、研發(fā)部門很重要的一項(xiàng)研究工作,主要圍繞三方面展開(kāi):第一,是提供更多的核心微縮技術(shù),涵蓋混合鍵合(hybrid bonding)技術(shù)、CMOS晶體管3D堆疊技術(shù)和對(duì)晶體管新材料的探索;第二,通過(guò)疊加新的晶體管材料和結(jié)構(gòu),給硅晶體管注入新的功能,包括增強(qiáng)模式的高K氮化鎵晶體管和硅FinFET晶體管的組合技術(shù),以及反鐵電體材料的嵌入式內(nèi)存;第三,是量子領(lǐng)域的工作,包括應(yīng)用在邏輯計(jì)算的磁電自旋電子器件,磁疇壁電子器件和300毫米量子比特制程工藝流程。
神經(jīng)擬態(tài)計(jì)算可以直接模擬人類神經(jīng)元的形式構(gòu)造芯片底層的計(jì)算單元,再通過(guò)脈沖神經(jīng)網(wǎng)絡(luò)的方式編程實(shí)現(xiàn)人工智能算法,與傳統(tǒng)上主要使用CPU和GPU,靠堆乘加器的方式提供算力的模式相比,可以實(shí)現(xiàn)能效比千倍級(jí)以上的提升。宋繼強(qiáng)介紹,目前英特爾的神經(jīng)擬態(tài)計(jì)算芯片已經(jīng)發(fā)展到了第二代Loihi 2,基于Intel 4制程工藝,速度比上一代提升了10倍,單個(gè)芯片里的神經(jīng)元數(shù)量也提升了8倍,達(dá)到100萬(wàn)。同時(shí),英特爾也推出了一套完整的開(kāi)源的軟件框架Lava對(duì)神經(jīng)擬態(tài)計(jì)算的開(kāi)發(fā)提供全面支持,并和北京大學(xué)、復(fù)旦大學(xué)、鵬城實(shí)驗(yàn)室、中科院自動(dòng)化所、聯(lián)想等近200家國(guó)內(nèi)外合作伙伴一起提升計(jì)算的效率。
在集成光電上,英特爾則致力于大幅提高光電轉(zhuǎn)換效率。在關(guān)鍵技術(shù)構(gòu)建模塊上,英特爾基于CMOS工藝,實(shí)現(xiàn)了在一個(gè)平臺(tái)上集成所有的關(guān)鍵光學(xué)技術(shù)構(gòu)建模塊,包括光的產(chǎn)生、放大、檢測(cè)、調(diào)制等等,大幅降低了尺寸和功耗;在器件層面,英特爾研制了一個(gè)集成在硅晶圓上的8波長(zhǎng)激光器陣列,提升了準(zhǔn)確性和能效比,為以后光電共封裝和光互連器件的量產(chǎn)鋪平了道路。此外,英特爾也繼續(xù)和大學(xué)合作,在高速光互連、I/O技術(shù)、性能擴(kuò)展和節(jié)能方面做廣泛的研究。