在數(shù)據(jù)中心等應(yīng)用場(chǎng)景,英特爾至強(qiáng)可擴(kuò)展處理器依然占據(jù)主導(dǎo)地位,該產(chǎn)品進(jìn)展也被業(yè)界所關(guān)注。日前,在美國(guó)圣何塞舉行的“2023英特爾on技術(shù)創(chuàng)新大會(huì)”上,英特爾副總裁、至強(qiáng)產(chǎn)品和解決方案事業(yè)部總經(jīng)理Lisa Spelman,和英特爾資深院士、至強(qiáng)首席架構(gòu)師Ronak Singhal,接受了<與非網(wǎng)>和全球其他少數(shù)媒體的專(zhuān)訪,就未來(lái)至強(qiáng)的架構(gòu)細(xì)節(jié)、在AI時(shí)代的創(chuàng)新思路等進(jìn)行了深入分析。
25%在售至強(qiáng)被用于AI負(fù)載
目前,英特爾至強(qiáng)可擴(kuò)展處理器已經(jīng)進(jìn)化到第四代,第五代至強(qiáng)將于今年12月14日(美國(guó)時(shí)間)發(fā)布。據(jù)Lisa Spelman透露,截止目前,英特爾已經(jīng)與所有領(lǐng)先的云服務(wù)提供商展開(kāi)合作,打造多元化實(shí)例,并保障其基礎(chǔ)設(shè)施的可用性。并且,與英特爾合作的原始設(shè)備制造商也都在大批量出貨。由此可見(jiàn),英特爾正在大規(guī)模推動(dòng)第四代英特爾至強(qiáng)可擴(kuò)展處理器的廣泛應(yīng)用。
在第三代至強(qiáng)時(shí),很多性能都是針對(duì)多元化工作負(fù)載的,而在此基礎(chǔ)上,英特爾正在持續(xù)創(chuàng)新,特別是增強(qiáng)在人工智能領(lǐng)域的應(yīng)用?!拔覀兪冀K認(rèn)為至強(qiáng)是適用于任何邊緣網(wǎng)絡(luò)、數(shù)據(jù)中心、云等工作負(fù)載的強(qiáng)有力產(chǎn)品,但同時(shí),至強(qiáng)也具備諸多加速器和專(zhuān)業(yè)功能,以滿(mǎn)足人工智能工作負(fù)載的需求,這也日漸成為我們業(yè)務(wù)中越來(lái)越重要的一部分”,Lisa Spelman表示。
她透露,根據(jù)與客戶(hù)對(duì)一些工作負(fù)載、市場(chǎng)需求等分析發(fā)現(xiàn),25%在售的至強(qiáng)被用于人工智能工作負(fù)載。其中,很大一部分是用于推理,一小部分用于訓(xùn)練。此外,許多至強(qiáng)產(chǎn)品還用于在訓(xùn)練或推理之前的一些工作,如數(shù)據(jù)準(zhǔn)備(包括為至強(qiáng)和GPU提供數(shù)據(jù))。未來(lái),英特爾將持續(xù)推動(dòng)至強(qiáng)系列的創(chuàng)新,以進(jìn)一步增強(qiáng)在人工智能CPU市場(chǎng)的領(lǐng)先性。
第五代至強(qiáng)焦點(diǎn):AI、每瓦性能、安全性、可部署性……
在至強(qiáng)處理器中引入AI加速器不僅意味著成本的變化,更會(huì)對(duì)產(chǎn)品的空間布局等帶來(lái)影響,這并非一件小事。
Lisa Spelman分享,團(tuán)隊(duì)內(nèi)部確實(shí)對(duì)此有過(guò)激烈的討論,但最終,大家一致認(rèn)為這個(gè)舉措將產(chǎn)生積極的影響,因此也將堅(jiān)定不移地持續(xù)推進(jìn)。在推動(dòng)硬件革新的同時(shí),英特爾也將更多精力投入到軟件更新中,以期實(shí)現(xiàn)更多指數(shù)級(jí)的變革。
關(guān)于即將發(fā)布的第五代至強(qiáng)(代號(hào)為Emerald Rapids)進(jìn)展,Lisa Spelman介紹說(shuō),現(xiàn)階段正與客戶(hù)緊密合作完成測(cè)試、并為廣泛的系統(tǒng)應(yīng)用做準(zhǔn)備。值得注意的是,它與上一代Sapphire Rapids使用同一平臺(tái),是英特爾整個(gè)產(chǎn)品線歷史上最無(wú)縫的升級(jí)之一。
在海量數(shù)據(jù)、復(fù)雜數(shù)據(jù)處理等需求下,能源效率已成為現(xiàn)代云計(jì)算和數(shù)據(jù)中心高性能服務(wù)器處理器轉(zhuǎn)變?cè)O(shè)計(jì)的關(guān)鍵因素,也成為衡量處理器性能的重要指標(biāo),這顯然也是至強(qiáng)未來(lái)處理器的聚焦方向。
與前代產(chǎn)品相比,第五代至強(qiáng)將會(huì)在每瓦性能方面實(shí)現(xiàn)很大提升。Lisa Spelman解釋說(shuō),人們?cè)谡務(wù)撔阅軙r(shí),真正關(guān)注的其實(shí)是最大利用率,許多數(shù)據(jù)中心并沒(méi)有在任何硬件上真正以最大利用率每時(shí)每刻去運(yùn)行。英特爾一直致力于提高不同工作負(fù)載或不同利用率水平下的性能、效率和功耗,這對(duì)于大型企業(yè)客戶(hù)以及流量變化很大的云服務(wù)提供商客戶(hù)來(lái)說(shuō)至關(guān)重要,在多元化場(chǎng)景中的實(shí)際數(shù)據(jù)比產(chǎn)品的書(shū)面峰值數(shù)據(jù)更有價(jià)值。
此外,第五代至強(qiáng)還將進(jìn)一步推進(jìn)安全功能,比如持續(xù)擴(kuò)大可信執(zhí)行環(huán)境的覆蓋范圍。作為機(jī)密計(jì)算的服務(wù)基礎(chǔ),這將更有助于增強(qiáng)硬件的安全性。該功能在第四代至強(qiáng)中面向一些頂級(jí)云服務(wù)商提供,第五代產(chǎn)品中則將推向整個(gè)市場(chǎng)。
下一代至強(qiáng)的關(guān)注重點(diǎn)還有可部署性。英特爾致力于讓所有數(shù)據(jù)中心客戶(hù)都能快速部署該產(chǎn)品,同時(shí)適用于上一代平臺(tái)的通用軟件堆棧。在具備這一優(yōu)勢(shì)的基礎(chǔ)上,升級(jí)將非常便捷。再?gòu)募夹g(shù)的角度來(lái)看,客戶(hù)將擁有更快的傳輸、更大的緩存等,所有這些改進(jìn)都將為廣泛的工作負(fù)載帶來(lái)良好的性能提升。例如針對(duì)人工智能工作負(fù)載非常注重的內(nèi)存帶寬,第五代至強(qiáng)Emerald Rapids將通過(guò)支持DDR 5以滿(mǎn)足其需求。
2024年推出第六代至強(qiáng):P-core和E-core全面覆蓋數(shù)據(jù)中心所需
在最近的Hot Chips上,我們注意到至強(qiáng)處理器引入了新的體系結(jié)構(gòu):Granite Rapids(性能核/P-core產(chǎn)品)和Sierra Forest(能效核/E-core產(chǎn)品)或?qū)⑹堑诹翉?qiáng)最重要的更新。
隨著客戶(hù)用例和應(yīng)用程序的日益多元化,對(duì)硬件基礎(chǔ)設(shè)施也提出了不同需求,至強(qiáng)正是致力于通過(guò)核心數(shù)量、功率、能耗等變化,來(lái)滿(mǎn)足市場(chǎng)和客戶(hù)實(shí)際工作負(fù)載需求。英特爾將引入下一代代號(hào)為“Birch Stream”的創(chuàng)新平臺(tái),該平臺(tái)支持兩種不同類(lèi)型的至強(qiáng)處理器:其一是Granite Rapids,也就是第四代至強(qiáng)(Sapphire Rapids)、第五代至強(qiáng)(Emerald Rapids)再向后的產(chǎn)品迭代,Granite Rapids會(huì)作為典型的至強(qiáng)產(chǎn)品演進(jìn),誕生出下一代P-core性能核處理器,將繼續(xù)主要圍繞內(nèi)存、核數(shù)、I/O等進(jìn)行產(chǎn)品升級(jí)。
值得注意的是,關(guān)于Granite Rapids的產(chǎn)品升級(jí)有兩個(gè)要點(diǎn):一是如何增強(qiáng)算力。其中最重要的是在第四代至強(qiáng)基礎(chǔ)上增加了核數(shù),以及繼續(xù)提高能效。因?yàn)檫M(jìn)行大量AI矩陣計(jì)算時(shí),耗電量會(huì)大幅提升,提升產(chǎn)品能效會(huì)直接改善性能底線。將AMX集成至處理器進(jìn)一步加強(qiáng)了的產(chǎn)品競(jìng)爭(zhēng)力。二是內(nèi)存帶寬。部分AI工作負(fù)載以計(jì)算為核心,因此將受到核數(shù)和能效的影響。還有部分大語(yǔ)言模型,需要處理包括計(jì)算、存儲(chǔ)等AI工作負(fù)載,因此對(duì)內(nèi)存帶寬亦提出了要求。
其二是明年將推出的第一款基于E-core能效核的產(chǎn)品,與Granite Rapids相比,Sierra Forest的核心更節(jié)能,且面積較小,因此,可以在相同功耗下進(jìn)行擴(kuò)展、并增加核數(shù),最高可達(dá)288核。
也就是說(shuō),針對(duì)數(shù)據(jù)中心日益豐富的工作負(fù)載和用例類(lèi)型,英特爾將通過(guò)性能核(P-core)對(duì)計(jì)算密集型和AI工作負(fù)載進(jìn)行優(yōu)化,能效核(E-core)則將針對(duì)高密度和橫向擴(kuò)展工作負(fù)載的能效進(jìn)行優(yōu)化。
揭秘全新架構(gòu)設(shè)計(jì)過(guò)程
打磨一款好產(chǎn)品需要足夠的時(shí)間周期,那么,英特爾是如何預(yù)判人工智能對(duì)數(shù)據(jù)中心處理器帶來(lái)的挑戰(zhàn)?在設(shè)計(jì)至強(qiáng)產(chǎn)品路線圖時(shí),又有哪些主要的考慮因素?
據(jù)透露,英特爾幾年前就決定將加速人工智能計(jì)算的能力嵌入到至強(qiáng)的每個(gè)核心中。Ronak Singhal表示,這樣做的好處就是,之前的幾代產(chǎn)品和競(jìng)爭(zhēng)對(duì)手相比,性能均得到顯著提升,并且英特爾將在此基礎(chǔ)上持續(xù)創(chuàng)新,這是至強(qiáng)產(chǎn)品路線圖的核心考慮因素。也正是如此,第四代至強(qiáng)(Sapphire Rapids)在工作負(fù)載的廣度和深度方面都得到了極大拓展。
Ronak Singhal分享,在長(zhǎng)期傾聽(tīng)客戶(hù)反饋的過(guò)程中,英特爾發(fā)現(xiàn)有一個(gè)相同的疑問(wèn),即:為什么x86與Arm相比,效率如此低下?他解釋說(shuō),事實(shí)并非如此,因?yàn)?a class="article-link" target="_blank" href="/baike/511008.html">指令集架構(gòu)并不是決定效率的因素,而是構(gòu)建產(chǎn)品的方式。當(dāng)Sierra Forest推出后,相信業(yè)界會(huì)看到它領(lǐng)先的性能和密度。
以核心數(shù)為例,誰(shuí)最需要超大量的核心數(shù)?云服務(wù)提供商們正在嘗試將盡可能多的用戶(hù)整合到一個(gè)系統(tǒng)上,因?yàn)檫@能幫助他們減少所需的系統(tǒng)數(shù)量,從而降低TCO,大核數(shù)的CPU(Sierra Forest)正好可以幫助他們;如果他們需要每個(gè)核心擁有最佳性能,他們則可以選擇Granite Rapids。這兩者是相輔相成的。
再?gòu)牟渴鹉芰?lái)看,如果客戶(hù)需要投資構(gòu)建平臺(tái),但遲遲無(wú)法決定是50%的Granite Rapids加50%的Sierra Forest?還是一方為0,一方為100%?亦或是完全混合?他指出,一切最終由具體的工作負(fù)載或最終客戶(hù)來(lái)決定,未來(lái)的至強(qiáng)可以提供足夠的靈活性,不僅平臺(tái)相同,核心之外的其他SoC也相同,這將帶來(lái)非常高的靈活度。
打造未來(lái)的數(shù)據(jù)中心處理器本身就是一項(xiàng)艱巨而復(fù)雜的任務(wù),而英特爾還打算明年推出兩款CPU,看似是一件挑戰(zhàn)加倍的事。
談及新產(chǎn)品的構(gòu)建過(guò)程,Ronak Singhal表示一是基于 chiplet(芯粒)的方式,二是讓兩款處理器盡量共享更多的設(shè)計(jì)。從下圖可知,頂部和底部的chiplet,就是我們所說(shuō)的I/O chiplet,包括 PCIe、CXL 等。這些功能在 Sierra Forest 和 Granite Rapids 之中都很常見(jiàn)。英特爾不會(huì)對(duì)這些功能以及安全性或可靠性進(jìn)行區(qū)分和更改,不同產(chǎn)品的區(qū)別在于所使用的核心,以及根據(jù)密度和每核性能所擁有的擴(kuò)展能力。
產(chǎn)品的核數(shù)實(shí)際上就是集合多少個(gè)chiplet,可以根據(jù)實(shí)際需求,采用更多或更少的chiplet,來(lái)擴(kuò)大或減少核心數(shù)量。顯然,chiplet的方式既實(shí)現(xiàn)了構(gòu)建芯片的靈活性,同時(shí)也有助于提升制造能力,可以是組合不同類(lèi)型或是不同尺寸大小的chiplet。
此外,EmiB封裝(英特爾的2.5D先進(jìn)封裝技術(shù))也發(fā)揮了重大作用。通過(guò)EmiB封裝,多個(gè)獨(dú)立的計(jì)算chiplet和I/O chiplet,在單一芯片中進(jìn)行了集成,使得芯片結(jié)構(gòu)更為靈活,實(shí)現(xiàn)了通用IP、固件、操作系統(tǒng)、平臺(tái)的有機(jī)整體。
內(nèi)存方面,英特爾優(yōu)化了DDR5內(nèi)存速度,并將首次支持名為MCR的新內(nèi)存技術(shù),能以與DDR5相同的形態(tài)和互連方式,支持更高的內(nèi)存帶寬,并在HPC和AI等領(lǐng)域發(fā)揮價(jià)值。
“這一切功能都將在Sierra Forest和Granite Rapids上共同實(shí)現(xiàn)。因此,我認(rèn)為明年將是基于該產(chǎn)品組合的數(shù)據(jù)中心發(fā)展拐點(diǎn)”,Ronak Singhal表示。
至強(qiáng)已可運(yùn)行200億參數(shù)AI大模型
最新的關(guān)于第四代至強(qiáng)與競(jìng)品的實(shí)測(cè)數(shù)據(jù)顯示,至強(qiáng)性能比第四代至強(qiáng)發(fā)布時(shí)得到了進(jìn)一步提高。Lisa Spelman表示,這主要是得益于在軟件方面的努力,軟硬結(jié)合可以更好地解鎖性能。
大約6個(gè)月前,英特爾開(kāi)始在至強(qiáng)上分析和研究生成式AI,當(dāng)時(shí)可以在50億或70億參數(shù)的大模型上實(shí)現(xiàn)較好的TCO和效率,通過(guò)采用一些框架、對(duì)軟件進(jìn)行調(diào)整和優(yōu)化后,這個(gè)數(shù)字提升到了100億。而現(xiàn)在,至強(qiáng)的能力已經(jīng)接近200億參數(shù)的AI大模型,據(jù)透露,當(dāng)前英特爾實(shí)驗(yàn)室正在研究300億參數(shù)AI大模型的運(yùn)行。
“我們努力在2024年想要實(shí)現(xiàn)的目標(biāo),包括提供針對(duì)計(jì)算密集型工作負(fù)載的產(chǎn)品,以及針對(duì)生成式AI的卓越性能,從而抓住市場(chǎng)機(jī)遇,滿(mǎn)足客戶(hù)的真實(shí)需求”, Lisa Spelman強(qiáng)調(diào)。
在加速計(jì)算的世界,CPU落伍了嗎?
在AI的風(fēng)口之下,特別是隨著生成式AI迅速占據(jù)業(yè)界頭條,采用加速計(jì)算顛覆傳統(tǒng)數(shù)據(jù)中心的呼聲越來(lái)越高。<與非網(wǎng)>在采訪中提出:以英偉達(dá)為例,就在大力倡導(dǎo)并率先進(jìn)軍加速計(jì)算數(shù)據(jù)中心。英特爾是如何看待加速計(jì)算的?對(duì)CPU層面又有哪些影響?
Ronak Singhal表示,AI的發(fā)生不僅在各類(lèi)加速器上,更在我們“老生常談”的CPU上。實(shí)際上,眼下大部分的推理工作都是在CPU上運(yùn)行的,也可以說(shuō)是每個(gè)工作負(fù)載都將嵌入一部分AI工作負(fù)載,這意味著每次運(yùn)行任何工作時(shí),幾乎都需要CPU進(jìn)行處理。
“我們始終相信CPU上的推理是非常有價(jià)值的,也是極其普遍的。為了讓其在CPU上運(yùn)行,我們需要繼續(xù)討論‘加速’。我們一直在探索,如何去提高CPU的能力,使它始終是運(yùn)行這些推理工作負(fù)載的最佳載體。當(dāng)然這并不意味著沒(méi)有加速器施展拳腳的空間。對(duì)于那些需要專(zhuān)門(mén)加速器的任務(wù),還是會(huì)由加速器來(lái)運(yùn)行”,他補(bǔ)充,“根據(jù)我們眼下所觀察到的一切,包括算法的發(fā)展方向以及實(shí)際案例來(lái)看,在CPU上運(yùn)行AI工作負(fù)載擁有顯著優(yōu)勢(shì),包括更低的延遲以及更高的能效。想象一下,來(lái)回在CPU和加速器之間移動(dòng)數(shù)據(jù)造成的能耗,我認(rèn)為避免這種數(shù)據(jù)傳輸可以極大地降低能源消耗,這也是CPU的一個(gè)顯著優(yōu)勢(shì)?!?/p>
Lisa Spelman則強(qiáng)調(diào),英特爾對(duì)目前所擁有的針對(duì)AI的CPU硬件產(chǎn)品路線圖感到非常滿(mǎn)意,根據(jù)眾多客戶(hù)反饋來(lái)看,他們正朝著一個(gè)正確的方向去挖掘產(chǎn)品特性和定位產(chǎn)品。
此外,她強(qiáng)調(diào)了AI時(shí)代軟件的重要性。顯然,英特爾正在把越來(lái)越多的精力轉(zhuǎn)向軟件,這是因?yàn)橛布倘环浅V匾?,但也需要在軟件方面努力,以便讓整個(gè)市場(chǎng)更容易、更便捷地獲取、利用CPU的能力。例如Oracle數(shù)據(jù)庫(kù)之類(lèi)的標(biāo)準(zhǔn)應(yīng)用,也是花了數(shù)年時(shí)間來(lái)構(gòu)建生態(tài)系統(tǒng),以確保每一代產(chǎn)品用戶(hù)都能充分利用到產(chǎn)品性能。
此外,可部署性也是未來(lái)構(gòu)建AI生態(tài)的關(guān)鍵。對(duì)于云服務(wù)商、高性能計(jì)算中心來(lái)說(shuō),他們往往擁有足夠的人才和技術(shù),可以很好地解決問(wèn)題并部署AI。但是對(duì)于一些對(duì)大模型有巨大需求的企業(yè)或網(wǎng)絡(luò)運(yùn)營(yíng)商來(lái)說(shuō),整合更多消費(fèi)級(jí)的軟件對(duì)他們來(lái)說(shuō)非常重要,不論他們是用于構(gòu)建自己的數(shù)據(jù)中心,還是將其作為基礎(chǔ)設(shè)施的一部分去提供服務(wù)。
基于上述原因,Lisa Spelman表示,英特爾在軟件方面投入了大量精力,這對(duì)于至強(qiáng)以及英特爾來(lái)說(shuō)可以算是“標(biāo)準(zhǔn)操作”了。英特爾希望通過(guò)構(gòu)建強(qiáng)大的生態(tài)系統(tǒng),讓下一代技術(shù)更好地服務(wù)產(chǎn)業(yè)。
此外,英特爾正在擴(kuò)大組織規(guī)模,以及通過(guò)各種不同的方式與客戶(hù)進(jìn)行合作,這使其夠進(jìn)行一些很有意義的客戶(hù)對(duì)話(huà),譬如探討大家是如何看待市場(chǎng)的、英特爾可以在哪方面匹配他們的基礎(chǔ)設(shè)施,以及了解一些大客戶(hù)如何調(diào)整他們的基礎(chǔ)設(shè)施等等,來(lái)更好地匹配英特爾的未來(lái)產(chǎn)品。