作為蘋果春季“Peek Performance”產(chǎn)品發(fā)布會的一部分,蘋果公布了M1系列的第四個(gè)也是最后一款SoC,M1 Ultra。M1 Ultra主要針對臺式機(jī)(特別是新款Mac Studio),蘋果新款SoC在CPU和GPU工作負(fù)載方面再次提升到一個(gè)新高度。蘋果向業(yè)界拋出了一個(gè)新的曲線球,不僅將兩個(gè)M1 Max拼接到一個(gè)芯片封裝中,而且將這兩個(gè)芯片作為一個(gè)獨(dú)立的單片GPU,標(biāo)志著芯片制造行業(yè)的又一個(gè)第一次。
早在去年秋天蘋果宣布M1 Pro和強(qiáng)大的M1 Max時(shí),許多人認(rèn)為蘋果已經(jīng)完成了M1芯片的研發(fā)。畢竟,你怎么能超越一個(gè)432mm2的芯片呢,這已經(jīng)突破了臺積電N5工藝的制造極限。答案是,蘋果可以做得更好,或者可以說加倍的好。至于該公司最后的M1芯片設(shè)計(jì),即M1 Ultra,蘋果已將兩個(gè)M1 Max拼接在一個(gè)芯片上,其硬件的所有性能優(yōu)勢都會翻倍。
最終的結(jié)果是一個(gè)芯片,毫無疑問,是目前為止最有趣的消費(fèi)類SoC設(shè)計(jì)之一。M1 Ultra與目前市場上的任何其他消費(fèi)類芯片都不太一樣。雖然雙芯片策略對多線程CPU和GPU工作負(fù)載的好處遠(yuǎn)大于單線程任務(wù)(蘋果在這個(gè)領(lǐng)域已經(jīng)開始落后了),但在這個(gè)過程中,他們在GPU方面有了新的突破。通過使M1 Ultra的兩個(gè)芯片透明地呈現(xiàn)為單個(gè)GPU,蘋果已經(jīng)啟動了一場新的技術(shù)競賽,將多芯片GPU用于高端消費(fèi)者和工作站硬件中。
M1 Max + M1 Max = M1 Ultra
新的M1 Ultra的核心不是什么新鮮的東西,我們都知道是M1 Max。具體來說,蘋果在這里使用了兩個(gè)M1 Max,然后將它們連接在一起,形成一個(gè)由1140億個(gè)晶體管組成的巨大混合體。
由于M1 Max在過去5個(gè)月里一直在發(fā)貨,該芯片的基本架構(gòu)(及其底層模塊)在這一點(diǎn)上是已知的。在這方面,M1 Ultra并沒有引入任何新的終端用戶功能,相反,該芯片是通過在單個(gè)芯片上放置第二個(gè)芯片,將蘋果的M1架構(gòu)進(jìn)一步擴(kuò)展。
通過將兩個(gè)M1 Max放進(jìn)單一的封裝,蘋果幾乎在每種方式上都將他們所掌握的硬件數(shù)量增加了一倍。這意味著有兩倍的CPU內(nèi)核、GPU內(nèi)核、神經(jīng)引擎內(nèi)核、LPDDR5內(nèi)存通道,以及兩倍的外圍設(shè)備I/O。
在CPU方面,這意味著蘋果現(xiàn)在提供20個(gè)CPU內(nèi)核。包括16個(gè)Firestorm性能核,4個(gè)Icestorm能效核。鑒于M1 Ultra只針對臺式機(jī)(與M1 Max不同),能效核的作用并不大,因?yàn)榕_式機(jī)并不需要那么節(jié)能。然而,正如我們所看到的,它們本身就是相當(dāng)強(qiáng)大的內(nèi)核,并將幫助增加芯片在重度線程情況下的CPU吞吐量。
和蘋果發(fā)布產(chǎn)品的典型做法一樣,該公司在此沒有透露時(shí)鐘速度。由于這款芯片主要用于臺式機(jī),意味著如果他們愿意,蘋果可以把時(shí)鐘速度推得比M1 Max高一點(diǎn),但這樣做也意味著要犧牲最佳的能效點(diǎn)。
在實(shí)踐中,如果M1 Ultra的CPU內(nèi)核時(shí)鐘比M1 Max高得多,多少會讓人感到驚訝。這對蘋果的CPU性能來說是喜憂參半的。對于多線程工作負(fù)載,16個(gè)Firestorm內(nèi)核將提供足夠的吞吐量,在一些性能圖表中名列前茅。但是對于單線程/輕線程工作負(fù)載,F(xiàn)irestorm已經(jīng)被更新的架構(gòu)所超越,比如英特爾的Colden Cove CPU架構(gòu)。因此,不要指望看到蘋果在這里恢復(fù)單線程性能的領(lǐng)先優(yōu)勢。相反,這都是關(guān)于MT,特別是能效問題。
同時(shí),M1 Max芯片數(shù)量增加一倍,意味著蘋果能夠?qū)⑿酒系膬?nèi)存通道數(shù)量增加一倍,從而使其整體內(nèi)存帶寬增加。M1 Max有16個(gè)LPDDR5-6400通道,共408GB/s的內(nèi)存帶寬,而M1 Ultra則將其增加到32個(gè)LPDDR5通道和800GB/s的內(nèi)存帶寬。而與M1 Max一樣,這是通過將LPDDR5芯片直接焊接到芯片封裝上來實(shí)現(xiàn)的,M1 Ultra上共有8個(gè)芯片。
加倍的內(nèi)存芯片也讓蘋果將其硬件中可用的內(nèi)存總量增加了一倍。M1 Max最高為64GB,M1 Ultra最高為128GB。這仍然比真正的高端工作站(如Mac Pro)的內(nèi)存少,但它使蘋果領(lǐng)先于所有高端PC臺式機(jī),對內(nèi)容創(chuàng)作者人群應(yīng)該是足夠的。
正如我們在M1 Max推出時(shí)看到的那樣,蘋果已經(jīng)為他們的SoC提供了比CPU內(nèi)核所能消耗的更多的帶寬,所以加倍的帶寬不可能產(chǎn)生太大的影響,而只是確保CPU內(nèi)核能像在M1 Max上那樣得到充分的供給。相反,所有這些額外的內(nèi)存帶寬是為了跟上GPU內(nèi)核數(shù)量的增長。
這讓我們看到M1 Ultra最有趣的方面,就是GPU。憑借32個(gè)GPU內(nèi)核,M1 Max已經(jīng)創(chuàng)下了單片集成GPU的記錄。而現(xiàn)在,蘋果已在單個(gè)芯片上增加到64個(gè)GPU內(nèi)核。
與幾十年來工作站中常見的multi-die/multi-chip類型CPU配置不同,multi-chip GPU配置是一個(gè)完全不同的野獸。對于高端部件來說,GPU所消耗的內(nèi)部帶寬,遠(yuǎn)超過1TB/s,這使得將它們拼接起來在技術(shù)上一直是個(gè)巨大障礙。因此,在傳統(tǒng)的多GPU系統(tǒng)(如Mac Pro)中,每個(gè)GPU都是作為一個(gè)獨(dú)立的設(shè)備出現(xiàn)在系統(tǒng)中,而由軟件供應(yīng)商來尋找創(chuàng)新的方法來一起使用它們。在實(shí)踐中,這意味著讓多個(gè)GPU在不同的任務(wù)上工作,因?yàn)槿狈捯馕吨鼈儾荒苡行У卦谕粋€(gè)圖形任務(wù)上一起工作。
但如果能以某種方式將多個(gè)GPU拼接起來,使其具有驚人的die-to-die的帶寬(足以復(fù)制其內(nèi)部帶寬)那么就可能在一個(gè)任務(wù)中一起使用它們。這使得以一種透明的方式組合多個(gè)GPU成為多GPU設(shè)計(jì)的圣杯。這是多家公司十多年來一直在研究的問題,而蘋果成為了第一家完成這項(xiàng)任務(wù)的公司,開辟了嶄新的領(lǐng)域。
UltraFusion:蘋果的2.5D芯片封裝方法使這一切成為可能的秘密(蘋果至今還在保密)是M1 Max在其一個(gè)邊緣有一個(gè)非常高速的接口。這個(gè)接口在芯片interposer的幫助下,可以將兩個(gè)M1 Max芯片連接起來。
蘋果將這種封裝架構(gòu)稱為UltraFusion,它是業(yè)界2.5D芯片封裝的最新范例。雖然各個(gè)實(shí)施方案的細(xì)節(jié)非常不同,但該技術(shù)的基本原理是相同的。在所有情況下,在兩個(gè)芯片下面放置某種interposer,然后兩個(gè)芯片之間的信號通過interposer進(jìn)行傳輸。芯片的超精細(xì)制造能力意味著可以在兩個(gè)芯片之間鋪設(shè)大量的線路(在蘋果的案例中,超過10000條)這使得兩個(gè)芯片之間可以實(shí)現(xiàn)超寬、超高的帶寬連接。
官方說,蘋果只說他們在這里使用的是silicon interposer,這是這項(xiàng)技術(shù)的通用術(shù)語。但是,從蘋果的宣傳視頻和模擬動畫來看,他們似乎在使用某種小型硅橋(silicon bridge)。這與英特爾的EMIB技術(shù)或Elevated Fanout Bridge(EFB)技術(shù)在實(shí)施上相似。這兩種技術(shù)都已經(jīng)在市場上使用了多年,所以蘋果不是第一個(gè)使用該技術(shù)的廠商。但他們使用它的目的相當(dāng)有趣。
通過UltraFusion,蘋果能夠在兩個(gè)M1 Max芯片之間提供令人難以置信的2.5TB/s的帶寬。即使我們假設(shè)這是一個(gè)總數(shù)(將兩個(gè)方向加起來),這仍然意味著他們在每個(gè)方向有1.25TB/s的帶寬。所有這些都接近于一些芯片使用的內(nèi)部帶寬,并超過了蘋果800GB/s的DRAM總帶寬。
這里重要的一點(diǎn)是,蘋果已經(jīng)成為第一個(gè)將兩個(gè)GPU與如此巨大的帶寬結(jié)合起來的公司。這使他們能夠嘗試將兩個(gè)GPU作為一個(gè)單一的設(shè)備呈現(xiàn)給操作系統(tǒng)和應(yīng)用程序,因?yàn)樗试S他們在必要時(shí)在GPU之間快速切換數(shù)據(jù)。
但也應(yīng)該注意到,有很多細(xì)節(jié)可以決定這種方法是否有用。例如,鑒于GPU的高性能,2.5TB/s是否足夠?以及從GPU到GPU的額外延遲對性能的影響是什么?僅僅因?yàn)樘O果通過將GPU內(nèi)核拼接在一起而使其數(shù)量增加了一倍,并不意味著蘋果的GPU性能增加了一倍。但最終,如果它的運(yùn)行效果還不錯(cuò),那么對未來的GPU設(shè)計(jì)的影響將是巨大的。
GPU性能:超越GeForce RTX 3090
通過UltraFusion,蘋果已經(jīng)成為第一個(gè)將兩個(gè)獨(dú)立的GPU透明地結(jié)合起來的芯片供應(yīng)商。雖然我們還要等待后續(xù)的效果,但蘋果對他們的成就及其性能感到興奮。
特別是,蘋果聲稱M1 Ultra的GPU性能超過了英偉達(dá)的GeForce RTX 3090,后者是目前市場上速度最快的顯卡。此外,他們的能耗僅為100多W,比RTX 3090少200W。
從性能的角度來看,假設(shè)他們的多GPU技術(shù)如宣傳的那樣有效,蘋果的說法看起來是合理的。盡管RTX 3090的速度非???,蘋果卻投入了更多的晶體管。英偉達(dá)的GA102 GPU有283億個(gè)晶體管,而M1 Ultra是1140億個(gè)。當(dāng)然,并非所有都被用于M1 Ultra的顯卡,但有了這么多的晶體管,蘋果不必羞于在這個(gè)問題上投入了更多的硅。
蘋果的硅數(shù)量也是其低能耗的關(guān)鍵之一。正如我們在M1 Max上已經(jīng)看到的,蘋果已經(jīng)建立了一個(gè)足夠?qū)挼腉PU,可以在電壓/頻率曲線上保持良好和較低的時(shí)鐘速度,從而使整體功耗下降。相比之下,RTX 3090的設(shè)計(jì)是為了追求性能而不考慮功耗,使英偉達(dá)能夠獲得出色的性能,但只能通過在電壓頻率曲線上保持高位。當(dāng)然,蘋果在這里享有巨大的制造工藝優(yōu)勢,使用臺積電的N5工藝而不是三星的8nm工藝。
盡管如此,考慮到蘋果試圖通過透明的多GPU設(shè)計(jì)實(shí)現(xiàn)的突破性本質(zhì),必須強(qiáng)調(diào)的是,至少在目前,對蘋果的性能主張應(yīng)該有所保留。蘋果通常不會做半生不熟的事,但由于以這種方式拼接兩個(gè)GPU還沒有被證實(shí),所以保留一點(diǎn)懷疑是正常的。
雖然蘋果從他們采用自研的Mac芯片的第一天就表示打算擴(kuò)展他們的芯片設(shè)計(jì),但M1 Ultra還是超出了大多數(shù)人的預(yù)期。在達(dá)到了單個(gè)芯片實(shí)際尺寸的極限之后,蘋果已經(jīng)采取了合乎邏輯的下一步,開始在一個(gè)芯片上放置多個(gè)芯片,以建立一個(gè)工作站級的處理器??紤]到各種限制因素,這一步是必要的,但從歷史上來看,這一招甚至比以往蘋果的典型做法還要前沿。
最終的結(jié)果是,蘋果宣布了一個(gè)在多個(gè)層面上都沒有競爭對手的SoC。對于CPU來說,在工作站中采用multi-die/multi-chip是非常有效的策略,但在GPU上這樣做則可能使蘋果處于一個(gè)非常獨(dú)立的水平。如果他們的透明多GPU技術(shù)像該公司所說的那樣有效,那么蘋果將在性能和開發(fā)制造這種芯片所需的尖端技術(shù)方面比他們的競爭對手領(lǐng)先更多。在這方面,雖然蘋果在UltraFusion 2.5D芯片封裝技術(shù)方面有點(diǎn)落后于行業(yè),但他們試圖用它來彌補(bǔ)失去的時(shí)間。
我們非??释吹組1 Ultra在現(xiàn)實(shí)世界中的表現(xiàn)。蘋果已經(jīng)為M1 Max設(shè)定了一個(gè)相當(dāng)高的標(biāo)準(zhǔn),現(xiàn)在他們的目標(biāo)是通過M1 Ultra超越它。如果他們能實(shí)現(xiàn)這些目標(biāo),那么他們將在短短6個(gè)月的時(shí)間里兩次為SoC設(shè)計(jì)制定了新的高點(diǎn)。這的確是一個(gè)令人興奮的時(shí)代。
[參考文章]
Apple Announces M1 Ultra: Combining Two M1 Maxes For Workstation Performance — Ryan Smith