作為Apple Silicon的第一代產(chǎn)品,M1對于蘋果和業(yè)界都具有標志性的意義。如今,M1家族已經(jīng)擴充到了第四個成員:M1 Ultra。
然而,也許是兄長們將市場的期待值抬得過高,M1 Ultra的問世并沒有像前者一般受到眾星捧月的榮光。相反的卻出現(xiàn)了不少質疑:“不過是兩個M1 Max的簡單拼接罷了”,“并沒有逆天的性能”、“除了做視頻一無是處”、“能打游戲嗎”……
所以,M1 Ultra究竟是拉胯還是引領了芯片設計的新趨勢?蘋果最強芯片的背后,體現(xiàn)了它們怎樣的設計理念?這篇文章我們就來深入看看。
“1+1”:堆料背后的邏輯鏈
在芯片設計風格上,“舍得堆料”是蘋果一貫的特色。
從微架構級別的堆內(nèi)存,到更宏觀一些的堆CPU、GPU核心,再到直接將兩個完整的SoC堆在一起,蘋果的設計理念并不是在隨機地發(fā)展著,其背后是一條連貫的邏輯線。
因此,當兩個M1 Max芯片堆砌而成的M1 Ultra呈現(xiàn)在我們面前時,一切是如此意料之外而又情理之中。
硬件參數(shù)直觀地反映了堆料的效果,這也是M1 Ultra出乎我們意料的原因之一:20個CPU核心、64個GPU核心、32個神經(jīng)網(wǎng)絡引擎、128GB統(tǒng)一內(nèi)存、800GBps內(nèi)存帶寬、1140億個晶體管,再加上臺積電5納米制造工藝的加持——雖然蘋果在硬件設計方面的出手闊綽已是人盡皆知,但是如此富裕的硬件資源仍然讓人咋舌。
相比之下,英特爾的數(shù)據(jù)中心級超算GPU Ponte Vecchio、英偉達剛剛發(fā)布還熱乎著的H100 GPU,晶體管數(shù)量也“僅有”區(qū)區(qū)1000億和800億。
所以問題是,為什么蘋果這次選擇的是“1+1”的方式,而不是從零開始、用一個全新的架構來整合以上的硬件資源呢?
之前我們聊到了“以芯粒(Chiplet)為基本單位”這種集成方式的優(yōu)勢所在、以及行業(yè)巨頭們對它的推崇備至——UCIe標準的推出。
而M1 Ultra選擇在此時登場,可算是把戲劇性拉滿了:一方面,蘋果用產(chǎn)品表明了自己力挺基于芯粒的技術方向的態(tài)度;另一方面,又叫板了UCIe:“芯粒的互聯(lián),我已經(jīng)搞定了”。
當然,從芯粒的角度來說,身為SoC的M1 Max顯然是太大了些。畢竟在大部分的語境中,一個芯粒更接近于一個IP的物理實現(xiàn)。即便如此,兩者的出發(fā)點仍然有相當高的一致性,因此將M1 Ultra看成是一種較為極端的、芯?;ヂ?lián)的嘗試也并無不妥。
使用芯粒的最大好處,就是能顯著縮短芯片開發(fā)的周期。
這類似于模塊化設計的概念,通過把一個復雜的設計任務拆分為多個功能特定的子任務,實現(xiàn)同一個公司中的不同組之間、乃至不同公司之間的分工合作,把每一個子任務交到擅長的人手里,開發(fā)效率自然能發(fā)生質變。
這一點對于M1 Ultra的設計工作而言同樣是成立的。假設沒有M1 Max這個子模塊,如果要把如此豐富的硬件資源一股腦兒塞進一個全新的設計中,我們可能等到明年才能見到M1 Ultra。
芯粒的好處不僅局限于架構設計,而是遍布于芯片開發(fā)的各個階段,比如后端的制造階段。
在相同的制造條件下,越大的芯片面積往往意味著越低的良率。這有點像傳說中的“不要把雞蛋都放在一個籃子里”:打個比方,在平均每個晶圓出現(xiàn)一個壞點的情況下,如果每個晶圓的大小只能容納一塊芯片,那么幾乎所有被制造出的都將是廢片。但如果芯片面積沒那么大、一個晶圓可以制造十塊芯片,那么良率將直接拉升到接近90%。
通過基于芯粒的設計方式,一個大芯片可以分解成多個芯粒拼湊得到,而不是作為一個整體被制造出來,這就能有效地規(guī)避低良率造成的成本過高的風險。
芯粒已經(jīng)成為近年來芯片設計和制造的熱點,以至于幾家大公司前不久剛剛推出了UCIe協(xié)議,目的就是統(tǒng)一芯粒的設計要求和規(guī)范。從此芯粒的玩法就有了游戲規(guī)則,在規(guī)則內(nèi)大家可以任意發(fā)揮。
不過,不讓人意外的是,UCIe的初始成員名單里并沒有蘋果。
多年以來,蘋果一直用實際行動宣告著:盡管自己有著設計一流的芯片的能力,但卻完全無意通過將自己的設計販賣給其他廠商的方式來獲利。因此,成為制定UCIe標準的一員對于蘋果而言顯然不是一個多有吸引力的選項。
但是,這不表示蘋果對于基于芯粒的設計理念是不屑一顧的。正如我們所看到的,通過以“1+1”的方式開發(fā)出M1 Ultra,蘋果選擇用產(chǎn)品這一最有說服力的載體來宣布:“芯片互聯(lián),我是極為支持的,并且又一次走在了行業(yè)的前沿。”
UltraFusion:實現(xiàn)“1+1=2”的勝負手
從硬件參數(shù)的角度來看,兩塊芯片的互聯(lián)自然意味著硬件資源的直接疊加。
但要是說到性能釋放,這道加法便沒那么簡單了:“1+1”等于2并不是必然,結果可能是1.2、1.5...甚至后者們才是常態(tài)。
這道看似簡單的加法題該如何解?蘋果的答題思路才是重頭戲。
事實上,基于芯片互聯(lián)的多CPU系統(tǒng)目前已經(jīng)得到了非常廣泛的應用,尤其是在工作站等應用場景下;但是與之相對的,多GPU系統(tǒng)卻還有著不小的技術進步的空間。
有的讀者朋友可能有異議:“這不是睜眼說瞎話嗎?蘋果自家的Mac Pro不就屬于這一范疇?”
誠然,應用早已經(jīng)不在少數(shù),但是效果上還只能說是差強人意。究其原因,在于GPU對于帶寬的要求實在是太高了,而導致的結果就是“1+1<2”:GPU們盡管被連在了一起,但是在面對計算任務時卻依然是各自為戰(zhàn)、跟一個個獨立的GPU沒什么差別。
這樣的現(xiàn)象在面對單一任務時會被最大程度地放大。由于無法協(xié)同完成計算,最常見的情況就是:系統(tǒng)中的一個GPU大包大攬、而其余的激情圍觀。這種對硬件資源的浪費,顯然有悖于我們搭建多GPU系統(tǒng)的初衷。
對此,坐擁來自兩個M1 Max的、共計64個GPU核心,M1 Ultra給出的解題思路是一種名為UltraFusion的封裝架構。
UltraFusion利用額外的硅中介層連接起兩塊M1 Max,而這個連接的超高速接口早在M1 Max上就已經(jīng)存在了。這進一步印證了:蘋果選擇以“1+1”的方式設計M1 Ultra早已埋下了伏筆,而不是心血來潮。
而硅中介層的應用,使得整個封裝架構呈現(xiàn)出典型的“2.5D”的特征。作為應對逐漸放緩腳步的摩爾定律的手段之一,從平面的2D走向立體的3D一直被認為是芯片封裝技術重要的發(fā)展方向,2.5D便是過渡階段中一種典型的技術手段。它并不是直接把兩個芯片疊加起來的那種真3D結構,而是將多個芯片通過額外的中介層或者橋接進行互聯(lián)和集成。
關于蘋果的UltraFusion,有些人認為它的實現(xiàn)方式基于臺積電的CoWoS-S(Chip-on-Wafer-on-Substrate with Si interposer)技術,并做了一系列的優(yōu)化,比如用可關閉的緩沖器來有效降低互連線的功耗,引入短且密集金屬互連從而提高性能等等。
在UltraFusion的加持下,兩塊M1 Max間的帶寬來到了恐怖的2.5TB/s,這是M1 Ultra很有潛力在實際性能上也能實現(xiàn)“1+1=2”的關鍵 :對于某一具體的應用場景來說,只要兩塊M1 Max間的數(shù)據(jù)傳輸速度能夠滿足其需求,那么兩塊芯片中的硬件資源對于該應用而言便是一個合二為一、可以任意調(diào)度的整體。
PK環(huán)節(jié)常常是蘋果發(fā)布會上最讓人津津樂道的部分之一,而這一回成為了背景板的是英偉達家的GeForce RTX 3090。
3090應該可以說是目前桌面級顯卡產(chǎn)品中的一哥,而根據(jù)蘋果給出的數(shù)據(jù),在相同的性能下,M1 Ultra的功耗比前者低了200瓦,因此,這個數(shù)據(jù)乍一看頗為震撼。
但是,我覺得并沒有必要對于這一對比結果做過度的解讀。
首先,兩者的晶體管數(shù)量上就有著較為明顯的差距:M1 Ultra約為3090的四倍,堆料對于性能的貢獻自然不容忽視;并且兩者的目標市場的重合度也不高,這決定了3090的架構設計中很少將“低功耗”作為一個重要指標 ;何況M1 Ultra基于業(yè)內(nèi)最為先進的臺積電5納米制造工藝,而3090采用的則是三星的8納米工藝,由制造工藝上的差距造成的性能差異同樣是有決定性意義的。更重要的是,當系統(tǒng)給到滿血功率的時候,3090的性能實際是超過M1 Ultra的,已經(jīng)有不少國內(nèi)外的博主證實了這一點。
比起花式地作出“震驚!M1 Ultra吊打了…”這樣的驚呼,我對于M1 Ultra最大的期待仍然執(zhí)著于那道簡單的難題:它究竟能不能在實際的應用場景中實現(xiàn)“1+1=2”?
從硬件角度來說:2.5TB/s的片間帶寬能夠滿足具體計算任務的需求?片間的延遲會不會依舊是難以攻克的瓶頸?而在軟件方面,能否靈活地調(diào)度兩個M1 Max中豐富的硬件資源來高效地完成各種處理任務 ?我覺得這才是M1 Ultra真正需要證明自己的地方。
我很期待蘋果用M1 Ultra交出的這份答卷,因為一旦它成功了,這對于基于芯粒的設計理念來說、對于基于芯片互聯(lián)的多GPU系統(tǒng)來說,都將是具有劃時代的重大意義。
小結
利用UltraFushion技術,蘋果選擇用兩塊M1 Max拼接組成M1家族的最后、同時也是最強的一員M1 Ultra——這一選擇看似簡約,但絕對不簡單。
隨著制定UCIe標準一事被提上日程,基于芯粒的芯片設計理念從幕后走向了臺前。通過M1 Ultra的發(fā)布,蘋果向我們傳達了自己對于這一理念的理解與支持,或者說展示了一種具有蘋果特色的、對于這一理念的打開方式:芯片互聯(lián)能帶給我們的不僅僅是更便捷的芯片開發(fā)流程、開發(fā)效率,還可以是更為強大的計算能力——在半導體制程逐漸逼近物理極限的此時此刻,這一點至關重要。
M1 Ultra是否是一款成功的設計?這個問題的答案可能并不重要,但蘋果用M1 Ultra指明了一個可行的技術方向,因此其存在本身便為行業(yè)提供了指導意義。
(注:本文不代表老石任職單位的觀點。)