手機之王奪下桌面設(shè)備的王冠,那么代價呢?
一周多前,水果公司更新了MacBook產(chǎn)品線。
在放出了2021版格型MacBook Pro系列的同時,更是繼去年首發(fā)桌面級M1處理器之后,拓展出性能更加強悍的M1 Pro和M1 Max系列芯片。
19日線上發(fā)布會那會,C次元沒有跟進(jìn)。彼時,我們雖然有點想法,但眾多疑惑和猜測,還需要等測評數(shù)據(jù)來進(jìn)行驗證。當(dāng)然現(xiàn)在,隨著越來越多的信息以及測評陸續(xù)放出,有些話終于是可以講了。
首先,深度解讀一下蘋果在發(fā)布會上的性能對比圖吧。注意,蘋果畢竟是蘋果,和部分廠商為了對比圖好看而找軟柿捏完全不同的是,庫克這一次是直接對標(biāo)現(xiàn)階段頂級的游戲筆記本微星 GP66 Leopard——
測試對標(biāo)的是微星 GP66 Leopard (11UG-018),采用的是Intel的11代i7-11800H處理器,國內(nèi)售價超過13,000元。M1 Pro/Max的CPU在同功耗下,性能是i7-11800H的1.7倍。
而在面對同樣GP66時,僅僅“大杯”的M1 Pro就能用30w左右的功耗,實現(xiàn)其配備的RTX3070型圖形處理器100w功耗才能達(dá)到的性能。
而更高級的M1 Max處理器則直接找上了頂級游戲本雷蛇Blade 15 Advanced“麻煩”??磮D,在60w功耗下,“超大杯”M1 Max處理器的GPU部分,其性能已堪比RTX3080的160w狀態(tài)。
那么,目前爆出的跑分?jǐn)?shù)據(jù)呢?
從最新曝光的Geekbench 5跑分?jǐn)?shù)據(jù)來看,頂配 M1 Max 的單核跑分為1749,多核達(dá)到了11542,幾乎是M1芯片的兩倍,與2019款Mac Pro高配版(搭載12核 Intel至強W-3235處理器)相差無幾。
01、往死里“擠牙膏”的蘋果
“擠牙膏”,是市場和用戶相當(dāng)一段時間來,對Intel企業(yè)策略的一種調(diào)侃。
從2008年到 2017年長達(dá)9年時間,Intel處理器更新了7代,在消費者市場一直是i3雙核4線程,i5四核四線程,i7四核八線程的步調(diào),每一代比上代同頻性能提升3%-5%,雷打不動。
久而久之,Intel也得到了一個“牙膏廠”的外號。
蘋果自研桌面端芯片的初始動機,筆者無從知曉,但無論如何,相信至少有一部分原因是對這其“擠牙膏”策略忍無可忍。只不過這一次,蘋果擠得實在大力了一些,不但擠兌到了“牙膏廠”,甚至順帶狠狠惡心了一把皮衣老黃和蘇媽。
下面,讓我們細(xì)品下蘋果M1系列的“中杯”“大杯”和“超大杯”。
CPU部分,10核心的M1Pro/M1Max由8個性能核心和2個能效核心構(gòu)成。
可能很多人對這幾張圖沒有直觀感受,最左邊最小的是基礎(chǔ)款蘋果M1處理器,他的晶體管總數(shù)是160億,采用了臺積電N5工藝制造,而安卓端目前主流的旗艦芯片驍龍888在算上基帶后其晶體管總數(shù)也不過100億,采用的還是稍差的三星5LPE工藝。
▲M1、M1 Pro、M1 Max處理器核心X光圖
而右邊兩個,大杯M1 Pro和超大杯M1 Max,其總晶體管數(shù)目來到了驚人的337億和570億,(幾天前阿里巴巴公布的128核服務(wù)器專用芯“倚天”擁有600億晶體管)一個M1Max的晶體管數(shù)量相當(dāng)于6塊手機端的驍龍888。
先來細(xì)品一下“超大杯”的M1 Max。
其中CPU部分為超寬執(zhí)行架構(gòu),性能核心擁有192KB的指令緩存,128KB的數(shù)據(jù)緩存和高達(dá)24MB(12MB*2)的二級緩存,而2個能效核心則同樣擁有128KB指令緩存,64KB數(shù)據(jù)緩存和4MB的L2緩存。其能效核心緩存的富裕程度,已經(jīng)超越了大多數(shù)安卓端所有手機SOC的超大核。
而在這樣超額的晶體管背后,還有著恐怖的性能和外圍電路。
▲M1 Max 芯片X光照片
最顯眼的,莫過于32核心蘋果自研GPU核心陣列,整齊地排列在處理器的中心,由控制器和總線連接著,旁邊是面積極大的片上SLC緩存,如果每一個緩存區(qū)域的大小是16M,整個處理器的SLC緩存可以達(dá)到64M。
盡管并不恰當(dāng),但這里可以拉來作個對比——目前主流安卓旗艦的處理器驍龍888,其L3緩存大小僅為4M!
左右兩邊則是4組128bit寬度的LPDDR5內(nèi)存控制器,共同組成了M1 Max“毀天滅地”的內(nèi)存最大帶寬,在滿配64G片上LPDDR5 6400內(nèi)存的前提下,最大帶寬達(dá)到了驚人的409.6GB/s。
而與之對比,桌面端intel的11代處理器11800H的最大內(nèi)存帶寬僅為51.2GB/s,這在一些內(nèi)存帶寬敏感的深度學(xué)習(xí)應(yīng)用中將會提供無與倫比的硬件優(yōu)勢。
說完“超大杯”,繼續(xù)看看“大杯”的M1 Pro。
M1Pro則是M1 Max這個“巨無霸”砍掉下半部分構(gòu)成的。但是即便如此,其晶體管總數(shù)仍達(dá)到了驚人的337億,并且還保留了32M的SLC緩存和2組128bit LPDDR5內(nèi)存控制器。當(dāng)然,“腰斬”后204.8GB/s的內(nèi)存帶寬依舊驚人。
擠完了“牙膏廠”,再來聊聊對于蘇媽以及皮衣老黃的沖擊。
如果不考慮各個架構(gòu)和平臺的差異以及各個API的效率差異,僅僅考慮GPU的浮點算力:
滿血的M1 Pro為16核心GPU,浮點算力高達(dá)5.2Teraflops(tflops),足以對標(biāo)AMD的RX5500顯卡或者NVIDIA的RTX 1660 Ti;
哪怕是小刀的M1 Pro(14核心),算力也達(dá)到了4.6tflops,直接對標(biāo)筆記本上滿血的RX5500M、RTX1650 Super;
而大哥M1 Max的滿血版更是恐怖如斯——浮點算力10.4TFlops,執(zhí)行單元4096個,并發(fā)線程數(shù)極限98304個,紋理填充率每秒3270億,像素填充率每秒1640億。直接可以對標(biāo)滿血的RTX2080,或者降低了功耗的縮水版RTX3080。
皮衣老黃贏的如此艱難,至于蘇媽,則需要祭出RX Vega56才能勉強將超越32核心GPU的滿血M1 Max。
在這里,需要再一次強調(diào)一點——正如本文一開始解讀的蘋果發(fā)布會PPT里的內(nèi)容,追上160w的RTX3080的浮點性能,M1 Max“滿血版”只需要60w的功耗。
02、但是,庫克,代價是什么呢?
回顧M1芯片推出之時,那是在2020年的11月,差不多一年前。
彼時的M1,就擁有和現(xiàn)在M1 Pro/Max一樣的單核心性能,而多核心性能的差距僅僅來自于核心數(shù)量從8變成了10。
GPU部分則更為簡單,M1擁有最高8個GPU核心,對應(yīng)M1 Pro和M1 Max的16核心/32核心,就是單純的1:2:4的性能關(guān)系,無論是3D Mark分?jǐn)?shù)還是浮點算力都是如此。
換而言之就是,在工藝沒有進(jìn)步的前提下,單核心一年時間沒有任何變化。
如果往回看蘋果A系列處理器的超大核心,每一代的進(jìn)步都是極其可觀的,但是從A12開始,這個進(jìn)步開始放緩,到A13/M1這一代,蘋果已經(jīng)開始部分依賴代工工藝的進(jìn)步和頻率的提升了。
而蘋果的對手,不知道是牙膏擠多了還是突然發(fā)力了,幾乎不約而同將在明年推出極其具有競爭力的競品。
首先是蘋果的老伙伴對手。
如無意外,2022年將會是“牙膏廠”GPU爆發(fā)元年。最新的Xe架構(gòu)GPU很快將會出現(xiàn),在Intel當(dāng)前制程工藝落后于臺積電(自然也就落后于使用臺積電先進(jìn)工藝的蘋果)的情況下,Intel仍預(yù)期將實現(xiàn)相對于蘋果當(dāng)前對比基準(zhǔn)線產(chǎn)品“大約一倍”的能效提升。
不要認(rèn)為這是吹牛,以目前泄漏的Intel DG2處理器滿配置512處理單元來看,蘋果在GPU上對Intel顯卡集群的優(yōu)勢將會迅速縮小。
▲未來Intel DG2移動端獨立顯卡的預(yù)估配置與參數(shù)
至于AMD,其RNDA2架構(gòu)也有著超過50%的預(yù)估提升。
目前蘋果在桌面產(chǎn)品上的優(yōu)勢,若以非專業(yè)人士的視角來看,對于友商競品而言堪稱碾壓性。但其代價就是:核心架構(gòu)在這一年將原地踏步,以及將為超大規(guī)模臺積電最新制程工藝而付出極高的成本。
須知在芯片設(shè)計領(lǐng)域,雖然同樣的技術(shù)條件下規(guī)模越大(也就是晶體管數(shù)量越多)某些程度上產(chǎn)品的表現(xiàn)會變得更好。但是事實上就半導(dǎo)體產(chǎn)品的技術(shù)指標(biāo)來說,同樣的性能發(fā)揮和功耗下,用的晶體管越少,越說明你的能力強大,因為這意味著企業(yè)能用更低的成本做出來。
半導(dǎo)體作為一個研發(fā)密集的產(chǎn)業(yè),其研發(fā)投入是固定投入,晶體管數(shù)量則是變動投入,隨著產(chǎn)品的量產(chǎn),大家自然希望固定投入占比越高越好,變動投入占比越低越好,實現(xiàn)同樣的功能,自然是晶體管越少越好。
03、蘋果的野望與國產(chǎn)的方向
很多人關(guān)心蘋果新M1 Pro/Max系列處理器的CPU和GPU性能,但是很多人忽略了蘋果在這幾年一直著重發(fā)力的另一個領(lǐng)域,NPU,也就是神經(jīng)處理單元。
NPU作為一種專用計算單元,對于神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)相關(guān)的運算相對于CPU/GPU這樣的通用計算單元有著他們無法比擬的能效與性能優(yōu)勢,在圖像識別,自然語言處理這類任務(wù)中NPU往往可以相對于CPU/GPU用更低的負(fù)載更高的速度更好的完成。
正因為優(yōu)點如此顯著,所以在移動端的許多未來應(yīng)用中,端側(cè)的NPU算力成為了許多公司的發(fā)展方向。無論是大陸的海思還是紫光,中國臺灣的聯(lián)發(fā)科,美國的高通,亦或者韓國的三星,他們的移動端處理器最近幾年都在朝著強化神經(jīng)網(wǎng)絡(luò)算力的方向發(fā)展,這些算力最終都會落地。
當(dāng)然,在這一點上,蘋果又走到了大家的前面。以蘋果在iOS 15中更新的“文字識別”功能為例,蘋果可以直接、實時,沒有任何延遲地讀取一張照片中的文字信息,并且允許用戶簡單的將其復(fù)制下來。
與之對比,類似的功能在安卓端,則通常需要例如小米傳送門或者華為智慧識屏的特有功能——通過長按觸發(fā)后經(jīng)過運算分析后讀取出來。這背后看似是功能的差異,實際上是算法和算力的巨大鴻溝,蘋果無感,無延遲,無范圍限制的文字識別,有非常大的概率是蘋果為未來的可穿戴智能設(shè)備對外界環(huán)境低功耗全時段無延遲感知進(jìn)行預(yù)先研發(fā)過程中的一個簡單成果落地。
僅僅有感和無感、有延遲和無延遲之間,到底有何差距?
我們不妨想象一下,未來的智能眼鏡允許用戶在轉(zhuǎn)頭一撇中,獲取足夠的信息,并且高效無感的為你處理完畢。因此,用戶就不在需要反復(fù)看一個公告、反復(fù)記憶一個地標(biāo)、反復(fù)的閱讀一個內(nèi)容,更不需要把他拍下來然后逐字逐句的讀取。
未來的智能穿戴設(shè)備或許可以直接幫你進(jìn)行閱讀和理解,拆分和挑選重點,在國外旅游時的菜單翻譯只需要一看就在瞬間完成替換,復(fù)雜公式的計算不再需要拍照錄入而是自動實時的完成,這對生活的便利程度提升是難以想象的,而這一切的背后都需要強大的算力與算法的支撐。
然而,這或許只是蘋果野心的一小部分。
國內(nèi)目前在做較為先進(jìn)制程芯片的公司有很多,大多數(shù)都是尋找臺積電這類代工廠進(jìn)行代工,少數(shù)會選擇中芯國際這類國內(nèi)的代工廠,同時也有大量的公司在做人工智能/神經(jīng)網(wǎng)絡(luò)相關(guān)的芯片研究與開發(fā),例如寒武紀(jì),地平線,芯原,中星微等等。
這個方向目前來說是一個獨立的,起跑線相對接近的賽道,不像ARM/X86架構(gòu)下國內(nèi)與國外起點就有十年的差距和大量的技術(shù)/專利壁壘,同時這也是未來社會快速發(fā)展的方向之一,背后蘊含著千億級別的龐大市場和需求。
微信號|汽車公社 C次元
作者:秋元明、查攸吟