在去年的蘋果發(fā)布會上,其產(chǎn)品包含iMac全線切到使用蘋果自主研發(fā)并設(shè)計的芯片M1系列,這個系列芯片也代表著蘋果放棄x86架構(gòu),這一里程碑式性決定。關(guān)于其在架構(gòu)選擇方面的詳細(xì)解讀,可以參考之前的文章:
蘋果發(fā)布M1芯片放棄X86架構(gòu)
M1 Pro和Max都是去年M1的后續(xù)產(chǎn)品,M1是蘋果的第一代Mac芯片,它開啟了蘋果用自己的內(nèi)部設(shè)計取代基于x86芯片的征程。盡管M1速度很快,功耗表現(xiàn)也不錯,但它仍然是一個更小的SoC——仍然為iPad Pro系列等設(shè)備供電,以及相應(yīng)的較低的TDP(Thermal Design Power),自然還是輸給功能更加強勁地芯片,關(guān)于技術(shù)細(xì)節(jié),在之前的文章中均有提到,這里不再贅述。
那么我們已知評功的M1芯片,于其說是為了制造出一款非常強大的明星產(chǎn)品,不如說是為了其生態(tài)鏈完整產(chǎn)品形態(tài)而服務(wù)的。那么后續(xù)M1基礎(chǔ)上更新的動作,則更值得探究。
Apple M1,擁有4個大性能核心、4個高效核心和8-GPU,在一個5nm工藝節(jié)點上擁有160億個晶體管。
而新的M1 Pro: 10核CPU, 16核GPU, 337億個晶體管。
M1 Pro繼續(xù)使用定制性的封裝,蘋果是封裝SoC芯片和內(nèi)存芯片在一個單一的有機PCB, 這與其他傳統(tǒng)芯片,如AMD或英特爾的DRAM芯片形成對比,后者的特點是內(nèi)存插槽或焊接到主板上,蘋果的做法可能會顯著提高用電效率。
與M1相比,他們將M1 Pro的內(nèi)存總線增加了一倍,從128位LPDDR4X接口轉(zhuǎn)移到更寬更快的256位LPDDR5接口,承諾系統(tǒng)帶寬高達(dá)200GB/s。 我們不知道這個數(shù)字是否是精準(zhǔn)地,但是LPDDR5-6400接口的寬度將達(dá)到204.8GB/s。
上圖將AnandTech分享地M1與M1 Pro進(jìn)行對比,
M1 Pro內(nèi)存接口更加鞏固在SoC的兩個角上,而不是像M1那樣沿著兩條邊展開。 由于接口寬度的增加,我們看到內(nèi)存控制器占用了相當(dāng)大一部分SoC。 顯然在內(nèi)存控制器后面直接使用了兩個系統(tǒng)級緩存(SLC)塊,對比M1,SoC的系統(tǒng)級緩存4MB L2,它是跨所有IP塊共享的。
蘋果的SLC設(shè)計精巧,因為它們服務(wù)于整個SoC,能夠擴大帶寬,減少延遲,或者只是通過避免內(nèi)存處理與芯片分離,極來降低功耗。 這個新一代SLC塊看起來相當(dāng)不同于我們在M1上看到的。 SRAM單元區(qū)域看起來比M1的大,所以雖然我們現(xiàn)在不能確切地確認(rèn)這一點,但這可能意味著每個SLC塊中有16MB的緩存——對于M1 Pro來說,這意味著總SLC緩存32MB。
在蘋果首此發(fā)布M1時,筆者最終得出的結(jié)論時——這是一款可以足夠好服務(wù)于蘋果生態(tài)完整性的芯片產(chǎn)品,但是并不代表是一款最高性能的SOC,也并不能說明Arm架構(gòu)將徹底在與X86競爭的這場戰(zhàn)役中占上風(fēng)。本次發(fā)布的M1 Pro產(chǎn)品,在性能核心方面,蘋果現(xiàn)在增加了一倍,達(dá)到8核。曾經(jīng),蘋果的M1多線程性能方面落后于其他8核SOC,但隨著本次新品的推出,M1 Pro必然在多線程操作的過程中有著更加突出的表現(xiàn)。畢竟ARM,基本上可以稱之為精簡指令集(RISC)的代名詞,而針對設(shè)計超高性能的臺式機和服務(wù)器處理器,Intel的優(yōu)勢更加明顯。所以顯然,從蘋果進(jìn)階的芯片產(chǎn)品推出的方向看,他們更希望能夠在保持低功耗的RISC基礎(chǔ)上,可以讓芯片的多線程處理性能進(jìn)一步提升。
蘋果似乎鏡像了兩個4核塊,L2緩存也被鏡像。 雖然蘋果在這里引用了24MB的L2,但Anandtech認(rèn)為這是一個2x12MB的設(shè)置,使用的是類似AMD核心的設(shè)置。
在CPU性能指標(biāo)方面,蘋果與競爭對手進(jìn)行了一些比較,特別是這里比較的sku是英特爾的酷睿i7-1185G7和酷睿i7-11800H,這是英特爾最新的Tiger Lake 10nm“superin”CPU的4核和8核版本
蘋果的展示的運行測試結(jié)果顯示,在多線程性能方面,這兩款新芯片都大大超過了英特爾提供的任何芯片,而且功耗大大降低。 所呈現(xiàn)的性能/功率曲線顯示,在30W等功率使用情況下,新M1 Pro和Max的CPU吞吐量比11800H快1.7倍,其功率曲線非常陡峭。 然而,在同等的性能水平下——在本例中使用11800H的峰值性能——蘋果表示,新款M1 Pro/Max實現(xiàn)了同樣的性能,功耗降低了70%。 這兩個數(shù)字之間存在巨大差異,遠(yuǎn)遠(yuǎn)超過了英特爾目前的成績。
但是筆者隱約記得在去年在發(fā)布會中,蘋果表示,這是世界上最快的CPU。但是想要真正評估,我們最好真的看一下Firestorm CPU內(nèi)核的微架構(gòu)。根據(jù)我們現(xiàn)有可以得到的信息有限,從蘋果官網(wǎng)注明的測試基準(zhǔn),其實重點在于運行順暢,比如Safari瀏覽器上網(wǎng),JavaScript的運行速度提升,睡眠模式喚醒等等,這個測試方式還是對macOS系列的產(chǎn)品有優(yōu)勢的。(筆者注,具體的測試方式Apple 于 2020 年 8 月和 10 月使用 JetStream 2、MotionMark 1.1 和 Speedometer 2.0 性能基準(zhǔn)對完成測試的瀏覽器進(jìn)行了此項測試。測試使用預(yù)發(fā)行版 Safari 14,以及 Chrome、Firefox 和 (Windows) Microsoft Edge 在測試時的最新穩(wěn)定版本,以及配備 Intel Core i5 處理器的 13 英寸 MacBook Pro 系統(tǒng),運行預(yù)發(fā)行版 macOS Big Sur,并用啟動轉(zhuǎn)換運行 Windows 10 Home)
除了強大的CPU綜合體,蘋果還在擴大其自定義GPU架構(gòu)。 M1 Pro現(xiàn)在采用了16核GPU,宣傳的計算吞吐量性能為5.2 TFLOPs。更大的GPU將被更寬的內(nèi)存總線支持,以及大概32MB的SLC——后者本質(zhì)上類似于AMD的Infinity Cache。(筆者注:AMD推出的Infinity Cache架構(gòu),主要目標(biāo)是希望解鎖游戲場景下,從1080p到4K的升級,否則,沿用傳統(tǒng)設(shè)計方式,則可能需要超級昂貴且消耗巨大的512位內(nèi)存總線,無限緩存位于主計算核心集群的旁邊,本質(zhì)上充當(dāng)一個小型但有效的內(nèi)存存儲。 它位于較小的L1和L2緩存之間,也在GPU本身)
據(jù)稱,蘋果的GPU性能大大超過了任何上一代競爭對手的集成顯卡性能,因此該公司選擇直接與中端筆記本電腦的IGPU進(jìn)行比較。 在這種情況下,M1 Pro與GeForce RTX 3050 Ti 4GB芯片進(jìn)行了對比,蘋果芯片在功耗降低70%的情況下實現(xiàn)了相似的性能。 這里顯示的功率水平約為30W,但是還不清楚是系統(tǒng)功率,SOC功率或者知識在比較GPU模塊本身的功耗。但是不可否認(rèn)的是,蘋果Mac系列產(chǎn)品圖形處理能力越發(fā)強大。
至此,本次發(fā)布會依然有驚喜,繼M1 Pro之后,M1 Max更加令人眼前一亮,因為本質(zhì)上并不是我們常見的SOC+GPU的方式,它更像是GPU+SOC,實際上此類的應(yīng)用配搭在消費類電子領(lǐng)域不太常見,更像是工業(yè)自動化領(lǐng)域做數(shù)據(jù)處理,外圍電路用簡單MCU控制的方式。
M1 Max的封裝更大,并且DRAM芯片從2增加到4,這也對應(yīng)于內(nèi)存接口寬度從256位增加到512位。400GB/s的巨大帶寬,如果它是LPDDR5-6400,可能更準(zhǔn)確地說是409.6GB/s。 這種帶寬基本上只出現(xiàn)在高端GPU中而不是傳統(tǒng)SoC。
根據(jù)上圖可以看到,對比M1 Pro整體上部的架構(gòu)還是近似的,另外兩個128位LPDDR5塊很明顯,而且有趣的是,它們還增加了SLC塊的數(shù)量。 如果確實是每個塊16MB,那么整個SoC就可以使用64MB的片上通用緩存。
在如此巨大的內(nèi)存帶寬資源下,或許除了顯卡的作用,也在功能上有其他方面的考量,筆者猜測這里與機器學(xué)習(xí)相關(guān)的模塊有相關(guān)性。畢竟在對比i9等core的同類型產(chǎn)品,跑相同的ML Model,M1 Max的速度會快很多。
綜上,畢竟ARM使用精簡指令集,芯片子模塊的門控時鐘和電源開關(guān)通常是設(shè)計電路時就決定的。在后端設(shè)計方面,諸如處理電壓,時鐘等問題,控制在輸入電壓切換的時候產(chǎn)生的動態(tài)功耗和關(guān)斷模塊的漏電功耗至關(guān)重要??傮w來講,這個可能需要結(jié)合軟件系統(tǒng)來看,比如app workflowdata數(shù)據(jù)的手機,可以幫助優(yōu)化MacOS給中央處理器的各個核心分配的多線程任務(wù)等等。擁有自主OS的硬件在產(chǎn)品迭代的思路上有更多不可復(fù)制性。