作者 |??ZeR0,編輯?|??漠影
芯東西7月16日報道,首批搭載AMD銳龍AI 300系列移動處理器和銳龍9000系列桌面處理器的AI PC設(shè)備將于本月月底開始發(fā)售!面向AI PC市場,AMD終于亮出積攢已久的大招。
在上周洛杉磯舉行的AMD Tech Day上,AMD向全球媒體奉送了大把猛料,將從臺式機到筆記本電腦的一系列AI PC產(chǎn)品策略傾囊相告。多位AMD高管深度揭秘了全新Zen 5微架構(gòu)、RDNA 3.5 GPU架構(gòu)和新一代XDNA 2 NPU架構(gòu)的技術(shù)細節(jié)和測試結(jié)果。
本地運行Windows 11中的Copilot Plus功能,至少需要有40TOPS算力的NPU。AMD聲稱其專為AI加速設(shè)計的XDNA 2架構(gòu)帶來了“世界上最強大的NPU”,AI性能可達到50TOPS,比蘋果M4的AI神經(jīng)引擎、英特爾Lunar Lake NPU、高通驍龍X NPU算力都要高!
第三代銳龍AI處理器已支持本地運行70億參數(shù)、2K輸入序列長度的大模型,產(chǎn)生第一個token用時1000~4000ms,每秒可生成20個token,并正向支持300億參數(shù)大模型、支持2K-3K輸入序列長度、每秒生成100個token的目標(biāo)進發(fā)。
除了AI算力外,Zen 5均衡的性能增益、更長續(xù)航、新超頻功能、對主流游戲的支持等表現(xiàn),都令人印象深刻。AMD正將Zen 5應(yīng)用于整個產(chǎn)品系列,消費端的銳龍AI 300系列移動處理器和銳龍9000系列臺式機處理器采用臺積電4nm制程,計劃下半年發(fā)布的代號為“Turin”的EPYC服務(wù)器處理器則將采用臺積電4nm和3nm制程。
首批銳龍9000系列桌面處理器將于7月31日發(fā)布,包括4個SKU:16核銳龍9 9950X、12核銳龍9 9900X、8核銳龍7 9700X、6核銳龍5 9600X。其中銳龍9 9950X被AMD稱作是“最快的消費級桌面處理器”。首批銳龍AI 300系列移動處理器有2個SKU:銳龍AI 9 HX 370和銳龍AI 9 365。AMD稱這是“AMD技術(shù)的巔峰”、“唯一不妥協(xié)的AI PC解決方案”,具備全生態(tài)系統(tǒng)兼容性、完整PC產(chǎn)品組合、Copilot就續(xù)和第三代AI體驗、領(lǐng)先性能、全天候電池壽命五大優(yōu)勢。
AMD 3D V-cache處理器有望在今年晚些時候以銳龍9000X3D的命名推出。同樣基于Zen 5的第五代AMD EPYC服務(wù)器處理器(“Turin”)將于今年下半年上市,將提供多達192個核心和384個線程,采用了臺積電4nm和3nm工藝技術(shù),并通過可信IO增強安全性。
從云計算、健康、工業(yè)、汽車、連接、PC、游戲到機器人,AMD正全面賦能AI,相信AI將是開啟PC新一輪進化的關(guān)鍵,未來將實現(xiàn)基于自然語言的人機交互、AI代理以及無縫、始終在線、AI數(shù)據(jù)驅(qū)動的用戶體驗。這正是AMD去往的方向。
AMD聲稱,只有AMD能夠提供從云端、企業(yè)級到AI PC完整的AI技術(shù)平臺。
01.銳龍9000系列:TDP變低,性能更強,超頻功能亮了
AMD銳龍9000臺式機處理器(代號為Granite Ridge)有16個Zen 5核心和32個線程,兼容AM5主板,和銳龍7000系列使用相同的I/O芯片。AMD承諾AM5將是一個長壽的平臺。
Zen 5 CPU核心(CCD)采用臺積電4nm工藝技術(shù),IOD采用臺積電6nm工藝技術(shù)。旗艦芯片銳龍9 9950X有兩個Zen 5 CCD和一個IOD,提供16個核心、32個線程、4.3GHz基本時鐘頻率和最高5.7GHz的加速時鐘頻率、80MB緩存(64MB L3+16MB L2),TDP為170W。
銳龍9 9900X有12個核心、24個線程、4.4GHz基本時鐘頻率和最高5.6GHz的加速時鐘頻率、76MB L3緩存,TDP為120W。與24核英特爾酷睿i9-14900K相比,12核銳龍9 9900X的生產(chǎn)力和內(nèi)容創(chuàng)作性能提高了2%~41%,游戲性能提高了4%~22%。
在AI加速方面,運行Mistral開源大語言模型,AMD銳龍9 9900X的速度比酷睿i9-14900K快20%。
銳龍7 9700X有8個核心、16個線程,基本時鐘頻率為3.8GHz,加速時鐘頻率最高為5.5GHz,緩存為40MB(32MB L3+8MB L2),TDP低至65W。將8核銳龍7 9700X與20核英特爾酷睿i7-14700K對比,游戲性能增幅在4%~31%區(qū)間。
AMD銳龍7 5800X3D被認(rèn)為是市場上最強大的游戲處理器之一。AMD稱常規(guī)銳龍7 9700X能以65W的較低TDP提供前者以105W功耗實現(xiàn)的幾乎相同的性能。
最后,入門級SKU 銳龍5 9600X只有6個核心、12個線程,基本時鐘頻率為3.9GHz,加速時鐘頻率最高達5.4GHz,緩存為38MB,TDP僅有65W。與14核酷睿i5-14600K相比,6核銳龍5 9600X在生產(chǎn)力和內(nèi)容創(chuàng)作方面的優(yōu)勢就更明顯了,特別是HandBrake的跑分高達94%,游戲性能也有5%~29%的領(lǐng)先。
總的來說,這些SKU的TDP都比前代更低,同時性能和能效變得更高。
銳龍9000系列的整體熱阻比上一代提高了15%,在相同TDP下將運行溫度降低了7℃。
銳龍9000系列改進了超頻功能,例如最新AGESA支持DDR5-8000內(nèi)存;其他新功能包括新的內(nèi)存超頻和內(nèi)存優(yōu)化性能配置文件功能、DDR5-5600內(nèi)存(JEDEC標(biāo)準(zhǔn))。
AMD還提供了一個“曲線整形器”,支持用戶在動態(tài)調(diào)整電壓頻率曲線,在保持穩(wěn)定性的同時更詳細地控制功率、電壓和頻率。
如果用戶希望優(yōu)先考慮性能而非效率,特別是對于多線程工作負(fù)載,較低的默認(rèn)TDP意味著在啟用PBO時有更多的額外性能空間。在啟用PBO后,三款銳龍9000系列處理器分別實現(xiàn)了6%~15%的性能提升。
這些功能將出現(xiàn)在現(xiàn)有的X600系列和即將推出的X800系列主板上。高端X870E和X870主板將配備至少一個USB 4.0端口,而低端B850和B840芯片組將使用USB 3.2。
X系列主板將支持其GPU和SSD的PCIe Gen 5標(biāo)準(zhǔn),B840則僅支持PCIe Gen 3。
02.第三代銳龍AI:最強NPU AI性能,叫板英特爾高通蘋果
本地AI PC有很多云端AI所不具備的優(yōu)勢,如保護隱私和數(shù)據(jù)安全、減少延遲和響應(yīng)時間等。AMD第一代銳龍AI處理器帶來了超過50款系統(tǒng),前兩代帶來超過150款系統(tǒng),而隨著第三代銳龍AI處理器走向市場,將有超過300款系統(tǒng)采用銳龍AI技術(shù)。
有第三代AMD銳龍AI處理器加持的Copilot+PC,能暢跑Recall、視頻字幕、實時翻譯、Co-creator等最新AI功能。OEM大廠們也能基于第三代銳龍AI處理器實現(xiàn)更好的AI體驗,比如宏碁LiveArt通過動作捕捉生成相同姿勢的圖像、華碩StoryCube進行一站式文件管理、惠普 Al Companion用AI優(yōu)化設(shè)備性能。AMD還宣布了一款A(yù)I圖像生成工具AMUSE 2.0 Beta,支持文生圖、圖生圖,而且能將用戶手繪草圖變成精美的圖像,現(xiàn)已支持華碩Zenbook S16觸控筆。
用于筆記本電腦的AMD銳龍AI 300系列移動處理器(“Strix Point”),被AMD稱作是“銳龍AI 300是其在AI旅程中開創(chuàng)性的一步”。
該處理器廣泛支持覆蓋超過10萬個Windows游戲、3500萬個Windows應(yīng)用程序、60億臺Windows設(shè)備的全Windows生態(tài)系統(tǒng),可用于從超薄本、便攜本、游戲本到內(nèi)容創(chuàng)作、商用本和移動工作站等不同類型的產(chǎn)品。銳龍AI 300系列采用Zen 5 CPU+XDNA 2 NPU+RDNA 3.5 GPU的架構(gòu)組合,目前只公布了兩個SKU,TDP范圍為15~54W。
銳龍AI 9 HX 370是旗艦芯片,擁有12個核心和24線程,最高升壓頻率達5.1GHz;銳龍AI 9 365擁有10個核心,最高升壓頻率可達5.0GHz。兩款都配備了24 MB L3緩存。性能上,對比英特爾酷睿Ultra 9 185H、高通驍龍X Elite XIE-84-100,銳龍AI 9 HX 370在運行App啟動、Office生產(chǎn)力、網(wǎng)頁瀏覽等生產(chǎn)力任務(wù)方面均性能領(lǐng)先,領(lǐng)先幅度高達30%。
在內(nèi)容創(chuàng)作任務(wù)上,銳龍AI 9 HX 370也表現(xiàn)出色,3D渲染Blender性能高達酷睿Ultra 9 185H的3.8倍。
在技術(shù)日現(xiàn)場,華碩展示了包括Zenbook S 16,ProArt P16,ProArt PX13在內(nèi)的多款新一代AI PC產(chǎn)品。和搭載蘋果M3芯片的MacBook Air 15相比,搭載銳龍AI 9 HX 370的 Zenbook S16(華碩靈耀16 Air)在跑AI、多工作流、3D渲染、圖像處理、游戲等任務(wù)時都快得多。
相比搭載M3 Pro芯片的新款Macbook Pro,搭載銳龍AI 9 HX 370的ProArt筆記本電腦跑分也更勝一籌,分?jǐn)?shù)高出15%。
為了幫助開發(fā)者加速開發(fā)下一代AI應(yīng)用,AMD還打造了豐富的銳龍AI軟件,支持超過1000種AI模型。
其統(tǒng)一AI軟件棧能夠幫助更多ISV獲得更好的AI體驗。
03.Zen 5微架構(gòu):IPC平均提升16%,單核機器學(xué)習(xí)性能提升32%
相比Zen 4,全新Zen 5架構(gòu)更強大、更節(jié)能,采用更快、更小、更低功耗的晶體管,啟用4nm和3nm制程技術(shù),產(chǎn)品類別覆蓋從桌面、服務(wù)器、客戶端到嵌入式。從內(nèi)部細節(jié)來看,Zen 5帶來了更多每周期傳送指令、雙倍的緩存數(shù)據(jù)帶寬和AI加速,改進了分支預(yù)測的準(zhǔn)確性、吞吐量和延遲,增強的指令緩存延遲和帶寬優(yōu)化進一步促進了數(shù)據(jù)流和數(shù)據(jù)處理速度,同時不會犧牲準(zhǔn)確性。
Zen 5的整數(shù)執(zhí)行能力也有所升級,具有8位寬調(diào)度/退出系統(tǒng),優(yōu)化了并行性;內(nèi)部改進部分包括6個算術(shù)邏輯單元(ALU)和3個乘法器,通過更統(tǒng)一的ALU調(diào)度程序進行控制,并采用了更大的執(zhí)行窗口,從而能支持更多的操作。
其他增強功能還有更高的數(shù)據(jù)帶寬,配備48KB 12路L1數(shù)據(jù)緩存,可滿足4周期負(fù)載。AMD將L1緩存的最大帶寬和浮點單元翻番,并改進了數(shù)據(jù)預(yù)取,以確保更快更可靠的數(shù)據(jù)訪問與處理。
此外,上一代Zen 4支持AVX-512指令是使用兩個相互協(xié)作的256位數(shù)據(jù)通路,而Zen 5擁有完整的512位AI數(shù)據(jù)通路,使用具有完整512位數(shù)據(jù)通路的AVX-512,并將浮點加法的延遲從3個周期減少到2個周期。一些搭載于筆記本電腦的Zen 5移動處理器仍支持“雙泵”256位。
AMD提供了一些基礎(chǔ)測試數(shù)據(jù)。相比上一代Zen 4,Zen 5將IPC平均提高了約16%,跑《孤島驚魂6》游戲性能提升10%,并在數(shù)學(xué)加速單元上取得突破,單核機器學(xué)習(xí)性能提升多達32%,單核AES-XTS性能提升多達35%。
對數(shù)據(jù)帶寬、調(diào)度/退出和解碼/操作緩存的優(yōu)化,給Zen 5帶來了非常均衡的性能增益。獲取/分支預(yù)測的影響較小,但性能提升顯著。
04.XDNA 2 NPU:空間數(shù)據(jù)流架構(gòu),拉滿本地AI性能
AMD相信NPU是AI PC不可或缺的功能,能提供遠高于CPU和GPU的AI能效比。而AMD銳龍AI是世界上第一款集成NPU的x86處理器,也即AMD第一代的銳龍AI處理器銳龍7040系列。
全新XDNA 2 NPU有32個AI引擎Tile,比上一代多12個,每個Tile的MAC數(shù)量是上一代的2倍,片上內(nèi)存是上一代的1.6倍,AI性能達到50TOPS。
與第一代的銳龍7040系列的NPU相比,XDNA 2的算力提高到5倍,能效翻倍。
與其他NPU不同,AMD XDNA 2的架構(gòu)設(shè)計構(gòu)建于靈活的空間數(shù)據(jù)流架構(gòu)之上。這是一個具有智能互連的二維AI計算陣列,可在運行時動態(tài)編程并重新配置以創(chuàng)建自定義計算層次結(jié)構(gòu)。
XDNA 2將靈活的計算和自適應(yīng)內(nèi)存層級結(jié)構(gòu)相結(jié)合,使用互聯(lián)的AI引擎(AIE)網(wǎng)絡(luò),每個引擎都經(jīng)過精心設(shè)計,可以動態(tài)適應(yīng)任務(wù),提高可擴展性和效率。可編程互聯(lián)大大降低了對內(nèi)存帶寬的需求,使其能高效分配資源。
XDNA 2引入了對塊狀浮點Block FP16的支持,通過采用額外的技巧,試圖以8位運算的性能和速度提供接近16位運算的精度。
相比INT8和BF16,Block FP16能夠更好地兼顧對高吞吐量、模型存儲、大模型精度的平衡。
與FP32基線相比,Block FP16幾乎沒有精度損失。
AMD演示了在Block FP16數(shù)據(jù)類型上運行Stable Diffusion XL Turbo來實現(xiàn)超快速的圖像生成。跑70億參數(shù)的Llama v2大語言模型時,第三代銳龍AI NPU的速度達到英特爾酷睿Ultra 7 155H NPU的5倍。
技術(shù)日現(xiàn)場演示了在第三代AMD銳龍AI處理器上運行Llama 2-7B的AI RAG,問答非常流暢。
05.RDNA 3.5 GPU:大幅優(yōu)化能效比,領(lǐng)跑多款熱門游戲
在圖形顯示方面,AMD為新iGPU引入了RDNA 3.5,針對每瓦性能進行了優(yōu)化?;赗DNA 3.5的Radeon 890M集成顯卡最多有16個CU單元(GPU核心)。銳龍AI 9 HX 370配備了16個,銳龍AI 9 365配備了12個。
AMD認(rèn)為15W是平衡性能和效率的神奇數(shù)字。與上一代相比,配備RDNA 3.5的新處理器運行3DMark Timespy和3DMark Night Raid等圖形工作負(fù)載時,在15W情況下性能分別提高了32%、19%。
相比上一代,Radeon 890M的紋理采樣率、插值和比較率都是上一代的2倍,有助于改善游戲畫面的圖形細節(jié)和紋理,顯著提高其有效執(zhí)行復(fù)雜圖形操作的能力和速度。改進的內(nèi)存管理技術(shù)降低了內(nèi)存訪問頻率,能夠?qū)崿F(xiàn)更好的功率優(yōu)化和數(shù)據(jù)處理,有助于延長電池壽命。
從游戲基準(zhǔn)測試結(jié)果來看,銳龍AI 9 HX 370暢玩7款熱門游戲,性能比高通驍龍X Elite、英特爾酷睿Ultra 9-185H更具競爭力,幀數(shù)最高超出對手65%。由于兼容性問題,驍龍X Elite有3款游戲(《孤島驚魂6》、《F1 2022》、《刺客信條:幻景》)都不能玩。
AMD還演示了Radeon 890M集顯在全高清分辨率下以60fps運行《對馬島之魂》,不過不確定有沒有啟用FSR3和幀生成。
06.結(jié)語:殺進AI PC大混戰(zhàn),AMD要做“不妥協(xié)”之選
AI正在改變工作、交流和娛樂的方式,算力需求也從數(shù)據(jù)中心逐漸下沉到終端設(shè)備。經(jīng)過大半年的探索,AI PC已是科技圈絕對的潮流,從PC整機廠到ISV和芯片企業(yè)都在探索如何打造出最能擊中消費者需求的AI PC樣板間。隨著搭載全新銳龍AI處理器的OEM產(chǎn)品首批AI PC在本月上市,AMD即將踩下油門,與蘋果、英特爾、高通等入局者競速。誰能為更輕薄、更智能、更長電池壽命的AI PC提供更強的動力,誰就有望在日益激烈的AI PC硬件競賽中占據(jù)上風(fēng)。從官方成績來看,AMD顯然不容小覷。在Zen 5架構(gòu)上實現(xiàn)提高性能和能效的雙管齊下,將進一步鞏固AMD在游戲臺式機市場的地位。AI性能登頂?shù)腦DNA 2 NPU,則使其移動處理器對于以AI生產(chǎn)力為賣點的新一代AI PC更具吸引力。AI PC市場方興未艾。在通往拉滿端側(cè)智能體驗的路上,AMD銳龍AI想成為AI PC市場上“唯一不妥協(xié)”的那個選擇。