美國加利福尼亞州10月10日,AMD Advancing AI 2024在舊金山Moscone Center舉行,這是當(dāng)?shù)刈畲蟮臅h和展覽綜合體。AMD當(dāng)天的活動,數(shù)百名開發(fā)者到達(dá)現(xiàn)場參加,<與非網(wǎng)>及國內(nèi)幾家行業(yè)媒體受邀參加了這次活動。
這是AMD今年在AI領(lǐng)域非常重要的一次發(fā)布,特別是面向數(shù)據(jù)中心,CPU、GPU、網(wǎng)絡(luò)技術(shù)這三大方向的最新進(jìn)展,堪稱是AMD的里程碑式突破,為AMD在數(shù)據(jù)中心下一階段的發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。
1530億晶體管、HBM3E內(nèi)存,性能怪獸AMD Instinct MI325X來襲
AMD于去年12月推出了Instinct MI300X加速器,這是AMD歷史上銷售業(yè)績表現(xiàn)增速驚人的產(chǎn)品,不到兩個(gè)季度內(nèi),銷售額就超過了10億美元。此外,業(yè)界普遍認(rèn)為這是首個(gè)真正能與NVIDIA在AI加速領(lǐng)域競爭,甚至實(shí)現(xiàn)了性能趕超的產(chǎn)品。
今年7月,AMD 2024年Q2財(cái)報(bào)發(fā)布后,AMD董事會主席及首席執(zhí)行官Lisa Su博士強(qiáng)調(diào),客戶對于Instinct系列和ROCm的路線圖反響積極,AMD很滿意目前在GPU領(lǐng)域的發(fā)展勢頭。預(yù)計(jì)數(shù)據(jù)中心GPU收入在2024年將超過45億美元,高于4月份預(yù)期的40億美元。
Advancing AI 2024上,AMD推出了下一代Instinct MI325X。它采用了和上一代MI300X同樣的CDNA 3架構(gòu),配備了256GB HBM3E內(nèi)存,能夠?qū)崿F(xiàn)6TB/秒的本地內(nèi)存帶寬。
根據(jù)AMD公布的數(shù)據(jù),Instinct MI325X的容量比NVIDIA H200增加 1.8 倍,帶寬提升 1.3 倍。與 H200相比,Instinct MI325X 在 FP16 和 FP8 的峰值理論計(jì)算性能上分別提升了 1.3 倍、2.6倍。從這些數(shù)據(jù)來看,Instinct MI325X在基礎(chǔ)模型訓(xùn)練、微調(diào)和推理方面將達(dá)到更高性能,有助于用戶在系統(tǒng)、機(jī)架和數(shù)據(jù)中心級別創(chuàng)建更高性能的AI 解決方案。
相較于H200,MI325X在運(yùn)行Mixtral 8x7B 時(shí)可提供 1.4 倍的推理性能(FP16),運(yùn)行Mistral 7B時(shí)可提供1.3 倍的推理性能(FP16),運(yùn)行Llama 3.1 70B 時(shí)可提供 1.2 倍的推理性能(FP8)。
AMD的CDNA3架構(gòu)已經(jīng)在MI300系列中得到了驗(yàn)證,它在性能、效率和可編程性都達(dá)到了新的高度,通過采用3D封裝技術(shù),它重新分配了處理器中的計(jì)算、內(nèi)存和通信元素,形成了異構(gòu)封裝。這種對物理實(shí)現(xiàn)的全新設(shè)計(jì),幫助AMD顯著提升計(jì)算和存儲等關(guān)鍵能力。
AMD Instinct MI325X預(yù)計(jì)于今年Q4開始生產(chǎn)出貨,并預(yù)計(jì)在 2025 年Q1,包括 Dell Technologies、Eviden、Gigabyte、Hewlett Packard Enterprise、Lenovo、Supermicro 等多家平臺供應(yīng)商將會廣泛提供相應(yīng)的產(chǎn)品。
此外,Instinct未來兩年的產(chǎn)品路線圖也在此次大會上予以公布,基于CDNA 4的MI350系列或?qū)⒂?025年下半年發(fā)布,它將繼續(xù)在內(nèi)存容量方面保持領(lǐng)先,每個(gè)加速器可支持高達(dá) 288GB 的 HBM3E 內(nèi)存,同時(shí)也將會比基于CDNA 3的加速器實(shí)現(xiàn)35倍的推理性能提升。2026年,更具雄心的MI400系列或?qū)⑼瞥?,該系列將會基于CDNA“下一代”架構(gòu)。
構(gòu)建生成式AI所需的網(wǎng)絡(luò)能力:Pensando Salina DPU+ Pensando Pollara 400
應(yīng)對生成式AI所帶來的大規(guī)模計(jì)算集群的顯著增長趨勢,超大規(guī)模數(shù)據(jù)中心的網(wǎng)絡(luò)能力越來越成為計(jì)算性能提升的關(guān)鍵。AMD正在通過可編程DPU提供下一代AI網(wǎng)絡(luò)支持。該網(wǎng)絡(luò)主要包括兩部分:前端負(fù)責(zé)向AI集群傳遞數(shù)據(jù)和信息,后端則管理加速器與集群之間的數(shù)據(jù)傳輸。
為了有效管理這兩部分網(wǎng)絡(luò),并在整個(gè)系統(tǒng)中實(shí)現(xiàn)高性能、可擴(kuò)展性和高效率,AMD推出了Pensando Salina DPU作為前端,以及行業(yè)首款符合超以太網(wǎng)聯(lián)盟(UEC)標(biāo)準(zhǔn)的AI網(wǎng)絡(luò)接口卡(NIC)——Pensando Pollara 400作為后端。
Pensando Salina DPU是AMD可編程DPU的第三代產(chǎn)品,相比上一代,其性能、帶寬和擴(kuò)展性提高了2倍,支持400G吞吐量。可實(shí)現(xiàn)快速數(shù)據(jù)傳輸?shù)腜ensando Salina DPU在AI前端網(wǎng)絡(luò)集群中至關(guān)重要,優(yōu)化了數(shù)據(jù)驅(qū)動AI應(yīng)用的性能、效率、安全性和可擴(kuò)展性。
Pensando Pollara 400搭載了AMD P4可編程引擎,是行業(yè)首款符合UEC標(biāo)準(zhǔn)的AI NIC。它支持下一代RDMA軟件,并由開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)支持,能夠在后端網(wǎng)絡(luò)中對加速器之間的通信提供了領(lǐng)先的性能、可擴(kuò)展性和效率。
成立于去年夏天的UEC在迅速壯大,目前已經(jīng)超過97家成員。該聯(lián)盟致力于構(gòu)建基于以太網(wǎng)的統(tǒng)一通信堆棧,以支持AI和HPC數(shù)據(jù)中心的高性能網(wǎng)絡(luò)連接需求。該聯(lián)盟的技術(shù)目標(biāo)包括開發(fā)超以太網(wǎng)通信的規(guī)范、API 和源代碼,更新現(xiàn)有協(xié)議,以及引入用于遙測、信令、安全和擁塞管理的新機(jī)制。
基于這些實(shí)現(xiàn)方式,UEC希望為業(yè)界在NVIDIA InfiniBand之外提供一種新的選擇。根據(jù)AMD最新公布的數(shù)據(jù),以太網(wǎng)RoCEv2方案比NVIDIA InfiniBand可實(shí)現(xiàn)50%的TCO降低;在更大規(guī)模的GPU集群連接方面,靈活性也極大提升,比起Infiniband最多4.8萬個(gè)GPU,以太網(wǎng)RoCEv2方案可支持超過100萬個(gè)GPU。
今年Q4,Pensando Salina DPU和Pensando Pollara 400將與客戶進(jìn)行樣品測試,預(yù)計(jì)在2025年上半年正式上市。
第五代AMD EPYC亮點(diǎn)密集:3/4nm、192核、5GHz頻率
根據(jù)最新的Mercury研究報(bào)告,AMD目前擁有34%的服務(wù)器CPU份額,達(dá)到了AMD史上新高。Lisa Su強(qiáng)調(diào),AMD已經(jīng)在數(shù)據(jù)中心基礎(chǔ)設(shè)施領(lǐng)域形成了深厚積淀,CPU一直在穩(wěn)健增長。經(jīng)過五代產(chǎn)品的更迭,如今,AMD EPYC CPU正在驅(qū)動下一個(gè)創(chuàng)新浪潮,更高效地為數(shù)據(jù)中心和IT環(huán)境創(chuàng)造價(jià)值。
第五代AMD EPYC處理器代號Turin,采用Zen 5架構(gòu),兼容廣泛部署的SP5平臺,核心數(shù)量范圍從8核最多可到192核。相比于Zen 4,Zen 5架構(gòu)在企業(yè)和云工作負(fù)載中,可提供最高17%的IPC提升,而在AI和高性能計(jì)算(HPC)中IPC提升可達(dá)37%。
在前幾代的基礎(chǔ)上,AMD EPYC 9005系列處理器進(jìn)一步提升了性能和能效,最高配置的192核CPU,性能相比競爭對手提升高達(dá)2.7倍。其主要特性包括:
- 每個(gè)CPU提供8至最多192的核心數(shù)量選擇,采用“Zen 5”和“Zen 5c”核心架構(gòu)
- 每個(gè)CPU支持12個(gè)通道的DDR5內(nèi)存
- 支持最高DDR5-6400 MT/s
- 領(lǐng)先的加速頻率高達(dá)5GHz
- 支持AVX-512,具有完整的512b數(shù)據(jù)通道
- 可信的I/O用于保密計(jì)算,系列中每個(gè)部件均在進(jìn)行FIPS認(rèn)證
該系列的64核的AMD EPYC 9575F專為需要強(qiáng)大主機(jī)CPU能力的GPU驅(qū)動AI解決方案量身打造,可提供最高5GHz的頻率,相較于競爭對手3.8GHz的處理器,處理速度提升28%。并且,可助力1000節(jié)點(diǎn)的AI集群每秒處理多達(dá)70萬token,更高效地完成更多任務(wù)。
采用AMD EPYC 9575F和MI300X的方案,與Intel 至強(qiáng)8592+和MI300X的方案相比,訓(xùn)練和推理性能分別可實(shí)現(xiàn)20%和8%的提升。
采用AMD EPYC 9575F和NVIDIA H100的方案,與Intel 至強(qiáng)8592+和NVIDIA H100的方案相比,訓(xùn)練和推理性能分別可實(shí)現(xiàn)15%和20%的提升。
根據(jù)AMD公布的最新資料,第五代AMD EPYC處理器在商業(yè)IT的各種服務(wù)器工作負(fù)載方面優(yōu)勢也在提升。使用基于AMD EPYC 9965處理器的服務(wù)器,與基于Intel Xeon 8592+ CPU的服務(wù)器相比,有如下優(yōu)勢:
- 在視頻轉(zhuǎn)碼等業(yè)務(wù)應(yīng)用中,結(jié)果生成時(shí)間提高最多4倍。
- 在解決全球最具挑戰(zhàn)性問題的科學(xué)和HPC應(yīng)用中,洞察時(shí)間提高最多3.9倍。
- 在虛擬化基礎(chǔ)設(shè)施中,每核性能提高最多1.6倍。
除了在通用工作負(fù)載中的性能和效率提升外,第五代AMD EPYC處理器還能夠快速實(shí)現(xiàn)AI部署,無論是運(yùn)行CPU還是CPU+GPU解決方案。與競爭對手相比,192核EPYC 9965 CPU在端到端AI工作負(fù)載(如TPCx-AI)上,性能提高最多3.7倍,這對推動高效的生成式AI方法至關(guān)重要。在中小型企業(yè)級生成式AI模型(如Meta的Llama 3.1-8B)中,EPYC 9965的吞吐量性能提高1.9倍。
第五代AMD EPYC處理器的全系列產(chǎn)品現(xiàn)已上市,得到了Cisco、Dell、Hewlett Packard Enterprise、Lenovo和Supermicro以及所有主要ODM和云服務(wù)提供商的支持。通過采用這些新處理器,客戶可在現(xiàn)代化數(shù)據(jù)中心,實(shí)現(xiàn)391,000個(gè)SPECrate @2017_int_base通用計(jì)算性能,獲得出色的多種工作負(fù)載性能,同時(shí)估計(jì)可節(jié)省71%的功耗和約87%的服務(wù)器數(shù)量。
AMD端到端AI布局全面強(qiáng)大
通過全面的布局,AMD端到端的AI布局已經(jīng)全面成型且逐漸強(qiáng)大。
除了面向數(shù)據(jù)中心的產(chǎn)品發(fā)布,AMD還在這次大會上推出了最新的銳龍 AI PRO 300系列商用移動處理器,這也是其適用于AI PC的第三代商用處理器,可為Windows Copilot+PC提供最高至55 TOPs AI算力的處理能力,這一出色性能也使得該處理器成為了行業(yè)新標(biāo)桿。
正如Lisa Su在會上所說,接下來的十年,AI還會帶來很多全新的體驗(yàn),計(jì)算會成為生活中更重要的一部分。一直以來,AMD在硬件上花了很多時(shí)間,而這才是提供AI完整路線圖的根本所在。如今,縱觀AMD的整個(gè)投資組合,全面的硬件產(chǎn)品線、開放的軟件生態(tài)等等,正在推動AMD成為端到端的AI領(lǐng)導(dǎo)者,打造更為有力的AI基礎(chǔ)設(shè)施解決方案。