加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

NVIDIA Grace Hopper超級芯片橫掃MLPerf推理基準測試

2023/09/12
2488
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

從云端到網絡邊緣,NVIDIA GH200、H100和L4 GPU以及Jetson Orin模組在運行生產級 AI 時均展現出卓越性能。

NVIDIA GH200 Grace Hopper超級芯片首次亮相 MLPerf 行業(yè)基準測試,其運行了所有數據中心推理測試,進一步擴大了NVIDIA H100 Tensor Core GPU的領先優(yōu)勢。

總體測試結果表明,NVIDIA AI 平臺無論是在云端還是網絡邊緣均展現出卓越的性能和通用性。

此外,NVIDIA宣布推出全新推理軟件,該軟件將為用戶帶來性能、能效和總體擁有成本的大幅提升。

GH200 超級芯片在 MLPerf 一騎絕塵

GH200將一顆Hopper GPU和一顆Grace CPU連接到一個超級芯片中。這種組合提供了更大內存、更快帶寬,能夠在CPU和GPU之間自動切換計算所需要的資源,實現性能最優(yōu)化。

具體而言,內置8顆H100 GPU 的 NVIDIA HGX H100系統(tǒng),在本輪每項MLPerf推理測試中均實現了最高吞吐量。

Grace Hopper 超級芯片和H100 GPU在所有MLPerf數據中心測試中均處于領先地位,包括針對計算機視覺、語音識別和醫(yī)學成像的推理,以及應用于生成式AI的推薦系統(tǒng)和大語言模型(LLM) 等對性能要求更高的用例。

總體而言,此次測試結果延續(xù)了自2018年MLPerf基準測試推出以來,NVIDIA在每一輪AI訓練和推理中都處于領先性能的紀錄。

最新一輪MLPerf 測試包括一項更新的推薦系統(tǒng)測試,并新增首個GPT-J上的推理基準測試。GPT-J是一個由60億個參數組成的大語言模型(LLM),而AI模型的大小通常根據它有多少參數來衡量。

TensorRT-LLM 大幅提升推理能力

為了應對各類復雜的工作負載,NVIDIA開發(fā)了一款能夠優(yōu)化推理的生成式AI軟件——TensorRT-LLM。該開源庫使客戶能夠在不增加成本的情況下將現有H100 GPU的推理性能提升兩倍以上。由于時間原因,TensorRT-LLM沒有參加8月的MLPerf提交。

NVIDIA的內部測試表明, 在運行 GPT-J 6B 模型時,相較于沒有使用TensorRT-LLM的上一代GPU,在H100 GPU上使用TensorRT-LLM能夠實現高達8倍的性能提升。

該軟件始于NVIDIA在對Meta、AnyScale、Cohere、Deci、Grammarly、Mistral AI、MosaicML(現為Databricks的一部分)、OctoML、Tabnine和Together AI等領先公司進行加速和優(yōu)化LLM推理時所做的工作。

MosaicML在TensorRT-LLM 的基礎上添加了所需的功能,并將這些功能集成到他們現有的服務堆棧中。Databricks工程副總裁Naveen Rao表示:“這已成為相當輕而易舉的事情?!?/p>

Rao補充說:“TensorRT-LLM 簡單易用、功能豐富且高效。它為正在使用NVIDIA GPU的 LLM服務提供了最先進的性能,并使我們能夠將節(jié)省的成本回饋給我們的客戶?!?/p>

TensorRT-LLM 是NVIDIA全棧AI平臺持續(xù)創(chuàng)新的最新實例。這類持續(xù)的軟件進步為用戶帶來了無需額外成本即可實現隨著時間不斷提升的性能,并且廣泛適用于多樣化的AI工作負載。

L4為主流服務器增強推理能力 在最新MLPerf基準測試中,NVIDIA L4 GPU 運行了所有工作負載,并全面展現了出色的性能。

例如,在緊湊型72W PCIe 加速器中運行時,L4 GPU的性能比功耗超出其近5倍的CPU提高了6倍。

此外,L4 GPU具有專用媒體引擎,與CUDA軟件搭配使用,在NVIDIA的測試中為計算機視覺提供了高達120倍的加速。

谷歌云和許多系統(tǒng)制造商現已支持L4 GPU,為從消費互聯網服務到藥物研發(fā)各行業(yè)的客戶提供服務。

大幅提升邊緣性能

此外,NVIDIA采用了一種全新模型壓縮技術來展示在一個L4 GPU上運行BERT LLM的性能提升高達4.7倍。該結果體現在MLPerf的“開放分區(qū)”中,這個類別旨在展示新能力。

這項技術有望應用于所有AI工作負載。它尤其適用于在空間和功耗受限的邊緣設備上運行模型。

在另一個體現邊緣計算領導力的例證中,NVIDIA Jetson Orin模塊化系統(tǒng)將邊緣AI機器人應用場景中常見的計算機視覺用例——目標檢測的性能比上一輪測試提升高達84%。

Jetson Orin性能的提升得益于軟件可以充分利用該芯片的最新核心,如一個可編程視覺加速器、一顆NVIDIA Ampere架構GPU和一個專用深度學習加速器等。

靈活的性能與龐大的生態(tài)

MLPerf基準測試是透明且客觀的,因此用戶可以根據其結果做出明智的購買決定。該測試還涵蓋了豐富的用例和場景,能夠讓用戶獲得可靠且可以靈活部署的性能。

本輪提交測試結果的合作伙伴包括微軟 Azure和Oracle Cloud Infrastructure 等云服務提供商以及華碩、Connect Tech、戴爾科技、富士通、技嘉、惠與、聯想、QCT、超微等系統(tǒng)制造商。

總體而言,MLPerf 已得到70多家機構的支持,包括阿里巴巴Arm、思科、谷歌、哈佛大學、英特爾、Meta、微軟和多倫多大學等。

請閱讀技術博客,詳細了解我們如何實現這些最新的成果。

NVIDIA在基準測試中使用的所有軟件均可從 MLPerf 軟件庫中獲得,因此每個人都能實現全球領先的結果。我們不斷將這些優(yōu)化措施整合到NVIDIA NGC軟件中心的容器中供GPU應用使用。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
B3B-PH-K-S(LF)(SN) 1 JST Manufacturing Board Connector, 3 Contact(s), 1 Row(s), Male, Straight, Solder Terminal, ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.13 查看
TP-108-02-1-T 1 Components Corporation Interconnection Device, ROHS COMPLIANT
$1.28 查看
33012-2001 1 Molex Wire Terminal, 1.5mm2, HALOGEN FREE AND ROHS COMPLIANT

ECAD模型

下載ECAD模型
$0.12 查看
英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。收起

查看更多

相關推薦

電子產業(yè)圖譜