“在加速計(jì)算領(lǐng)域深耕 25 年,英偉達(dá)致力于在 GPU 加速計(jì)算領(lǐng)域勇當(dāng)先鋒,解決普通計(jì)算機(jī)無法解決的問題。我們?yōu)楫?dāng)代的愛因斯坦、達(dá)芬奇和米開朗琪羅們打造計(jì)算機(jī),為在座的各位打造計(jì)算機(jī)”NVIDIA GTC CHINA 2019 大會開始,英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛為本次活動打下注腳。
2019 年 12 月 18 日,NVIDIA GTC CHINA 2019 主題大會在蘇州國際會議中心召開,本屆 GTC CHINA 也以有超過 6100 人參會的規(guī)模創(chuàng)有史以來之最。
英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛
當(dāng)前時代,隨著摩爾定律的終結(jié),GPU 加速計(jì)算正在逐漸成為未來發(fā)展方向,英偉達(dá)在此深耕 25 年之久,通過軟件堆棧優(yōu)化,多 GPU 和多節(jié)點(diǎn)系統(tǒng)實(shí)現(xiàn)高效的計(jì)算加速。截止到現(xiàn)在,英偉達(dá)已經(jīng)售出 15 億塊 GPU,均采用和兼容 CUDA 架構(gòu)。
英偉達(dá)致力如此,旨在通過出色的芯片性能和全棧優(yōu)化實(shí)現(xiàn)摩爾定律加速。
黃仁勛表示,僅在去年,我們就發(fā)布了 500 多個 SDK 和庫,其中既有全新內(nèi)容,也有更新版本。為了提高 GPU 性能,深度學(xué)習(xí)訓(xùn)練在 3 年內(nèi)提高 4 倍,深度學(xué)習(xí)推理在 1 年內(nèi)提高 2 倍。
在后面的演講中,黃仁勛談到了 AI 變革新動向,以及英偉達(dá)在自動駕駛、游戲和醫(yī)療以及建筑等新領(lǐng)域多個行業(yè)的新進(jìn)展。英偉達(dá)將 GPU、深度專業(yè)知識、計(jì)算堆棧、算法和生態(tài)系統(tǒng)知識集于一身,立足 CUDA 架構(gòu),布局多樣化市場。
自動駕駛領(lǐng)域:自主機(jī)器平臺 DRIVE AGX Orin
現(xiàn)場,英偉達(dá)發(fā)布用于自動駕駛和機(jī)器人的高度先進(jìn)的軟件定義平臺——DRIVE?AGX?Orin。
DRIVE?AGX?Orin
Orin 可處理在自動駕駛汽車和機(jī)器人中同時運(yùn)行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò),能夠支持從 L2 級到 L5 級完全自動駕駛汽車開發(fā)的兼容架構(gòu)平臺,助力 OEM 開發(fā)大型復(fù)雜的軟件產(chǎn)品系列。由于 Orin 和 Xavier 均可通過開放的 CUDA、TensorRT API 及各類庫進(jìn)行編程,因此開發(fā)者能夠在一次性投資后使用跨多代的產(chǎn)品。
(點(diǎn)擊圖片可看大圖)
Orin 平臺內(nèi)置全新 Orin 系統(tǒng)級芯片,晶體管數(shù)量達(dá)到 170 億個,集成 NVIDIA 新一代 GPU 架構(gòu)和 Arm Hercules CPU 內(nèi)核以及全新深度學(xué)習(xí)和計(jì)算機(jī)視覺加速器,每秒可運(yùn)行 200 萬億次計(jì)算,幾乎是 NVIDIA 上一代 Xavier 系統(tǒng)級芯片性能的 7 倍。此外,Orin 可處理在自動駕駛汽車和機(jī)器人中同時運(yùn)行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò),并且達(dá)到了 ISO 26262 ASIL-D 等系統(tǒng)安全標(biāo)準(zhǔn)。NVIDIA DRIVE AGX Orin 計(jì)劃于 2022 年開始投產(chǎn)。
在汽車領(lǐng)域,黃仁勛還宣布,英偉達(dá)將在 NVIDIA GPU Cloud (NGC)?容器注冊上,向交通運(yùn)輸行業(yè)開源 NVIDIA DRIVE 自動駕駛汽車開發(fā)深度神經(jīng)網(wǎng)絡(luò)。如今,NVIDIA 向自動駕駛汽車開發(fā)者開源其預(yù)訓(xùn)練 AI 模型和訓(xùn)練代碼。通過一套 NVIDIA AI 工具,NVIDIA 生態(tài)系統(tǒng)內(nèi)的開發(fā)者們可以自由擴(kuò)展和自定義模型,從而提高其自動駕駛系統(tǒng)的穩(wěn)健性與能力。
現(xiàn)場,英偉達(dá)宣布和滴滴合作,滴滴將在數(shù)據(jù)中心使用 NVIDIA GPU 訓(xùn)練機(jī)器學(xué)習(xí)算法,并采用 NVIDIA DRIVE 為其 L4 級自動駕駛汽車提供推理能力。為了訓(xùn)練這些深度神經(jīng)網(wǎng)絡(luò),滴滴將采用 NVIDIA GPU 數(shù)據(jù)中心服務(wù)器。在云計(jì)算方面,滴滴還將構(gòu)建領(lǐng)先的 AI 基礎(chǔ)架構(gòu),并推出計(jì)算型、渲染型和游戲型 vGPU 云服務(wù)器。(詳情見下方鏈接:英偉達(dá)與滴滴合作詳情)
計(jì)算圖優(yōu)化編譯器:重磅發(fā)布 TensorRT 7
TensorRT 是一種計(jì)算圖優(yōu)化編譯器,以深度學(xué)習(xí)為框架,以訓(xùn)練得到的模型為輸入,尋找計(jì)算圖中可以融合的節(jié)點(diǎn)和邊,從而減少計(jì)算和內(nèi)存訪問。TensorRT 7 是繼去年 GTC 大會發(fā)布 TensorRT 5 之后的升級版本,彌補(bǔ)了 TensorRT 5 僅支持 CNN 的不足。
TensorRT 7 支持各種類型的 RNN,Transformer 和 CNN。相比 TRT5 只支持 30 種模型,TRT 7 能夠支持多達(dá) 1000 種不同的計(jì)算變換和優(yōu)化。TRT 7 能夠融合水平和垂直方向的運(yùn)算,可以為開發(fā)者設(shè)計(jì)的大量 RNN 配置自動生成代碼,逐點(diǎn)融合 LSTM 單元,甚至可跨多個時間步長進(jìn)行融合,并盡可能做自動低精度推理。此外,英偉達(dá)在 TensorRT 7 中引入一個內(nèi)核生成功能,用任何 RNN 可生成一個優(yōu)化的內(nèi)核。
同時,會話式 AI 是 TensorRT 7 強(qiáng)大功能的典型代表,一套端到端會話式 AI 的流程可能由二三十種模型組成,用到 CNN、RNN、Transformer、自編碼器、NLP 等多種模型結(jié)構(gòu)。推理會話式 AI,CPU 的推理延遲是 3 秒,現(xiàn)在使用 TensorRT 7 在 T4 GPU 上推理僅 0.3s 就完成,比 CPU 快 10 倍。
游戲領(lǐng)域新進(jìn)展
游戲業(yè)務(wù)撐起英偉達(dá)的半壁江山。這句話在英偉達(dá) 2020 財(cái)年 Q3 財(cái)報(bào)可以印證,英偉達(dá)第三季度收入達(dá) 30.1 億美元,其中游戲業(yè)務(wù)為 16.6 億美元。
現(xiàn)場,黃仁勛宣布了 6 款支持 RTX 的游戲,為《暗影火炬》《project X》《無限法則》《軒轅劍柒》《鈴蘭計(jì)劃》《邊境》,表明 RTX 技術(shù)的開發(fā)者數(shù)量飆升。
除此之外,英偉達(dá)還創(chuàng)造出了 Max-Q 設(shè)計(jì),將超高的 GPU 能效和總體系統(tǒng)優(yōu)化集于一身,可以用于輕薄的高性能筆記本電腦。
同時,隨著云計(jì)算的普及,云游戲也將越來越普及。黃仁勛在 GTC China 2019 上也宣布,英偉達(dá)與騰訊游戲合作推出 START 云游戲服務(wù),該服務(wù)已從今年初開始進(jìn)入測試階段。RTX GPU 是英偉達(dá)去年最重磅的發(fā)布,可以看到其在持續(xù)推動這項(xiàng)技術(shù)更多的應(yīng)用。(相關(guān)詳情請點(diǎn)擊鏈接查看:英偉達(dá)與騰訊合作詳情)
機(jī)器人領(lǐng)域:NVIDIA ISAAC 機(jī)器人 SDK
面向機(jī)器人領(lǐng)域,黃仁勛宣布推出全新 NVIDIA Isaac 機(jī)器人 SDK,大大加快開發(fā)和測試機(jī)器人的速度,使機(jī)器人能通過仿真獲得由 AI 驅(qū)動的感知和訓(xùn)練功能,從而可以在各種環(huán)境和情況下對機(jī)器人進(jìn)行測試和驗(yàn)證,并節(jié)省成本。
Isaac SDK 包括 Isaac Robotics Engine(提供應(yīng)用程序框架),Isaac GEM(預(yù)先構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)模型、算法、庫、驅(qū)動程序和 API),用于室內(nèi)物流的參考應(yīng)用程序,并引入 Isaac Sim 訓(xùn)練機(jī)器人,可將所生成的軟件部署到在現(xiàn)實(shí)世界中運(yùn)行的真實(shí)機(jī)器人中。其中,基于攝像頭的感知深度神經(jīng)網(wǎng)絡(luò)有對象檢測、自由空間分割、3D 姿態(tài)估計(jì)、2D 人體姿態(tài)估計(jì)等模型。(詳細(xì)內(nèi)容請點(diǎn)擊鏈接:ISAAC 機(jī)器人 SDK 詳情)
其他領(lǐng)域進(jìn)展
云渲染平臺:現(xiàn)場,黃仁勛宣布瑞云云渲染平臺將配備 NVIDIA RTX GPU,首批 5000 片 RTX GPU 將在 2020 年上線。其中超過 85%的中國電影工作室都是瑞云的客戶,《戰(zhàn)狼 2》、《哪吒》和《流浪地球》就是出自其手,堪稱全亞洲最大的云渲染平臺。
建筑行業(yè)(AEC):黃仁勛還發(fā)布了面向 AEC 的 Omniverse 開放式 3D 設(shè)計(jì)協(xié)作平臺,本地和云端均支持在 AEC 工作流中增加實(shí)時協(xié)作功能,將支持 Autodest REVIT、Trimble SketchUP 和 McNeel Rhino 等主流 AEC 應(yīng)用。NVIDIA Omniverse 是一個面向 3D 制作流程的協(xié)作平臺,基于 Pixar 公司的 Universal Scene Description 技術(shù),并由 NVIDIA RTX 提供支持。
推薦系統(tǒng) AI:AI 技術(shù)如今在數(shù)據(jù)分析和挖掘、高性能計(jì)算中發(fā)揮著更加重要的作用,英偉達(dá)已經(jīng)推出了面向訓(xùn)練、云端、終端、自動駕駛的 AI 平臺。AI 對于擁有大量數(shù)據(jù)的科技公司尤為重要,比如推薦系統(tǒng),如果沒有推薦系統(tǒng),人們無法從上萬億次網(wǎng)頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內(nèi)容。因此,一個能夠深度理解每一個用戶,在正確時間給出正確的推薦的推薦系統(tǒng)極為關(guān)鍵。
百度和阿里巴巴的推薦系統(tǒng)都在使用英偉達(dá) AI 技術(shù)。
百度 AIBox 推薦系統(tǒng)采用英偉達(dá) AI,100 多個推薦模型被使用在百度的眾多應(yīng)用中。這個系統(tǒng)基于英偉達(dá) Telsa v100 GPU,利用這些 TB 級的數(shù)據(jù)集去創(chuàng)建一個模型、在 GPU 上訓(xùn)練這些數(shù)據(jù),然后把它放到 GPU 的內(nèi)存當(dāng)中去訓(xùn)練這種 TB 級別的數(shù)據(jù),GPU 訓(xùn)練成本只有 CPU 的十分之一,并且支持更大規(guī)模的模型訓(xùn)練。
阿里巴巴搭建的推薦系統(tǒng)采用了英偉達(dá)的 T4 GPU,推薦系統(tǒng)的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求,CPU 速度只有 3 QPS,英偉達(dá) GPU 則提升到了 780 QPS,提升百倍。(詳情請點(diǎn)擊下方鏈接:英偉達(dá)與阿里巴巴合作詳情)
NVIDIA Parabricks 基因組分析工具包:此外,英偉達(dá)還發(fā)布了基于 CUDA 加速的 NVIDIA Parabricks 基因組分析工具包,可與用于發(fā)現(xiàn)變異并能產(chǎn)生與行業(yè)標(biāo)準(zhǔn) GATK 最佳實(shí)踐流程一致的結(jié)果,實(shí)現(xiàn) 30-50 倍的加速。英偉達(dá)正在與華大基因合作,使用 CUDA 的生命科學(xué)超級計(jì)算機(jī),以每天 60 個基因組的超大吞吐量改變著全基因組測序,同時還降低了成本。
會后媒體采訪環(huán)節(jié),英偉達(dá)自主機(jī)器產(chǎn)品管理部門主管 Murali Gopalakrishna 及英偉達(dá)企業(yè)市場兼開發(fā)者計(jì)劃全球副總裁 Greg Estes 介紹了英偉達(dá)在自主機(jī)器和深度學(xué)習(xí)學(xué)院(DLI)方面的進(jìn)展。
英偉達(dá)自主機(jī)器產(chǎn)品管理部門主管 Murali Gopalakrishna
?
針對英偉達(dá)自主機(jī)器平臺,Murali Gopalakrishna 介紹道:“英偉達(dá)自主機(jī)器平臺——NVIDIA Jetson 模塊可提供不同性能和價(jià)格水平的加速計(jì)算功能,以滿足多種自主應(yīng)用程序的需求。Jetson 系列包含 Jetson Nano 模塊、Jetson TX2 模塊、Jetson Xavier NX 模塊以及 Jetson AGX Xavier 模塊等產(chǎn)品。
(點(diǎn)擊可看大圖)
從制造到建筑,從醫(yī)療到配送,NVIDIA Jetson 平臺均能提供無與倫比的性能、能效和易開發(fā)性。每個系統(tǒng)都是一個完備的模塊化系統(tǒng) (SOM),具備 CPU、GPU、PMIC、DRAM 和閃存,可節(jié)省開發(fā)時間和資金。Jetson 還具備可擴(kuò)展性。只需選擇適合應(yīng)用場合的 SOM,即能夠以此為基礎(chǔ)構(gòu)建自定義系統(tǒng),滿足特定的應(yīng)用需求?!?/p>
DLI 部分,Greg Estes 表示,DLI 提供 AI、加速計(jì)算和加速數(shù)據(jù)科學(xué)方面的應(yīng)用開發(fā)實(shí)踐培訓(xùn),以期解決實(shí)際應(yīng)用方面的問題?;谠贫?GPU 平臺,開發(fā)者、數(shù)據(jù)科學(xué)家、研究人員和院校師生可以獲取和豐富相關(guān)的實(shí)踐經(jīng)驗(yàn),并獲得全球開發(fā)者培訓(xùn)證書,為職業(yè)發(fā)展提供有力證明。所有課程可以長期、多次、反復(fù)學(xué)習(xí)和實(shí)驗(yàn)。
英偉達(dá)企業(yè)市場兼開發(fā)者計(jì)劃全球副總裁 Greg Estes
個人學(xué)習(xí)可以從“在線自主培訓(xùn)”開始。團(tuán)體或企業(yè)培訓(xùn)可以從“講師指導(dǎo)的培訓(xùn)班”開始學(xué)習(xí)。DLI 同時為大學(xué)師生提供更多的培訓(xùn)資源和支持。
上述詳細(xì)內(nèi)容可以在英偉達(dá)官網(wǎng)查看。
寫在最后
可以看到,英偉達(dá)在本屆活動上大秀 AI、汽車、游戲、HPC 能力,同時宣布多個領(lǐng)域的朋友圈等生態(tài)進(jìn)展。
作為迄今 AI 深度學(xué)習(xí)紅利的最大受益者,英偉達(dá)以高性能的軟硬件和系統(tǒng)為基礎(chǔ),持續(xù)豐富其 AI 和自動駕駛生態(tài),不斷尋找核心場景加速落地。
在“AI 復(fù)興”時代,英偉達(dá)在致力于成為“AI 引擎”的道路上馳騁著。