巨胸喷奶水视频www免费网站,欧美日韩中文制服有码

過(guò)去十年，全球迎來(lái)一場(chǎng)AI革命，人工智能在各行各業(yè)引發(fā)了顛覆性的變革。在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、大規(guī)模語(yǔ)言模型等AI能力的加持下，自動(dòng)駕駛、生物醫(yī)藥、行業(yè)大模型、智算中心等行業(yè)和領(lǐng)域正迎來(lái)百萬(wàn)倍的效率飛躍。而這一切的背后，離不開(kāi)加速計(jì)算。

在昨日舉行的“2022 百度云智峰會(huì)·智算峰會(huì)”上，NVIDIA亞太區(qū)開(kāi)發(fā)與技術(shù)部總經(jīng)理李曦鵬分享了以“加速計(jì)算助力智能云深入產(chǎn)業(yè)”為題的演講，介紹了NVIDIA在加速計(jì)算領(lǐng)域的思考及洞見(jiàn)，包括NVIDIA如何與客戶(hù)一起探索互聯(lián)網(wǎng)行業(yè)的加速計(jì)算解決方案，實(shí)現(xiàn)端到端的極致性能優(yōu)化，以及加速計(jì)算可以如何助力云深入到行業(yè)。以下為內(nèi)容概要。

10年100倍，加速計(jì)算價(jià)值千億的巨大空間
我們首先看一下加速計(jì)算，以及各種計(jì)算任務(wù)（workload）如何上云。

對(duì)于一個(gè)現(xiàn)代的加速計(jì)算集群，這個(gè)集群可以是云上的一個(gè)高性能集群，也可以是客戶(hù)自建的一個(gè)加速計(jì)算集群。它們需要去承擔(dān)非常多種類(lèi)的計(jì)算任務(wù)，從AI任務(wù)到simulation（模擬或仿真），以及二者的組合Sim+AI，或者AI for Science，再到目前最火爆的數(shù)字孿生、量子計(jì)算等。大家可以看到，加速計(jì)算集群需要去支撐的計(jì)算任務(wù)非常豐富，實(shí)際上，這里還有大量，類(lèi)似于數(shù)據(jù)處理、云端渲染、信息召回，數(shù)據(jù)庫(kù)等也同樣需要去加速的計(jì)算任務(wù)沒(méi)有羅列出來(lái)。

大家可能會(huì)說(shuō)，上面的這些計(jì)算任務(wù)是一個(gè)數(shù)據(jù)中心的典型應(yīng)用，為什么要說(shuō)是加速計(jì)算集群的典型應(yīng)用呢？過(guò)去幾十年間，得益于摩爾定律，算力在持續(xù)增長(zhǎng)。但如今摩爾定律已經(jīng)放緩，從最初每年1.5-1.6倍性能的提升，下降到如今每年1.1倍左右的提升。與此同時(shí)，加速計(jì)算卻依然保持著每年1.6x以上的性能增速。五年可以實(shí)現(xiàn)10倍的性能提升，十年就可以實(shí)現(xiàn)100倍的提升，這與摩爾定律十年可以實(shí)現(xiàn)的4倍性能提升形成了顯著的差異。

另一個(gè)方面，碳足跡、能源消耗，以及機(jī)房空間等各個(gè)因素，都制約了傳統(tǒng)計(jì)算的規(guī)模擴(kuò)大。如果大家看一下使用了加速計(jì)算的Green 500前30的超級(jí)計(jì)算機(jī)，它們的平均效能比是其他超級(jí)計(jì)算機(jī)的7倍多。這不但帶來(lái)了能源的節(jié)省，也同時(shí)帶來(lái)了更低的成本，使得我們的計(jì)算任務(wù)，特別是以AI為代表的計(jì)算任務(wù)可以不斷地持續(xù)增加。

針對(duì)AI部分，和大家通常理解的只是模型訓(xùn)練和預(yù)測(cè)不同，NVIDIA一方面需要對(duì)整個(gè)工作流提供端到端的加速，另外，也需要通過(guò)對(duì)不同部分的模塊化，普惠到更多企業(yè)和終端用戶(hù)。NVIDIA在這方面一直引領(lǐng)業(yè)界，我們也提供了從基礎(chǔ)設(shè)施、調(diào)度、加速庫(kù)、加速框架、部署工具，一直到最上層的應(yīng)用框架的全套解決方案，也就是PPT中所展示的NVIDIA AI平臺(tái)軟件NVIDIA AI Enterprise。這里我就不具體展開(kāi)，只是舉一個(gè)例子。

我們以典型的AI模型端到端流程，介紹NVIDIA能提供什么支持。通常我們看到的，其實(shí)是圖中中間的兩個(gè)步驟，訓(xùn)練和預(yù)測(cè)，還有部分人在預(yù)測(cè)的時(shí)候也會(huì)簡(jiǎn)單使用框架進(jìn)行預(yù)測(cè)。但是實(shí)際上，問(wèn)題比這個(gè)復(fù)雜很多。

首先我們需要去做數(shù)據(jù)預(yù)處理，這里NVIDIA提供了RAPIDS （針對(duì)結(jié)構(gòu)化的數(shù)據(jù)），CV-CUDA（針對(duì)圖片數(shù)據(jù)）等各種解決方案。

數(shù)據(jù)預(yù)處理的一個(gè)難點(diǎn)，需要做到訓(xùn)練預(yù)測(cè)的一致性，減少調(diào)試過(guò)程。處理好的數(shù)據(jù)需要喂給模型訓(xùn)練，模型訓(xùn)練企業(yè)用戶(hù)可以選用不同的框架。NVIDIA加速了PyTorch、TensorFlow、JAX，還有國(guó)內(nèi)越來(lái)越流行的PaddlePaddle等框架。同時(shí)，也有TAO Toolkit來(lái)做遷移學(xué)習(xí)。

這里的一個(gè)難點(diǎn)是，需要做好數(shù)據(jù)預(yù)處理和訓(xùn)練的流水，避免頻繁的數(shù)據(jù)搬運(yùn)。有了模型之后，我們需要做預(yù)測(cè)優(yōu)化。TensorRT是現(xiàn)在精度最高、速度最快的深度學(xué)習(xí)推理優(yōu)化器，NVIDIA也在不斷提高它的性能，并與各個(gè)深度學(xué)習(xí)框架集成，降低使用門(mén)檻。有了加速預(yù)測(cè)的模型后，我們可以使用Triton來(lái)進(jìn)行大規(guī)模的部署。而實(shí)際使用中采集到的新數(shù)據(jù)，又可以用于訓(xùn)練。如果我們只是加速其中一部份，是沒(méi)有辦法達(dá)到模型的快速迭代，和實(shí)現(xiàn)整體性能的成倍提升，因此我們強(qiáng)調(diào)端到端的優(yōu)化。

剛才我們以AI為例，講到了AI 類(lèi)的計(jì)算任務(wù)如何可以被加速。但是實(shí)際上，目前世界上只有5%的計(jì)算任務(wù)被加速，這已經(jīng)是幾百億美金的市場(chǎng)。

未來(lái)十年，所有的計(jì)算任務(wù)都將被加速，包括現(xiàn)有的以及十倍于現(xiàn)階段的新計(jì)算任務(wù)！這將為加速計(jì)算市場(chǎng)帶來(lái)100倍的增長(zhǎng)空間！

NVIDIA在加速計(jì)算的探索與經(jīng)驗(yàn)
大家可能會(huì)覺(jué)得，NVIDIA真是高瞻遠(yuǎn)矚，早早落子各個(gè)行業(yè)的加速計(jì)算方案。但是實(shí)際上，今天大家看到的解決方案，都是NVIDIA基于客戶(hù)的實(shí)際需求，與客戶(hù)深入合作出來(lái)的。下面，我們用大家最為熟悉的互聯(lián)網(wǎng)行業(yè)作為例子，介紹NVIDIA如何與客戶(hù)一起，打造行業(yè)的加速計(jì)算解決方案。

這一頁(yè)對(duì)我們理解加速計(jì)算的價(jià)值非常重要，因?yàn)椋铀儆?jì)算的特點(diǎn)，決定了我們的工作方式。首先，加速計(jì)算對(duì)于應(yīng)用來(lái)說(shuō)，可以帶來(lái)數(shù)量級(jí)的性能提升，加速與沒(méi)加速的應(yīng)用，性能可能相差幾十倍甚至幾百倍。

第二，底層的庫(kù)，例如矩陣計(jì)算、快速傅立葉變換、排序、向量操作等，它有一定的普適性，但是上層的應(yīng)用通常有特異性，并非所有的優(yōu)化策略都可以自然而然地帶來(lái)上層應(yīng)用的優(yōu)化。這里沒(méi)有一個(gè)一勞永逸的方法。我們常常聽(tīng)到一些加速計(jì)算初學(xué)者說(shuō)自己使用了這樣或者那樣的優(yōu)化方法，為什么性能并不明顯？因?yàn)椋覀兊膬?yōu)化應(yīng)該是應(yīng)用導(dǎo)向，Profiling導(dǎo)向。

第三，根據(jù)Amdahl’s law，一個(gè)計(jì)算任務(wù)里面只有盡可能多的環(huán)節(jié)被加速才能帶來(lái)性能的大幅提升。舉個(gè)極端例子，如果一個(gè)計(jì)算任務(wù)，只有一半的部分被加速了，即使加速速度達(dá)到1000x，整個(gè)計(jì)算任務(wù)的加速上限也只有2x。因?yàn)樯蠈討?yīng)用的特異性，需要對(duì)整個(gè)工作流進(jìn)行優(yōu)化。而優(yōu)化帶來(lái)的巨大收益，我們需要更多地進(jìn)行軟硬協(xié)同的設(shè)計(jì)。所以，AI/HPC的核心是加速計(jì)算，而加速計(jì)算的核心是優(yōu)化，優(yōu)化，端到端的優(yōu)化！這需要，業(yè)務(wù)、算法、工程人員和優(yōu)化工程師的密切配合。這也是我今天最重要的一頁(yè)P(yáng)PT。

下面，我們以推薦系統(tǒng)，這個(gè)互聯(lián)網(wǎng)最重要的應(yīng)用為例，介紹NVIDIA如何與客戶(hù)一起，打造行業(yè)的加速計(jì)算解決方案。

目前NVIDIA在推薦系統(tǒng)方面已經(jīng)擁有了全鏈路的解決方案和產(chǎn)品。但是幾年前，我們最早和百度合作的時(shí)候還不是這個(gè)樣子。

大家可以看到，最著名的wide & deep模型是Google團(tuán)隊(duì)在2016年推出的，NVIDIA和行業(yè)客戶(hù)的深入合作則從2018年開(kāi)始。在一開(kāi)始，我們就針對(duì)NVIDIA的DGX高性能服務(wù)器來(lái)重新設(shè)計(jì)了推薦系統(tǒng)的訓(xùn)練方法和數(shù)據(jù)分布方式，并且后續(xù)的軟件、硬件演化都是在此基礎(chǔ)上不斷去解決新遇到的技術(shù)瓶頸。

我們?cè)谝婚_(kāi)始就是希望去解決TB級(jí)別以上的推薦系統(tǒng)的模型。在這個(gè)過(guò)程中的一些重要節(jié)點(diǎn)包括：NVIDIA Merlin的推出、DLRM進(jìn)入MLPerf、Merlin-HugeCTR將DLRM的訓(xùn)練時(shí)間推進(jìn)到1分鐘以?xún)?nèi)、Big-ANN-Benchmark將技術(shù)點(diǎn)從排序部分拓展到召回部分等等。另外，今年3月份推出的NVIDIA Grace Hopper SuperChip，更近一步推進(jìn)了推薦系統(tǒng)的進(jìn)化。這是一個(gè)軟硬協(xié)同設(shè)計(jì)、軟件適配硬件，應(yīng)用和軟件反過(guò)來(lái)推進(jìn)硬件架構(gòu)革新的典型例子。

我們?cè)賮?lái)看一下推薦系統(tǒng)技術(shù)架構(gòu)路線及其架構(gòu)的演化。大家注意，軟件架構(gòu)與硬件架構(gòu)的演進(jìn)是和應(yīng)用本身的發(fā)展息息相關(guān)，兩者是相輔相成的。軟硬件架構(gòu)的演進(jìn)為應(yīng)用和算法的演進(jìn)提供了可能性，而應(yīng)用和算法的演進(jìn)也對(duì)軟硬件架構(gòu)提出了新的要求。因此，我們稱(chēng)之為co-design。

我們回到這頁(yè)P(yáng)PT，從最左邊看，是在沒(méi)有深度學(xué)習(xí)時(shí)期的推薦系統(tǒng)，例如傳統(tǒng)的矩陣分解，協(xié)同過(guò)濾等。這個(gè)階段對(duì)于算力的要求其實(shí)并不高，因此通常直接采用CPU的方案。

而到了一些淺層DNN的引入，計(jì)算量有了適當(dāng)增加，embedding大小也持續(xù)增加，大家出于慣性，還是喜歡直接使用CPU。但是很自然，這樣的性能會(huì)受到節(jié)點(diǎn)間通信帶寬的限制，也就是再增加服務(wù)器的數(shù)目，對(duì)于提高計(jì)算速度沒(méi)有幫助。這個(gè)時(shí)候大家就想，我是不是應(yīng)該做加速計(jì)算？

而企業(yè)用戶(hù)很自然第一步，把DNN部分移到GPU上，這是因?yàn)?，一，這部分算力最大；另外，二，例如TensorFlow等深度學(xué)習(xí)工具，針對(duì)這一部分已經(jīng)提供了很好的支持。更進(jìn)一步，隨著DNN部分的加速，大家會(huì)發(fā)現(xiàn)瓶頸開(kāi)始往embedding和CPU-GPU之間的通信轉(zhuǎn)移，也就是CPU的內(nèi)存帶寬和PCIe的帶寬成為了新的瓶頸。

這個(gè)時(shí)候，下一代的技術(shù)演變就出現(xiàn)了，也就是把embedding table也進(jìn)行GPU加速，這里解決了兩個(gè)問(wèn)題，一個(gè)是內(nèi)存帶寬，GPU 的內(nèi)存帶寬高達(dá)2T～3TB/s，遠(yuǎn)遠(yuǎn)高于系統(tǒng)的內(nèi)存帶寬。另外，把embedding table移到GPU上，將CPU GPU之間通過(guò)PCIe的通信變?yōu)镚PU GPU之間NVLink的通信，這部分通信速度也得到了成倍的提高。這就有了NVIDIA的全GPU解決方案。

更進(jìn)一步，因?yàn)閑mbedding數(shù)據(jù)天然存在冷熱分布，因此可以利用系統(tǒng)內(nèi)存進(jìn)一步提升模型大小，同時(shí)保持訓(xùn)練速度，這個(gè)時(shí)候，NVIDIA的Grace Hopper、CPU和GPU之間的高速C2C互聯(lián)就起到了幫助。

我們觀察到，幾乎所有的重點(diǎn)客戶(hù)都已經(jīng)遷移到CPU+GPU的混合部署，而頭部客戶(hù)都有重點(diǎn)業(yè)務(wù)遷移到純GPU方案上，而業(yè)界領(lǐng)先的幾家公司都有在調(diào)研和開(kāi)發(fā)Grace Hopper的統(tǒng)一架構(gòu)。這是一個(gè)清晰的發(fā)展趨勢(shì)，各個(gè)公司有快有慢，但是加速計(jì)算的潮流是無(wú)法阻擋的。

對(duì)NVIDIA而言，推薦系統(tǒng)是一個(gè)完全誕生于中國(guó)、推廣到全世界的全新計(jì)算任務(wù)。在這個(gè)過(guò)程中，NVIDIA的經(jīng)驗(yàn)是，立足于客戶(hù)真正有價(jià)值的難題，和客戶(hù)一起攻堅(jiān)，實(shí)現(xiàn)端到端的性能優(yōu)化！

以推薦系統(tǒng)為例，NVIDIA的技術(shù)增長(zhǎng)飛輪是從解決模型推理線上時(shí)延的問(wèn)題，通過(guò)優(yōu)化，實(shí)現(xiàn)了幾十倍的性能提升，從而給廣告業(yè)務(wù)帶來(lái)顯著的收入提升，進(jìn)一步推動(dòng)了更多的模型研發(fā)，更復(fù)雜的模型開(kāi)始向 GPU 遷移，最后，引導(dǎo)整個(gè)工作流向GPU的遷移。

通過(guò)一個(gè)個(gè)關(guān)鍵難題的解決，客戶(hù)的更多計(jì)算任務(wù)在 GPU 上實(shí)現(xiàn)了性能加速，同時(shí)NVIDIA也沉淀出了Merlin 這樣的產(chǎn)品來(lái)降低推薦系統(tǒng)的進(jìn)入門(mén)檻，擴(kuò)大了用戶(hù)群體，帶動(dòng)新一輪的需求產(chǎn)生。這便是我們業(yè)務(wù)增長(zhǎng)的邏輯！

NVIDIA非常關(guān)注客戶(hù)計(jì)算任務(wù)中最關(guān)鍵的問(wèn)題，和客戶(hù)一起工作，一起為了端到端的極致優(yōu)化?？梢哉f(shuō)，加速計(jì)算的本質(zhì)就是實(shí)現(xiàn)性能極致優(yōu)化。而能實(shí)現(xiàn)這一點(diǎn)，除了NVIDIA帶來(lái)全棧計(jì)算能力之外，更重要的是我們有一批優(yōu)秀的優(yōu)化工程師，這是我們的核心生產(chǎn)力。

加速計(jì)算助力智能云深入產(chǎn)業(yè)
我們剛才看了一個(gè)互聯(lián)網(wǎng)的典型應(yīng)用，推薦系統(tǒng)。下面，我們來(lái)討論下，加速計(jì)算如何可以助力云深入到行業(yè)、產(chǎn)業(yè)。

以自動(dòng)駕駛行業(yè)為例，看看NVIDIA可以做些什么，讓技術(shù)飛輪轉(zhuǎn)動(dòng)起來(lái)。自動(dòng)駕駛是一個(gè)巨大的行業(yè)，麥肯錫的報(bào)告稱(chēng)其產(chǎn)業(yè)規(guī)?？蛇_(dá)8,660億美金。而行業(yè)的玩家也非常需要技術(shù)賦能，特別是基于AI的技術(shù)賦能。大家想到自動(dòng)駕駛行業(yè)，首先想到的還是車(chē)上的設(shè)備，比如多少個(gè)雷達(dá)，多少個(gè)攝像頭，用的什么芯片。其實(shí)這個(gè)行業(yè)遠(yuǎn)遠(yuǎn)不止這樣。

我們換個(gè)角度，從業(yè)務(wù)的端到端來(lái)看，從自動(dòng)駕駛汽車(chē)的設(shè)計(jì)、工程、仿真、制造、到銷(xiāo)售、服務(wù)，都存在著大量的計(jì)算任務(wù)需要去發(fā)掘和構(gòu)建。這里面的計(jì)算任務(wù)包括AI的計(jì)算任務(wù)、HPC的計(jì)算任務(wù)、數(shù)據(jù)科學(xué)的計(jì)算任務(wù)，還有數(shù)字孿生所帶來(lái)的各種機(jī)會(huì)。

這一切，誰(shuí)最懂？我們的客戶(hù)應(yīng)該最懂自己的需求。當(dāng)然，也有很多客戶(hù)，還沒(méi)有能將自己的需求和加速計(jì)算連接起來(lái)。而這個(gè)行業(yè)的解決方案，還有很多空白和等待我們?nèi)グl(fā)掘的地方。這就需要NVIDIA、百度智能云，一起深入到客戶(hù)一線，和客戶(hù)一起分析他們的計(jì)算任務(wù)，一起共創(chuàng)，找到真正關(guān)鍵的、有價(jià)值的計(jì)算任務(wù)，利用云設(shè)施、云服務(wù)，構(gòu)建基于加速計(jì)算的解決方案，并通過(guò)優(yōu)化好這些計(jì)算任務(wù)，實(shí)現(xiàn)業(yè)務(wù)價(jià)值，從而推動(dòng)更多的需求。

再舉一個(gè)例子，比如未來(lái)自動(dòng)駕駛汽車(chē)的設(shè)計(jì)，也是一個(gè)充滿(mǎn)想象力的領(lǐng)域。這里面需要大量的計(jì)算機(jī)輔助工程（CAE）。比如，基于流體力學(xué)的外型設(shè)計(jì)、基于材料力學(xué)和結(jié)構(gòu)力學(xué)的整車(chē)強(qiáng)度分析、基于熱物理的電池熱管理模擬、雷達(dá)天線方位和覆蓋范圍模擬等。這些都是典型的HPC應(yīng)用，更快的模擬速度、更低的模擬成本，可以加大設(shè)計(jì)的選擇空間和加快效果的驗(yàn)證。

目前，GPU已經(jīng)支持了主流的120多個(gè)CAE應(yīng)用，單就計(jì)算流體力學(xué)（CFD）部分，已經(jīng)可以帶來(lái)7x的成本節(jié)省和4x的電力消耗下降。并且，CFD也是AI for Science快速發(fā)展的領(lǐng)域，NVIDIA的Modulus，百度的Paddle AI+Science科學(xué)開(kāi)發(fā)套件，都可以進(jìn)一步加速CFD這一領(lǐng)域。

未來(lái)，汽車(chē)外型的氣動(dòng)設(shè)計(jì)可以變成一個(gè)自動(dòng)化的過(guò)程，會(huì)不會(huì)有更多優(yōu)秀的氣動(dòng)外形的車(chē)問(wèn)世？這將是一個(gè)讓人充滿(mǎn)遐想的領(lǐng)域。注意，這還只是整個(gè)產(chǎn)業(yè)鏈中，設(shè)計(jì)環(huán)節(jié)中CAE的一個(gè)例子而已。因此，在我看來(lái)，未來(lái)利用云設(shè)施、云服務(wù)，構(gòu)建基于加速計(jì)算的解決方案，大有可為！

最后，我想重新展示這張技術(shù)飛輪，和NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛今年10月份對(duì)于加速計(jì)算的判斷，作為分享的結(jié)束頁(yè)。