隨著ChatGPT的爆火,黃仁勛最近頻頻強調(diào):“我們正處于AI的iPhone時刻”。GTC上,他對媒體詳解了這一觀點的由來,在他看來——一個新的計算平臺已經(jīng)開發(fā)出來了。
過去大約每15年一波的科技潮流中,不論是PC革命、互聯(lián)網(wǎng)革命、云計算、移動云等等,每一波潮流都創(chuàng)建出了一個新的計算平臺,新的應用程序由此產(chǎn)生,業(yè)界用一種新的方式對計算機進行編程。而這一次,ChatGPT劃時代地“使人類語言成為新的編程方式”。
“我們只需要告訴ChatGPT想要什么,它就可以理解我們的意圖,給出令人驚嘆的結(jié)果”,黃仁勛說道,“這意味著,人們可以用任何語言‘編程’,不論是英語、中文、法語、日語……人工智能的發(fā)展正因此而變得更加通用——這是一個臨界點的時刻,也是非常重要的過渡?!?/p>
ChatGPT背后的AI超級計算機
毫無疑問,NVIDIA技術(shù)是這一波生成式 AI發(fā)展的基礎(chǔ),黃仁勛講述了NVIDIA如何在變革初期就已參與進來。早在2016年,他就向OpenAI親手交付了第一臺NVIDIA DGX AI超級計算機,這也是支持ChatGPT大型語言模型突破背后的引擎。
黃仁勛表示:“如果把加速計算比作曲速引擎,那么AI就是動力來源。生成式AI的非凡能力,使得企業(yè)產(chǎn)生了緊迫感,他們需要重新構(gòu)思產(chǎn)品和商業(yè)模式?!?/p>
值得一提的是,最初作為 AI 研究儀器使用的NVIDIA DGX超級計算機現(xiàn)已在世界各地的企業(yè)中全天候運行,用于完善數(shù)據(jù)和處理 AI?!敦敻弧?00 強企業(yè)中有一半都安裝了DGX AI超級計算機。
而隨著ChatGPT大型語言模型連接到辦公自動化、辦公應用程序和生產(chǎn)力應用程序等,AI將無所不在,而DGX 超級計算機將有望成為“現(xiàn)代AI工廠”。
無止境的算力需求下,如何實現(xiàn)“可持續(xù)”計算?
伴隨生成式AI的爆發(fā)式應用,一個可預見的趨勢是:AI模型、數(shù)據(jù)量將越來越大,導致所需的算力規(guī)模也越來越大。與傳統(tǒng)計算相比,GPU的耗電量也是業(yè)界的“吐槽點”。那么,在這樣的趨勢下,NVIDIA如何應對能耗問題,從而符合綠色節(jié)能的可持續(xù)發(fā)展方向?
黃仁勛告訴<與非網(wǎng)>,可持續(xù)非常重要,也是NVIDIA的關(guān)注重點。他指出,AI加速計算在當今世界的計算中只占很小一部分。事實上,在過去40年的發(fā)展中,世界上絕大多數(shù)計算都是由摩爾定律驅(qū)動的。但是,在過去5年左右,摩爾定律開始急劇放緩,這是因為我們在逼近物理學的極限,我們可以縮小晶體管,但不能縮小原子。一個隨之而來的挑戰(zhàn)就是:如果摩爾定律結(jié)束,世界會發(fā)生什么?
“現(xiàn)在,我們需要的計算量更大了。但是,性能每提高10倍,或吞吐量提高10倍,功耗就增加10倍、成本增加10倍,這是不可持續(xù)的”,黃仁勛表示,“因此,我們首要做的一件事就是加快每一個可能的工作量?!?/p>
加速計算之所以有效,就因為它是全棧的。它發(fā)明了新的軟件、新的算法、新的芯片、新的系統(tǒng),對于每個應用程序域,通過執(zhí)行這樣全棧的操作,可以將計算性能顯著提升。例如在計算光刻領(lǐng)域,作為EDA工作中計算最密集的應用程序,加速計算可以將其性能提高50倍、功耗和成本降低近10倍。
“這就是加速計算要做的事情,一項接一項工作負載、一個接一個應用程序域”,黃仁勛表示。比如在數(shù)據(jù)中心,通過加速工作負載,就可以減少電力使用,從而可以將其轉(zhuǎn)移到新的增長中?!叭绻ㄟ^加速回收10倍的動力,想象一下我們有多少增長機會?”,他強調(diào)。
至于實現(xiàn)可持續(xù)發(fā)展的具體手段是什么?黃仁勛強調(diào),“第一,我們必須加快應用程序的速度;第二就是AI。”他解釋說,我們今天用于仿真模擬的方法是所謂的第一原理,它基本適用于物理定律。(注:在物理中,第一原理(First Principle)是指不需要任何經(jīng)驗設(shè)定與擬合參數(shù),只從最基本的物理定律出發(fā),就可以推出系統(tǒng)的基本性質(zhì)。)
就像小狗能夠跳起來接住拋到空中的球一樣,它能夠僅憑經(jīng)驗就預測到球的飛行位置,訓練AI也是如此,“我們通過教AI物理定律,可以讓AI有能力將計算量減少1萬或10萬倍。一旦AI可以利用知識、利用技能來預測物理,就可以有效節(jié)省計算量,從而節(jié)約能源”,黃仁勛指出。
加速計算光刻的“iPhone時刻”
正如上文中黃仁勛提到的計算光刻應用,隨著當前生產(chǎn)工藝接近物理學極限,NVIDIA將加速計算引入到計算光刻領(lǐng)域,通過cuLitho助力ASML、TSMC和Synopsys等半導體頭部企業(yè)加速新一代芯片的設(shè)計和制造。
據(jù)了解,TSMC、Synopsys 正在將NVIDIA cuLitho 計算光刻技術(shù)軟件庫整合到最新一代 NVIDIA Hopper架構(gòu)GPU的軟件、制造工藝和系統(tǒng)中。ASML也正在就GPU和cuLitho與NVIDIA 展開合作,并計劃在其所有計算光刻軟件產(chǎn)品中加入對 GPU 的支持。
在計算光刻領(lǐng)域引入加速計算的意義究竟是什么?
毋庸置疑,芯片產(chǎn)業(yè)幾乎是每一個行業(yè)的基礎(chǔ)。而在半導體制造過程中,光刻技術(shù)決定著芯片晶體管的尺寸,NVIDIA cuLitho 計算光刻技術(shù)軟件庫可為2納米及更高工藝奠定基礎(chǔ)。
類似于在攝影中將底片上的圖像曝光到相紙上一樣,光刻工藝利用光在硅晶圓上生成表示芯片設(shè)計的圖案。計算光刻的作用就是補償因衍射或光學、抗蝕劑和蝕刻鄰近效應而導致的任何圖像誤差。借助OPC軟件,開發(fā)者可以利用算法和數(shù)學方法以及大量仿真工作來操控光線,從而實現(xiàn)計算光刻過程。
這個過程涉及到利用各種各樣的“假設(shè)”場景來找到正確的配置,以盡可能地提高轉(zhuǎn)印圖案的準確性。例如,在光線周圍投射一些精心挑選的合適偽影,比如可以操控光線的襯線,可以在晶圓上生成更接近原始掩模的圖案。
計算光刻作為一項資源密集型工作,通常需要大量數(shù)據(jù)中心來處理相關(guān)計算和仿真運行。這一過程可能需要很長的時間,即使是使用最強大的計算機也是如此。與此同時,開發(fā)者希望在芯片上封裝更多的晶體管,這進一步增加了光刻的挑戰(zhàn),此外,計算工作負荷也是只增不減。計算光刻的仿真環(huán)節(jié)成為該過程最耗時的部分之一,因為光刻過程中每個步驟的詳細模型都需要進行仿真。全芯片應用中可能有數(shù)百萬個Tile,因此必須具有超快的掩模合成計算速度。
為了實現(xiàn)所需的性能提升,將cuLitho集成到Synopsys全芯片掩模合成解決方案和Proteus ILT逆光刻技術(shù)中并進行優(yōu)化,可在新一代NVIDIA Hopper架構(gòu)GPU上運行。如此一來,傳統(tǒng)配置上需要40000個CPU的系統(tǒng),僅需要500個NVIDIA DGX H100節(jié)能型GPU系統(tǒng)。計算光刻工藝的所有部分都可以并行運行,減少所需功耗并且運行時間從數(shù)周縮短到數(shù)天。
生成式AI需要充分的供應鏈準備
在生成式AI需求爆發(fā)式增長的背景下,黃仁勛認為,行業(yè)需要進行充分的供應鏈準備,以滿足全球?qū)I的需求。
為了幫助企業(yè)部署處于快速發(fā)展的生成式 AI 模型,黃仁勛發(fā)布了用于 AI 視頻、圖像生成、大型語言模型部署和推薦器推理的推理平臺。這些平臺將NVIDIA的全套推理軟件與最新的 NVIDIA Ada、Hopper和Grace Hopper處理器相結(jié)合,包括用于AI視頻的NVIDIA L4 Tensor Core GPU和用于大型語言模型部署的NVIDIA H100 NVL GPU。
同時,NVIDIA AI Foundations云服務系列,也可以為需要構(gòu)建、完善和運行自定義大型語言模型及生成式 AI 的客戶提供服務,加速企業(yè)使用生成式 AI 的工作。
據(jù)黃仁勛透露,會將由八塊旗艦版A100或H100芯片集成的DGX超級AI計算系統(tǒng)通過租賃的方式開放給企業(yè),每月租金37000美元,以加速這輪大語言模型引領(lǐng)的AI浪潮。
據(jù)了解,通過與云服務供應商合作,NVIDIA在歐美提供DGX系統(tǒng)AI超級計算機的能力;在中國,也有特別定制的Ampere和Hopper芯片(A800和H800),通過中國的云服務供應商,比如阿里巴巴、騰訊、百度等企業(yè)提供落地能力?!拔彝耆嘈潘麄冇心芰θヌ峁╉敿壍南到y(tǒng)服務,對于中國初創(chuàng)企業(yè)來說,也一定有機會來開發(fā)自己的大語言模型”,黃仁勛表示。
寫在最后
GTC期間,黃仁勛和OpenAI聯(lián)合創(chuàng)始人、首席科學家Ilya Sutskever 進行了一場爐邊對話。Ilya Sutskeve感慨自己從業(yè)20余年,看著AI從“小透明”到震驚人類:“它還是那個神經(jīng)網(wǎng)絡(luò),只是變得更大,在更大的數(shù)據(jù)集上以不同的方式訓練,但是訓練的基礎(chǔ)算法都是一樣的,這是最令我驚訝的!”
黃仁勛也感慨,“在我們相識的十多年時間里,關(guān)于訓練的模型和數(shù)據(jù)(從AlexNet訓練到現(xiàn)在),已經(jīng)擴大到100萬倍。在計算機科學界,當時沒有人會相信這十年間,計算量會擴大到100萬倍。”
但這就是一個正在發(fā)生的事實——由于生成式AI,訓練的規(guī)模增大了很多。而業(yè)界對于生成式AI的大量推理運用,正導致AI處于拐點。