在NeurIPS這一關(guān)注機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué)等領(lǐng)域的業(yè)界知名會(huì)議上,NVIDIA Research帶來(lái)了60多個(gè)項(xiàng)目,并展示了開(kāi)創(chuàng)性成果
兩篇NVIDIA Research的論文憑借對(duì)AI和機(jī)器學(xué)習(xí)領(lǐng)域的貢獻(xiàn)而榮獲2022年NeurIPS獎(jiǎng)。其中一篇研究的是基于擴(kuò)散的生成式AI模型,另一篇?jiǎng)t是關(guān)于如何訓(xùn)練通用智能體。
本周在新奧爾良舉行的NeurIPS大會(huì)和下周的NeurIPS在線會(huì)議中,60多場(chǎng)講座、學(xué)術(shù)海報(bào)會(huì)和研討會(huì)均有NVIDIA的論文作者參加。
針對(duì)圖像、文本或視頻等模態(tài)的合成數(shù)據(jù)生成(SDG)是貫穿NVIDIA論文的一大關(guān)鍵主題。其他主題還包括強(qiáng)化學(xué)習(xí)、數(shù)據(jù)采集和增強(qiáng)、氣候模型以及聯(lián)邦學(xué)習(xí)。
NVIDIA學(xué)習(xí)和感知研究副總裁Jan Kautz表示:“AI是一項(xiàng)極其重要的技術(shù)。從生成式AI到自主智能體,NVIDIA在各個(gè)領(lǐng)域都取得了飛快的進(jìn)展。在生成式AI領(lǐng)域,我們不僅在推動(dòng)自身對(duì)基礎(chǔ)模型理論的理解,而且還在為更輕松地創(chuàng)建逼真的虛擬世界和模擬做出實(shí)際的貢獻(xiàn)。”
重構(gòu)基于擴(kuò)散的生成式模型的設(shè)計(jì)
基于擴(kuò)散的模型已成為生成式AI領(lǐng)域的一項(xiàng)開(kāi)創(chuàng)性技術(shù)。NVIDIA研究人員憑借對(duì)擴(kuò)散模型設(shè)計(jì)的分析獲得了優(yōu)秀主流論文獎(jiǎng)(Outstanding Main Track Paper)。他們所提出的改進(jìn)措施能夠顯著提高這些模型的效率和質(zhì)量。
該論文將擴(kuò)散模型的各個(gè)組成部分分解成模塊,幫助開(kāi)發(fā)者明確可以調(diào)整的流程,進(jìn)而提高整個(gè)模型的性能。研究人員表示,經(jīng)過(guò)他們修改的模型在AI生成圖像質(zhì)量評(píng)估中獲得了創(chuàng)紀(jì)錄的高分。
在基于《我的世界》游戲的模擬套件中訓(xùn)練通用智能體
雖然研究人員長(zhǎng)期以來(lái)一直在《星際爭(zhēng)霸》、《Dota》、《圍棋》等視頻游戲環(huán)境中訓(xùn)練自主智能體,但這些智能體一般只擅長(zhǎng)少數(shù)任務(wù)。因此,NVIDIA研究人員開(kāi)始轉(zhuǎn)向全球最熱門(mén)的游戲《我的世界》,開(kāi)發(fā)了一個(gè)用于訓(xùn)練通用智能體(一種能夠成功執(zhí)行各種開(kāi)放式任務(wù)的智能體)的可擴(kuò)展訓(xùn)練框架。
這個(gè)名為MineDojo的框架使智能體能夠利用一個(gè)由7000多個(gè)維基百科網(wǎng)頁(yè)、數(shù)百萬(wàn)個(gè)Reddit帖子和30萬(wàn)小時(shí)游戲錄像所組成的大規(guī)模在線數(shù)據(jù)庫(kù)來(lái)學(xué)習(xí)《我的世界》的靈活玩法(如下圖所示)。該項(xiàng)目獲得了NeurIPS委員會(huì)頒發(fā)的優(yōu)秀數(shù)據(jù)集和基準(zhǔn)論文獎(jiǎng)。
作為概念驗(yàn)證,MineDojo的研究人員創(chuàng)建了一個(gè)名為MineCLIP的大型基礎(chǔ)模型。該模型學(xué)會(huì)了將YouTube上的《我的世界》游戲視頻與視頻字幕(包含玩家敘述屏幕上的動(dòng)作)相關(guān)聯(lián)。通過(guò)MineCLIP,該團(tuán)隊(duì)訓(xùn)練出了一個(gè)能夠在沒(méi)有人類(lèi)干預(yù)的情況下執(zhí)行《我的世界》中若干任務(wù)的強(qiáng)化學(xué)習(xí)智能體。
創(chuàng)建構(gòu)建虛擬世界的復(fù)雜 3D 幾何體
本屆NeurIPS上還展示了GET3D。這個(gè)生成式AI模型可根據(jù)其所訓(xùn)練的建筑物、汽車(chē)、動(dòng)物等2D圖像類(lèi)別,即時(shí)合成3D幾何體。AI生成的物體具有高保真的紋理和復(fù)雜的幾何細(xì)節(jié),并且以常用圖形軟件應(yīng)用中所使用的三角網(wǎng)格格式創(chuàng)建,這使得用戶(hù)可以十分輕松地將這些幾何體導(dǎo)入3D渲染器和游戲引擎,以進(jìn)行后續(xù)編輯。
GET3D即Generate?Explicit?Textured?3D?的縮寫(xiě),正如其名,它具備生成具有顯示紋理的3D?網(wǎng)格的能力。該模型是在NVIDIA A100 Tensor Core GPU上使用從不同相機(jī)角度拍攝的約100萬(wàn)張3D幾何體的2D圖像訓(xùn)練而成。該模型在單顆NVIDIA GPU上運(yùn)行推理時(shí),每秒可生成約20個(gè)物體。
AI生成的物體可用于構(gòu)建為游戲、機(jī)器人、建筑、社交媒體等行業(yè)設(shè)計(jì)的數(shù)字空間,比如建筑物、戶(hù)外空間或整座城市的3D表達(dá)。
通過(guò)對(duì)材質(zhì)和光照的控制,改進(jìn)可逆渲染流程
在6月于新奧爾良舉行的最近一次CVPR會(huì)議上,NVIDIA Research發(fā)布了3D MoMa。這種可逆渲染方法使開(kāi)發(fā)者能夠創(chuàng)建由3D網(wǎng)格模型、覆蓋在模型上的材質(zhì)以及光照這三個(gè)不同部分所組成的3D物體。
此后,該團(tuán)隊(duì)在分離3D物體中的材質(zhì)和光照方面取得了重大進(jìn)展,這反過(guò)來(lái)又提高了AI生成幾何體的可編輯能力,創(chuàng)造者們能夠輕松地對(duì)在場(chǎng)景中移動(dòng)的物體替換材質(zhì)或者調(diào)整光照。
本次發(fā)布相關(guān)精彩視頻已在NVIDIA中國(guó)西瓜視頻賬號(hào)發(fā)布,也可直接在附件下載使用:
3D MoMa 材質(zhì)和光照演示
這項(xiàng)研究工作依靠的著色模型采用NVIDIA RTX GPU加速光線追蹤技術(shù),更為逼真。該成果正在NeurIPS大會(huì)上以海報(bào)形式展示。
提高語(yǔ)言模型生成文本的事實(shí)準(zhǔn)確性
另一篇被NeurIPS收錄的論文研究的是預(yù)訓(xùn)練語(yǔ)言模型的一項(xiàng)重大難題——AI生成文本的事實(shí)準(zhǔn)確性。
由于AI只是通過(guò)關(guān)聯(lián)單詞來(lái)預(yù)測(cè)句子接下來(lái)的內(nèi)容,因此為生成開(kāi)放式文本而訓(xùn)練的語(yǔ)言模型往往會(huì)產(chǎn)生包含非事實(shí)信息的文本。在這篇論文中,NVIDIA研究人員提出了能夠突破這一局限性的技術(shù),這也是為現(xiàn)實(shí)世界應(yīng)用部署此類(lèi)模型的必要前提。
研究人員建立了首個(gè)能夠衡量生成開(kāi)放式文本語(yǔ)言模型事實(shí)準(zhǔn)確性的自動(dòng)化基準(zhǔn),并發(fā)現(xiàn)擁有數(shù)十億參數(shù)的大型語(yǔ)言模型比小型語(yǔ)言模型的事實(shí)準(zhǔn)確性更高。該研究團(tuán)隊(duì)提出了一項(xiàng)新的技術(shù)——事實(shí)性強(qiáng)化訓(xùn)練,以及一種新穎的采樣算法,通過(guò)兩者的結(jié)合,助力訓(xùn)練語(yǔ)言模型生成準(zhǔn)確的文本,并且將事實(shí)性錯(cuò)誤率從33%降低到15%左右。
目前,NVIDIA在全球共有300多名研究人員,團(tuán)隊(duì)專(zhuān)注的課題領(lǐng)域涵蓋AI、計(jì)算機(jī)圖形學(xué)、計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛汽車(chē)和機(jī)器人技術(shù)等。進(jìn)一步了解NVIDIA Research并查看NeurIPS收錄的所有NVIDIA論文列表。