2023 年,NVIDIA 發(fā)布了眾多創(chuàng)新的研究成果,從 Neuralangelo 的高保真神經(jīng)表面重建到 Magic3D 的文本到 3D 內(nèi)容創(chuàng)建,這些項(xiàng)目推動(dòng)了 AI 創(chuàng)新的邊界。從研究主題分布來(lái)看,關(guān)于 AI 智能體的研究有 3 個(gè)(機(jī)器人和虛擬角色),3D 生成模型研究有 2 個(gè),圖形處理研究 2 個(gè),圖像生成研究 2 個(gè),視頻生成研究 1 個(gè)。讓我們一起回顧 2023 年 NVIDIA 引領(lǐng) AI 創(chuàng)新發(fā)展的 10 大研究亮點(diǎn)。
Neuralangelo :高保真神經(jīng)表面重建
Neuralangelo 是一個(gè)全新 AI 模型,它利用神經(jīng)網(wǎng)絡(luò)進(jìn)行 3D 重建,可將 2D 視頻片段轉(zhuǎn)換為詳細(xì)的 3D 結(jié)構(gòu),為建筑物、雕塑以及其他真實(shí)物體生成逼真的虛擬復(fù)本。就像米開(kāi)朗基羅用大理石雕刻出令人驚嘆、栩栩如生的雕塑一樣,Neuralangelo 能生成具有復(fù)雜細(xì)節(jié)和紋理的 3D 結(jié)構(gòu)。隨后,創(chuàng)意人士可以將這些 3D 物體導(dǎo)入設(shè)計(jì)軟件中,對(duì)其進(jìn)行進(jìn)一步編輯,用于藝術(shù)、視頻游戲開(kāi)發(fā)、機(jī)器人和工業(yè)數(shù)字孿生。Neuralangelo 這項(xiàng)研究入選 TIME 雜志「2023 年最佳發(fā)明」榜單。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:????https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
點(diǎn)擊博客,了解更多:????《數(shù)字文藝復(fù)興:NVIDIA Neuralangelo 研究重構(gòu) 3D 場(chǎng)景》
Eureka:AI 智能體利用 LLM訓(xùn)練機(jī)器人完成復(fù)雜任務(wù)
Eureka 是一種新型 AI 智能體,它可以教機(jī)器人復(fù)雜的技能。它教會(huì)了機(jī)器人手如何快速轉(zhuǎn)筆,而且第一次轉(zhuǎn)筆就能像人類做得一樣好。Eureka 還教會(huì)了機(jī)器人完成打開(kāi)抽屜和柜子、拋接球、操作剪刀等任務(wù)。下面視頻中所展示的令人驚嘆的 “魔術(shù)” 是機(jī)器人通過(guò) Eureka 學(xué)會(huì)熟練完成的近 30 項(xiàng)任務(wù)之一。Eureka 可以自動(dòng)編寫(xiě)?yīng)剟?lì)算法來(lái)訓(xùn)練機(jī)器人。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:? ?https://arxiv.org/abs/2310.12931
點(diǎn)擊博客,了解更多:????《Eureka!NVIDIA 研究突破為機(jī)器人學(xué)習(xí)注入新動(dòng)力》
Magic3D:高分辨率文本轉(zhuǎn) 3D 內(nèi)容創(chuàng)建
Magic3D 是一個(gè)可以從文字描述中生成3D模型的AI模型。?其可在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量的三維網(wǎng)格模型,比谷歌 DreamFusion(據(jù)稱平均耗時(shí) 1.5 小時(shí))快 2 倍,同時(shí)還能獲得更高的分辨率。在輸入諸如「一只坐在睡蓮上的藍(lán)色毒鏢蛙」這樣的提示后,Magic3D 在大約 40 分鐘內(nèi)生成了一個(gè) 3D 網(wǎng)格模型,并配有彩色紋理。
一只坐在睡蓮上的藍(lán)色毒鏢蛙
Magic3D 還可以對(duì) 3D 網(wǎng)格進(jìn)行基于提示的實(shí)時(shí)編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。
從一只坐在一堆西蘭花上的金屬兔子到一個(gè)坐在一堆巧克力餅干上的獅身人面像
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:????https://arxiv.org/abs/2211.10440
利用 ADMM 在 GPU 上實(shí)現(xiàn)交互式發(fā)絲模擬
研究人員實(shí)現(xiàn)了在 GPU 上計(jì)算頭發(fā)模擬的新方法——ADMM。這是一種可以利用神經(jīng)物理學(xué)來(lái)實(shí)現(xiàn)數(shù)萬(wàn)根頭發(fā)實(shí)時(shí)且高清模擬的方式。該項(xiàng) AI 技術(shù)可訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)相應(yīng)對(duì)象在現(xiàn)實(shí)世界中的運(yùn)動(dòng)軌跡。該團(tuán)隊(duì)的這種用于精確、全面地模擬頭發(fā)的新穎方式還基于現(xiàn)階段的 GPU 進(jìn)行了針對(duì)性優(yōu)化。其性能大幅優(yōu)于目前最先進(jìn)的基于 CPU 的求解器,可將模擬時(shí)間從數(shù)天縮短到數(shù)小時(shí),同時(shí)還可提高實(shí)時(shí)頭發(fā)模擬的質(zhì)量。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://d1qx31qr3h6wln.cloudfront.net/publications/Interactive Hair Simulation on the GPU Using ADMM.pdf?
點(diǎn)擊博客,了解更多:《NVIDIA 最新圖形學(xué)研究成果推動(dòng)生成式 AI 前沿領(lǐng)域的進(jìn)一步發(fā)展》
利用 LDM 實(shí)現(xiàn)高分辨率視頻合成
Latent Diffusion Models(LDM)可用于高分辨率視頻生成任務(wù)。通過(guò)在低維潛空間中訓(xùn)練擴(kuò)散模型,LDM 實(shí)現(xiàn)了高質(zhì)量圖像合成,并避免了過(guò)多的計(jì)算需求。研究人員還將現(xiàn)有的文本到圖像 LDM 模型轉(zhuǎn)換為高效、精確的文本到視頻模型,并展示了個(gè)性化文本到視頻生成的結(jié)果。具體用例包括多模態(tài)駕駛情景預(yù)測(cè)等。
進(jìn)行時(shí)態(tài)視頻微調(diào)的示意
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
點(diǎn)擊博客,了解更多:????《NVIDIA 最新圖形學(xué)研究成果推動(dòng)生成式 AI 前沿領(lǐng)域的進(jìn)一步發(fā)展》
Text2Materials:使用文本到圖像提示來(lái)生成自定義紋理材質(zhì)?
Text2Materials 是一種可以幫助藝術(shù)家快速創(chuàng)建和迭代 3D 場(chǎng)景材質(zhì)的生成式 AI 工作流。這項(xiàng)研究展示了藝術(shù)家如何利用文本或圖像提示來(lái)更快地生成織物、木材和石材等自定義紋理材質(zhì),同時(shí)對(duì)創(chuàng)作進(jìn)行更加精細(xì)的把控。這套 AI 模型將促進(jìn)材質(zhì)創(chuàng)建和編輯的迭代,使企業(yè)能夠提供新工具來(lái)幫助藝術(shù)家快速完善 3D 對(duì)象的外觀,直到達(dá)到想要的效果。在包括建筑、游戲開(kāi)發(fā)和室內(nèi)設(shè)計(jì)在內(nèi)的創(chuàng)意產(chǎn)業(yè)中,這些功能可以幫助藝術(shù)家快速探索想法并嘗試不同的美學(xué)風(fēng)格,以創(chuàng)建場(chǎng)景的多個(gè)版本。
點(diǎn)擊博客,了解更多:《NVIDIA Research 展示生成式 AI 如何幫助創(chuàng)建和編輯逼真的材質(zhì)》
CALM:可操縱虛擬角色的條件對(duì)抗性潛在模型?
CALM 是一種為用戶控制的交互式虛擬角色生成多樣化且可定向行為的方法。CALM 基于模仿學(xué)習(xí),能捕捉并直接控制角色的動(dòng)作。通過(guò)該方法,可以聯(lián)合學(xué)習(xí)控制策略和運(yùn)動(dòng)編碼器,從而重構(gòu)給定運(yùn)動(dòng)的關(guān)鍵特征,而不僅僅是復(fù)制它。使用 CALM 訓(xùn)練完成后,可以在類似于視頻游戲中的直觀界面來(lái)控制角色。
CALM 由三個(gè)階段組成學(xué)習(xí)有意義的運(yùn)動(dòng)語(yǔ)義表征
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://arxiv.org/abs/2305.02195
Vid2Player3D:通過(guò)比賽視頻學(xué)習(xí)物理模擬網(wǎng)球技術(shù)
研究人員創(chuàng)建了一個(gè) AI 系統(tǒng),可以從現(xiàn)實(shí)世界網(wǎng)球比賽的 2D 視頻錄像中學(xué)習(xí)各種網(wǎng)球技能,并將這些動(dòng)作應(yīng)用于 3D 角色。模擬網(wǎng)球運(yùn)動(dòng)員可以準(zhǔn)確地將球打到虛擬球場(chǎng)的目標(biāo)位置,甚至與其他角色進(jìn)行長(zhǎng)時(shí)間的對(duì)攻。除了網(wǎng)球的測(cè)試案例之外,還解決了一個(gè)難題:即在不使用昂貴的動(dòng)作捕捉數(shù)據(jù)的前提下,生成能夠逼真地完成各種技術(shù)動(dòng)作的 3D 角色。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://research.nvidia.com/labs/toronto-ai/vid2player3d/
FlexiCubes:高效、高質(zhì)量的網(wǎng)格優(yōu)化方法
FlexiCubes 可以在 3D 工作流中生成高質(zhì)量網(wǎng)格,從而提升各類應(yīng)用的質(zhì)量。全新 FlexiCubes 網(wǎng)格提取方法改進(jìn)了許多最近的 3D 網(wǎng)格生成工作流,進(jìn)而生成了能夠更好表示復(fù)雜形狀細(xì)節(jié)的更高質(zhì)量的網(wǎng)格。這些生成的網(wǎng)格也非常適合用于物理模擬,因?yàn)橐敫咝Мa(chǎn)出穩(wěn)定的模擬,網(wǎng)格的質(zhì)量尤其重要。四面體網(wǎng)格可直接用于物理模擬。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://research.nvidia.com/labs/toronto-ai/flexicubes/
點(diǎn)擊博客,了解更多:????《生成高質(zhì)量 3D 網(wǎng)格,從重建到生成式 AI》
eDiff-I:基于專家降噪器集合的文本到圖像擴(kuò)散模型
eDiff-I 是一種用于合成給定文本圖像的擴(kuò)散模型,可以生成與任何輸入文本提示相對(duì)應(yīng)的逼真圖像。除了文本到圖像的合成,它還提供了兩個(gè)額外功能:樣式傳輸(這使我們能夠使用參考樣式圖像控制生成樣本的樣式)與用文字繪畫(huà)(即用戶可以通過(guò)在畫(huà)布上繪制分割圖來(lái)生成圖像的應(yīng)用程序,這對(duì)于制作所需的圖像非常方便)。在這個(gè)框架中,研究人員訓(xùn)練了一組專家降噪器,專門(mén)用于在生成過(guò)程的不同間隔中進(jìn)行降噪,從而提高合成能力。
了解詳細(xì)研究成果,請(qǐng)?jiān)L問(wèn)如下論文:https://research.nvidia.com/labs/dir/eDiff-I/