得益于 NVIDIA Research 新的 AI 模型,越來(lái)越多的公司和創(chuàng)作者創(chuàng)建的大型虛擬世界可以更輕松地填充一系列多種多樣的 3D 建筑、車輛、人物等內(nèi)容。
NVIDIA GET3D 僅使用 2D 圖像進(jìn)行訓(xùn)練,可生成具有高保真紋理和復(fù)雜幾何細(xì)節(jié)的三維圖形。這些 3D 對(duì)象的創(chuàng)建格式與熱門圖形軟件應(yīng)用所用的格式相同,允許用戶立即將其形體導(dǎo)入 3D 渲染器和游戲引擎,以便進(jìn)行后續(xù)編輯。
其所生成的對(duì)象可用于建筑、戶外空間或整個(gè)城市的 3D 表現(xiàn),為游戲、機(jī)器人開(kāi)發(fā)、建筑和社交媒體等行業(yè)量身打造。
GET3D 可以根據(jù)受訓(xùn)練時(shí)使用的數(shù)據(jù)生成幾乎無(wú)限量的三維圖形。就像一位藝術(shù)家將一塊粘土制成精細(xì)的雕塑一樣,該模型會(huì)將數(shù)字轉(zhuǎn)換為復(fù)雜的三維圖形。
例如,借助 2D 汽車圖像的訓(xùn)練數(shù)據(jù)集,它創(chuàng)建了轎車、卡車、賽車和面包車等系列集。當(dāng)在動(dòng)物圖像上訓(xùn)練后,它會(huì)生成狐貍、犀牛、馬和熊等生物。如果輸入椅子時(shí),模型會(huì)生成各種旋轉(zhuǎn)椅、餐椅和舒適的躺椅。
本次發(fā)布相關(guān)精彩視頻已在NVIDIA中國(guó)西瓜視頻賬號(hào)發(fā)布:
NVIDIA GET3D:為虛擬世界填充3D物體和人物的AI模型
視頻下載地址:
https://pan.baidu.com/s/1BhubtKvRIUAoh67pG0U2zA?pwd=2a3L
提取碼:2a3L
NVIDIA AI 研究副總裁 Sanja Fidler 負(fù)責(zé)領(lǐng)導(dǎo)創(chuàng)建此工具的多倫多 AI 實(shí)驗(yàn)室,她表示: “GET3D 讓我們離普及 AI 驅(qū)動(dòng)的 3D 內(nèi)容創(chuàng)作更近了一步。它能夠即時(shí)生成紋理化的三維圖形,這可能會(huì)為開(kāi)發(fā)者帶來(lái)顛覆性的變化,有助于他們迅速填充包含各種有趣對(duì)象的虛擬世界。”
在 11 月 26 日至 12 月 4 日于新奧爾良(以及在線)舉辦的 NeurIPS AI 大會(huì)上,NVIDIA 有 20 多篇論文、專題研討會(huì), GET3D 就是其中之一。
打造虛擬世界需要多種 AI 類型
現(xiàn)實(shí)世界充滿了多樣性:街道上的建筑各有特點(diǎn),各有不同的車輛則在其間呼嘯而過(guò),川流不息的人群更是異彩紛呈。為反映這一情景的 3D 虛擬世界進(jìn)行手動(dòng)建模非常耗時(shí),因此難以填入詳細(xì)的數(shù)字環(huán)境。
以前的 3D 生成式 AI 模型,雖然比人工方法更快,但在所能生成的細(xì)節(jié)水平上也被限制了。即使是最近的反向渲染方法也只能根據(jù)從多個(gè)角度拍攝的 2D 圖像生成 3D 物體,這就需要開(kāi)發(fā)者一次構(gòu)建一個(gè)三維圖形。
相反,在單個(gè) NVIDIA GPU 上運(yùn)行推理時(shí),GET3D 每秒可生成大約 20 個(gè)形體,就像處理 2D 圖像的生成式對(duì)抗網(wǎng)絡(luò)一樣,只是生成的是 3D 對(duì)象。作為學(xué)習(xí)來(lái)源的訓(xùn)練數(shù)據(jù)集更大、更多樣化,輸出也會(huì)更多樣化,并且更詳細(xì)。
NVIDIA 研究人員使用合成數(shù)據(jù)訓(xùn)練 GET3D,數(shù)據(jù)中包含使用不同攝像頭角度拍攝的三維圖形 2D 圖像。該團(tuán)隊(duì)僅用了兩天時(shí)間,就使用 NVIDIA A100 Tensor Core GPU,對(duì)模型進(jìn)行了 100 萬(wàn)張圖像的訓(xùn)練。
讓創(chuàng)作者能夠修改形狀、紋理、材質(zhì)
GET3D 的名稱源于其能夠生成顯式紋理 3D (Generate Explicit Textured 3D) 網(wǎng)格,這意味著它會(huì)以三角形網(wǎng)格的形式創(chuàng)建形體并使用紋理材質(zhì)覆蓋,就像 papier-maché 模型一樣。這使得用戶能夠輕松地將對(duì)象導(dǎo)入游戲引擎、3D 建模軟件和電影渲染器,并進(jìn)行編輯。?
在創(chuàng)作者將 GET3D 生成的形體導(dǎo)出到圖形應(yīng)用后,當(dāng)這些物體移動(dòng)或旋轉(zhuǎn)時(shí),就能使用逼真的照明效果。 通過(guò)整合 NVIDIA Research 提供的另一種 AI 工具 StyleGAN-NADA,開(kāi)發(fā)者可以使用文本提示將特定風(fēng)格添加到圖像中,例如將渲染出的汽車調(diào)整為被燒毀的汽車或出租車,或?qū)⑵胀ǚ课菰O(shè)置成鬼屋。
研究人員指出,未來(lái)版本的 GET3D 可以使用攝像頭姿態(tài)預(yù)估技術(shù),讓開(kāi)發(fā)者能夠使用真實(shí)世界的數(shù)據(jù)(而不是合成數(shù)據(jù)集)來(lái)訓(xùn)練模型。還可以對(duì)其進(jìn)行改進(jìn)以支持通用生成,這意味著開(kāi)發(fā)者可以一次性訓(xùn)練用于各種三維圖形的 GET3D,而不必每一次在一個(gè)對(duì)象類別上進(jìn)行訓(xùn)練。
有關(guān) NVIDIA AI 研究的新動(dòng)態(tài),請(qǐng)觀看 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛先生在 GTC 大會(huì)上發(fā)表的主題演講回放。