爵士樂的精髓在于即興演奏,英偉達正在通過AI研究向這一流派致敬。也許有一天,圖形創(chuàng)作者可以使用快速創(chuàng)建出的 3D 物體,來一場即興表演。
本周在新奧爾良舉行的計算機視覺和模式識別會議CVPR上,英偉達的可逆渲染流程NVIDIA 3D MoMa驚艷亮相。通過NVIDIA 3D MoMa渲染流水線,結合GPU加速,可以使用現(xiàn)代AI機器和GPU的原始算力快速生成3D物體,創(chuàng)作者可以在現(xiàn)有工具中自由地導入、編輯和擴展這些物體。
為了展示NVIDIA 3D MoMa的功能,英偉達的研究和創(chuàng)意團隊從不同角度收集了約100張小號、長號、薩克斯、架子鼓和單簧管這五種爵士樂器的圖片。
他們首先將2D圖像重建為3D,并以網(wǎng)格形式呈現(xiàn)。然后將這些樂器從原始場景中取出,導入NVIDIA Omniverse 3D模擬平臺進行編輯。
在任何傳統(tǒng)圖形引擎中,創(chuàng)作者都可以輕松為形狀調(diào)換由NVIDIA 3D MoMa生成的材質(zhì),就像給網(wǎng)格穿上不同的衣服一樣。例如該團隊對小號模型采取了這種做法,將原來的塑料材質(zhì)快速更換成黃金、大理石、木材或軟木。
然后,創(chuàng)作者可以將新編輯的物體放入任何虛擬場景中。英偉達團隊將這些樂器放入了經(jīng)典的圖形渲染質(zhì)量測試康奈爾盒中。他們證明了虛擬樂器對光線的反應與在物理世界中完全一樣:閃亮的銅管樂器反射出亮光,啞光的鼓皮則會吸收光線。
這些通過逆渲染生成的新物體可以作為復雜動畫場景的構成要素。在爵士樂及其發(fā)源地新奧爾良,英偉達運用這些技術展示了AI和藝術的完美融合。
如何基于2D圖像創(chuàng)建3D物體?
逆渲染是將靜態(tài)照片重建為3D物體或場景模型的技術,也一直是統(tǒng)一計算機視覺和計算機圖形學的關鍵。通過NVIDIA 3D MoMa渲染流水線,可以將逆渲染問題的每個部分表示為GPU加速的可微分組件,然后使用現(xiàn)代AI機器和英偉達GPU的原始算力快速生成3D物體,創(chuàng)作者可以在現(xiàn)有工具中自由地導入、編輯和擴展這些物體。
為了使藝術家或工程師能夠充分利用 3D物體,其形式應能夠導入游戲引擎、3D建模器和電影渲染器等各種被廣泛使用的工具。帶有紋理、材質(zhì)的三角網(wǎng)格形式,就是此類3D工具使用的通用語言。
三角網(wǎng)格是用于定義3D圖形和建模形狀的基本框架
其實這也不是英偉達第一次實現(xiàn)這樣的突破。在去年的CVPR 大會上,英偉達就針對當前人們云視頻會議中的痛點演示了2D轉3D的“神技”。
可能你也有過這樣的尷尬時刻,視頻會議馬上開始,但是自己頭發(fā)凌亂、還穿著睡衣,不敢以真面目示人……英偉達開發(fā)了一系列用于視頻會議的深度學習模型,可以借助生成式對抗網(wǎng)絡 ( GAN ) ,僅用一張人物2D圖像即可合成逼真的人臉說話視頻。也就是說,只需要上傳一張正裝工作照,你就可以不洗臉不洗頭,但是同事看到的你卻是得體的工作形象??梢哉f真的是懶人剛需了。
下圖中,有一個人就是躲在視頻背后的那個“懶人”,你能分辨出來嗎?
英偉達去年還發(fā)布了遷移學習工具包(TLT)3.0,包括各種高精度和高性能計算機視覺和對話式AI預訓練模型,以及一套強大的生產(chǎn)級功能,可將AI開發(fā)能力提升10倍。
此外還有Omniverse這款專注于實時仿真、數(shù)字協(xié)作的云平臺,擁有高度逼真的物理模擬引擎以及高性能渲染能力。通過Omniverse,工程師和軟件程序員可以模擬出新的軟件,然后逐步應用到實際中。
寫在最后
動態(tài)場景處理是計算機視覺當前的重要研究方向。不論是虛擬爵士樂演奏,還是其他任意2D轉3D的動態(tài)呈現(xiàn),背后都離不開英偉達強大的GPU算力、專注于實時仿真、數(shù)字協(xié)作的Omniverse云平臺、還有海量的模型構建、豐富的SDK工具包等支撐。
這場“卷到”元宇宙里的演奏會,相信只是小試牛刀。畢竟在英偉達通過AI系統(tǒng)所創(chuàng)建的數(shù)字孿生虛擬世界構想中,構建出一個數(shù)字孿生的地球也是有可能的,希望這些藍圖的實現(xiàn),能夠真正解決許多需要通過大規(guī)模虛擬才能解決的“疑難雜癥”。