2024年春節(jié)檔,科技廠商“AI大片”的壓軸戲是這兩天OpenAI亮出的視頻模型Sora,它掀起了“文生視頻熱”,同時(shí)也吹響了新一輪大模型進(jìn)擊的號(hào)角。
據(jù)悉,受益于Sora的大火,OpenAI的估值狂飆275%,在最新一輪融資中有望超過(guò)800億美元(約合5755億元),躍升為僅次于字節(jié)跳動(dòng)(2250億美元)和SpaceX(1500億美元)的全球第三大獨(dú)角獸。
為什么偏偏是Sora?
明明還沒(méi)正式開(kāi)放,Sora的大名已經(jīng)傳遍國(guó)內(nèi)外科技圈。走在東京街道上的時(shí)尚女郎、緩緩前進(jìn)的舞龍隊(duì)伍、踏雪而來(lái)的猛犸象、海上自行車(chē)比賽……在各大社交媒體上,Sora的Demo(演示)視頻被反復(fù)播放,登頂熱搜。與之形成鮮明對(duì)比的是,幾乎同時(shí)發(fā)布的谷歌Gemini 1.5 PRO卻似乎被遺忘在了角落。
360總裁周鴻祎高度評(píng)價(jià)了Sora。他指出,Sora的面世意味著實(shí)現(xiàn)AGI(通用人工智能)的時(shí)間將從10年縮短到一兩年。在他看來(lái),Sora只是小試牛刀,它展現(xiàn)的不僅僅是視頻制作能力,而是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來(lái)新的成果和突破。SpaceX創(chuàng)始人馬斯克則直接在社交媒體上發(fā)布了“gg humans(人類(lèi)輸了)”的感嘆?!癵g”是電子競(jìng)技中常用的術(shù)語(yǔ),意為“Good Games”,通常用來(lái)表示對(duì)對(duì)手的認(rèn)可和自己認(rèn)輸?shù)膽B(tài)度。
實(shí)際上,AI視頻生成模型并不是一個(gè)新鮮事物。谷歌早已發(fā)布零鏡頭視頻生成模型VideoPoet,百度也推出了視頻生成模型UniVG,騰訊發(fā)布了視頻生成模型VideoCrafter2,阿里有自研的視頻生成模型Animate Anyone,甚至AI初創(chuàng)企業(yè)Pika的視頻生成平臺(tái)Pika 1.0已率先面向所有用戶開(kāi)放網(wǎng)頁(yè)端訪問(wèn)權(quán)限。為什么偏偏是OpenAI發(fā)布的Sora“一炮而紅”?
從業(yè)內(nèi)反應(yīng)來(lái)看,Sora最令人震撼的技術(shù)突破莫過(guò)于視頻時(shí)長(zhǎng)的巨大提升。Sora能生成長(zhǎng)達(dá)1分鐘的視頻,遠(yuǎn)超市面上其他AI視頻模型。此前,Runway能夠生成4秒的視頻,用戶可以將其最多延長(zhǎng)至16秒,這已經(jīng)是AI生成視頻在2023年所能達(dá)到的最長(zhǎng)時(shí)長(zhǎng)紀(jì)錄:Stable Video能提供4秒的視頻,Pika則提供3秒的視頻。
Sora實(shí)現(xiàn)視頻時(shí)長(zhǎng)的突破,背后的大功臣是其采用的Diffusion transformer模型。該模型融合了擴(kuò)散模型與自回歸模型的雙重特性,在訓(xùn)練GPT這類(lèi)大語(yǔ)言模型的時(shí)候,OpenAI把句子拆分成tokens(詞符),放到transformer進(jìn)行訓(xùn)練。在Sora中,則是將不同尺寸、分辨率的視頻拆分成patch(視覺(jué)補(bǔ)丁),把patch當(dāng)作tokens放到transformer進(jìn)行訓(xùn)練。訓(xùn)練完成后再通過(guò)解碼,把tokens“渲染”成人們可以看得懂的像素。
另一個(gè)震撼性突破在于Sora展示出了對(duì)物理世界部分規(guī)律的理解,這是過(guò)去文生視頻模型的一大痛點(diǎn)。專(zhuān)家分析指出,Sora帶有“世界模型”的特質(zhì),這讓其在逼真度上更勝一籌。
所謂“世界模型”便是對(duì)真實(shí)的物理世界進(jìn)行建模,讓機(jī)器能夠像人類(lèi)一樣,對(duì)世界產(chǎn)生一個(gè)全面而準(zhǔn)確的認(rèn)知。這一特質(zhì)會(huì)使AI視頻生成更流暢、更符合邏輯。比如,咬一口餅干,餅干上一定會(huì)留下齒痕,這樣的邏輯對(duì)于人類(lèi)來(lái)說(shuō)非常簡(jiǎn)單,而要讓AI模型領(lǐng)悟前后兩幀畫(huà)面之間的邏輯關(guān)聯(lián)則非常困難。它需要從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語(yǔ)言、圖像或視頻的某種方法,從而產(chǎn)生難以解釋的“涌現(xiàn)”能力。
“Sora的成功并非偶然?!盕orrester副總裁、研究總監(jiān)戴鯤在接受《中國(guó)電子報(bào)》記者采訪時(shí)表示,這背后有四大推動(dòng)因素。首先,近期不同領(lǐng)域的最新技術(shù)研究進(jìn)展是促使Sora實(shí)現(xiàn)技術(shù)突破的關(guān)鍵。其次,OpenAI從2016年起就將生成式模型作為戰(zhàn)略方向,長(zhǎng)期的技術(shù)創(chuàng)新投入積累是其成功的核心要素。另外,高質(zhì)量的海量數(shù)據(jù)和大規(guī)模高性能硬件投入是必要保證。
Stability AI的CEO埃馬德·莫斯塔克(Emad Mostaque)在社交平臺(tái)上感慨稱(chēng)“奧特曼(OpenAI的創(chuàng)始人兼CEO)真是一個(gè)魔術(shù)師”,并表示Sora可以被視為AI視頻的GPT3,將在未來(lái)幾年內(nèi)得到擴(kuò)展、細(xì)化、調(diào)整和優(yōu)化。
Sora并非完美無(wú)瑕
“與大語(yǔ)言模型相比,文生視頻模型實(shí)現(xiàn)難度顯然更大。在技術(shù)實(shí)現(xiàn)上面臨的挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)復(fù)雜性、計(jì)算資源需求和多模態(tài)融合三方面?!贝黯H表示。
以數(shù)據(jù)復(fù)雜性為例,首先大語(yǔ)言模型處理的是文本序列,而視頻由連續(xù)幀組成,每一幀都是一個(gè)高維圖像,文生視頻模型需要同時(shí)處理空間和時(shí)間兩個(gè)維度的數(shù)據(jù),不僅需要理解單個(gè)幀內(nèi)的像素級(jí)關(guān)系,還要捕捉幀與幀之間的動(dòng)態(tài)變化和時(shí)序依賴,確保生成的視頻能夠平滑過(guò)渡和自然動(dòng)作,這要求模型具備極高的時(shí)空推理能力以及對(duì)目標(biāo)對(duì)象行為模式的理解;其次,大規(guī)模高質(zhì)量的標(biāo)注視頻數(shù)據(jù)集比大規(guī)模文本數(shù)據(jù)集更難獲取,視頻數(shù)據(jù)涉及對(duì)顏色、亮度、運(yùn)動(dòng)軌跡等多種視覺(jué)特征的編碼和解碼,它的存儲(chǔ)和預(yù)處理也更為復(fù)雜。
與此同時(shí),算力資源的供給也是一個(gè)大問(wèn)題。視頻生成涉及大量的視覺(jué)信息處理,所需計(jì)算量遠(yuǎn)超文本生成。模型可能需要在數(shù)以億計(jì)的參數(shù)上進(jìn)行訓(xùn)練,消耗巨大的GPU算力資源。此外,文生視頻模型需要結(jié)合音頻、文本等多個(gè)模態(tài)信息,這就需要模型能夠有效融合不同類(lèi)型的輸入信號(hào),并輸出相應(yīng)的跨模態(tài)內(nèi)容,無(wú)疑將大大增加模型設(shè)計(jì)和訓(xùn)練的難度。
現(xiàn)階段的Sora并非完美無(wú)瑕。細(xì)心的網(wǎng)民們也在公開(kāi)的Demo視頻中扒出了不少生成式AI的漏洞,比如隨著時(shí)間推移,有的人物、動(dòng)物或物品會(huì)消失、變形或者生出分身;或者出現(xiàn)一些違背物理常識(shí)的畫(huà)面,比如穿過(guò)籃筐的籃球、懸浮移動(dòng)的椅子。
OpenAI在技術(shù)報(bào)告中坦誠(chéng)地公布了Sora的不成熟之處,表示Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,可能無(wú)法理解因果關(guān)系,可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時(shí)間推移發(fā)生的事件,如遵循特定的相機(jī)軌跡等。
英偉達(dá)高級(jí)科學(xué)家Jim Fan指出,目前Sora對(duì)涌現(xiàn)物理的理解是脆弱的,遠(yuǎn)非完美,仍會(huì)產(chǎn)生嚴(yán)重、不符合常識(shí)的幻覺(jué),還不能很好地掌握物體間的相互作用。
“Sora對(duì)真實(shí)世界的模擬還有很大提升空間,就目前的展示內(nèi)容來(lái)看,并不意味著它已經(jīng)‘讀懂了’物理規(guī)律?!倍嗄陱氖?a class="article-link" target="_blank" href="/tag/%E8%AE%A1%E7%AE%97%E6%9C%BA/">計(jì)算機(jī)視覺(jué)研究的上海交通大學(xué)人工智能研究院副教授王韞博認(rèn)為。
圖靈獎(jiǎng)得主、Meta首席AI科學(xué)家楊立昆(Yann LeCun)在社交平臺(tái)上表示:“一個(gè)AI模型可以生成逼真的視頻,但并不代表這個(gè)AI可以理解世界?!彼岢鲞^(guò)生成式模型不適合處理視頻的觀點(diǎn),并指出目前最有希望(落地)的是圖像識(shí)別模型,并不是生成式模型。
此外,Sora的出現(xiàn)也進(jìn)一步加劇了人們對(duì)于AI倫理和安全治理方面的擔(dān)憂。中國(guó)人民大學(xué)哲學(xué)院教授、國(guó)家發(fā)展與戰(zhàn)略研究院研究員劉永謀指出,在AI短視頻建構(gòu)的世界中,顯然不能將眼睛看到的東西作為判斷依據(jù)。Sora的應(yīng)用,無(wú)疑將進(jìn)一步加劇當(dāng)代社會(huì)的“后真相”狀況,真實(shí)與虛擬的邊界進(jìn)一步模糊,甚至完全被消解?!斑@需要我們高度警惕”。
DCCI互聯(lián)網(wǎng)研究院院長(zhǎng)劉興亮表示,隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來(lái)越模糊,如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問(wèn)題也需要得到妥善解決。社會(huì)必須面對(duì)這些挑戰(zhàn),通過(guò)制定相關(guān)政策、法律和倫理準(zhǔn)則來(lái)確保技術(shù)的健康發(fā)展,同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害。
OpenAI仍在進(jìn)擊中
當(dāng)前,OpenAI的估值在Sora的驅(qū)動(dòng)下,正在大幅飆升。市場(chǎng)預(yù)計(jì),在最新一輪由風(fēng)投公司Thrive Capital牽頭的融資中,OpenAI的估值有望超過(guò)800億美元(約合5755億元)。而作為對(duì)比,OpenAI去年年初發(fā)布ChatGPT的時(shí)候,該公司的估值大約為290億美元(約合2086億元)。
然而,OpenAI在生成式AI領(lǐng)域的野心顯然不止于此。除了先后甩出“ChatGPT”和“Sora”兩張“王炸”,攻破自然語(yǔ)言模型和視頻生成模型兩座“堡壘”,OpenAI還公布了籌資7萬(wàn)億美元建立“芯片帝國(guó)”的計(jì)劃。這筆巨額投資相當(dāng)于美國(guó)GDP(國(guó)內(nèi)生產(chǎn)總值)的25%,中國(guó)GDP的40%,全球GDP的10%。
OpenAI CEO奧特曼透露,目前OpenAI每天生成約1000億個(gè)單詞,需要大量的GPU(圖形處理器)芯片進(jìn)行訓(xùn)練計(jì)算——這或許是奧特曼“造芯”的重要原因之一。此前,他曾多次“抱怨”AI芯片短缺問(wèn)題,稱(chēng)目前英偉達(dá)的芯片產(chǎn)能已不足以滿足未來(lái)的需求。
據(jù)業(yè)內(nèi)人士估算,ChatGPT訓(xùn)練一次大約需要2.5萬(wàn)塊英偉達(dá)A100芯片。如果訓(xùn)練GPT-5,則還需要5萬(wàn)張英偉達(dá)H100芯片。市場(chǎng)分析認(rèn)為,隨著GPT模型的不斷迭代升級(jí),未來(lái)GPT-5或?qū)⒊霈F(xiàn)無(wú)“芯”可用的情況。所以對(duì)于OpenAI而言,下場(chǎng)造芯是順理成章,也是必然選擇。
1月20日消息,阿爾特曼正在與中東阿布扎比G42基金、日本軟銀集團(tuán)等全球投資者籌集超過(guò)80億美元資金,成立一家全新 AI 芯片公司,目標(biāo)是利用資金建立一個(gè)工廠網(wǎng)絡(luò)來(lái)制造芯片,直接對(duì)標(biāo)英偉達(dá),目前談判仍處于早期階段。1月25日,奧特曼在韓國(guó)與存儲(chǔ)芯片龍頭SK海力士、三星電子集團(tuán)的高管會(huì)面,重點(diǎn)提及構(gòu)建“AI 芯片聯(lián)盟”,雙方或?qū)⒃?AI 芯片設(shè)計(jì)、制造等方面與三星和SK集團(tuán)合作。
除了建廠和供應(yīng)鏈合作之外,OpenAI還至少投資了 3 家芯片公司,包括美國(guó)知名算力芯片公司Cerebras(簡(jiǎn)化芯片制造流程)、芯片初創(chuàng)企業(yè)Rain Neuromorphics(擅長(zhǎng)算法訓(xùn)練)、Atomic Semi(致力于簡(jiǎn)化芯片制造流程,實(shí)現(xiàn)快速生產(chǎn),降低芯片成本)。
作為科技圈的“網(wǎng)紅”公司,OpenAI的一舉一動(dòng)都會(huì)引發(fā)業(yè)界高度關(guān)注。從自然語(yǔ)言模型ChatGPT到視頻生成模型Sora,再到AI芯片產(chǎn)業(yè)鏈,OpenAI在生成式AI領(lǐng)域的布局將幫助其確立在算法和算力上的優(yōu)勢(shì),進(jìn)而向AGI高地發(fā)起總攻。不過(guò),正如楊立昆所言,人工智能技術(shù)仍需在抽象表征空間中不斷探索和發(fā)展。OpenAI能否繼續(xù)保持領(lǐng)先地位,搶先奔赴AGI的未來(lái),仍有待時(shí)間揭曉。
作者:宋婧,編輯:趙晨,美編:馬麗亞,監(jiān)制:連曉東