加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 為什么偏偏是Sora?
    • Sora并非完美無瑕
    • OpenAI仍在進擊中
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

Sora并非完美,業(yè)界為何大呼“震撼”?

02/20 10:35
3559
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2024年春節(jié)檔,科技廠商“AI大片”的壓軸戲是這兩天OpenAI亮出的視頻模型Sora,它掀起了“文生視頻熱”,同時也吹響了新一輪大模型進擊的號角。

據(jù)悉,受益于Sora的大火,OpenAI的估值狂飆275%,在最新一輪融資中有望超過800億美元(約合5755億元),躍升為僅次于字節(jié)跳動(2250億美元)和SpaceX(1500億美元)的全球第三大獨角獸。

為什么偏偏是Sora?

明明還沒正式開放,Sora的大名已經(jīng)傳遍國內(nèi)外科技圈。走在東京街道上的時尚女郎、緩緩前進的舞龍隊伍、踏雪而來的猛犸象、海上自行車比賽……在各大社交媒體上,Sora的Demo(演示)視頻被反復(fù)播放,登頂熱搜。與之形成鮮明對比的是,幾乎同時發(fā)布的谷歌Gemini 1.5 PRO卻似乎被遺忘在了角落。

360總裁周鴻祎高度評價了Sora。他指出,Sora的面世意味著實現(xiàn)AGI(通用人工智能)的時間將從10年縮短到一兩年。在他看來,Sora只是小試牛刀,它展現(xiàn)的不僅僅是視頻制作能力,而是大模型對真實世界有了理解和模擬之后,會帶來新的成果和突破。SpaceX創(chuàng)始人馬斯克則直接在社交媒體上發(fā)布了“gg humans(人類輸了)”的感嘆?!癵g”是電子競技中常用的術(shù)語,意為“Good Games”,通常用來表示對對手的認可和自己認輸?shù)膽B(tài)度。

實際上,AI視頻生成模型并不是一個新鮮事物。谷歌早已發(fā)布零鏡頭視頻生成模型VideoPoet,百度也推出了視頻生成模型UniVG,騰訊發(fā)布了視頻生成模型VideoCrafter2,阿里有自研的視頻生成模型Animate Anyone,甚至AI初創(chuàng)企業(yè)Pika的視頻生成平臺Pika 1.0已率先面向所有用戶開放網(wǎng)頁端訪問權(quán)限。為什么偏偏是OpenAI發(fā)布的Sora“一炮而紅”?

從業(yè)內(nèi)反應(yīng)來看,Sora最令人震撼的技術(shù)突破莫過于視頻時長的巨大提升。Sora能生成長達1分鐘的視頻,遠超市面上其他AI視頻模型。此前,Runway能夠生成4秒的視頻,用戶可以將其最多延長至16秒,這已經(jīng)是AI生成視頻在2023年所能達到的最長時長紀錄:Stable Video能提供4秒的視頻,Pika則提供3秒的視頻。

Sora實現(xiàn)視頻時長的突破,背后的大功臣是其采用的Diffusion transformer模型。該模型融合了擴散模型與自回歸模型的雙重特性,在訓(xùn)練GPT這類大語言模型的時候,OpenAI把句子拆分成tokens(詞符),放到transformer進行訓(xùn)練。在Sora中,則是將不同尺寸、分辨率的視頻拆分成patch(視覺補丁),把patch當(dāng)作tokens放到transformer進行訓(xùn)練。訓(xùn)練完成后再通過解碼,把tokens“渲染”成人們可以看得懂的像素。

另一個震撼性突破在于Sora展示出了對物理世界部分規(guī)律的理解,這是過去文生視頻模型的一大痛點。專家分析指出,Sora帶有“世界模型”的特質(zhì),這讓其在逼真度上更勝一籌。

所謂“世界模型”便是對真實的物理世界進行建模,讓機器能夠像人類一樣,對世界產(chǎn)生一個全面而準(zhǔn)確的認知。這一特質(zhì)會使AI視頻生成更流暢、更符合邏輯。比如,咬一口餅干,餅干上一定會留下齒痕,這樣的邏輯對于人類來說非常簡單,而要讓AI模型領(lǐng)悟前后兩幀畫面之間的邏輯關(guān)聯(lián)則非常困難。它需要從大量數(shù)據(jù)中去學(xué)習(xí)和掌握生成語言、圖像或視頻的某種方法,從而產(chǎn)生難以解釋的“涌現(xiàn)”能力。

“Sora的成功并非偶然?!盕orrester副總裁、研究總監(jiān)戴鯤在接受《中國電子報》記者采訪時表示,這背后有四大推動因素。首先,近期不同領(lǐng)域的最新技術(shù)研究進展是促使Sora實現(xiàn)技術(shù)突破的關(guān)鍵。其次,OpenAI從2016年起就將生成式模型作為戰(zhàn)略方向,長期的技術(shù)創(chuàng)新投入積累是其成功的核心要素。另外,高質(zhì)量的海量數(shù)據(jù)和大規(guī)模高性能硬件投入是必要保證。

Stability AI的CEO埃馬德·莫斯塔克(Emad Mostaque)在社交平臺上感慨稱“奧特曼(OpenAI的創(chuàng)始人兼CEO)真是一個魔術(shù)師”,并表示Sora可以被視為AI視頻的GPT3,將在未來幾年內(nèi)得到擴展、細化、調(diào)整和優(yōu)化。

Sora并非完美無瑕

“與大語言模型相比,文生視頻模型實現(xiàn)難度顯然更大。在技術(shù)實現(xiàn)上面臨的挑戰(zhàn)主要體現(xiàn)在數(shù)據(jù)復(fù)雜性、計算資源需求和多模態(tài)融合三方面?!贝黯H表示。

以數(shù)據(jù)復(fù)雜性為例,首先大語言模型處理的是文本序列,而視頻由連續(xù)幀組成,每一幀都是一個高維圖像,文生視頻模型需要同時處理空間和時間兩個維度的數(shù)據(jù),不僅需要理解單個幀內(nèi)的像素級關(guān)系,還要捕捉幀與幀之間的動態(tài)變化和時序依賴,確保生成的視頻能夠平滑過渡和自然動作,這要求模型具備極高的時空推理能力以及對目標(biāo)對象行為模式的理解;其次,大規(guī)模高質(zhì)量的標(biāo)注視頻數(shù)據(jù)集比大規(guī)模文本數(shù)據(jù)集更難獲取,視頻數(shù)據(jù)涉及對顏色、亮度、運動軌跡等多種視覺特征的編碼和解碼,它的存儲和預(yù)處理也更為復(fù)雜。

與此同時,算力資源的供給也是一個大問題。視頻生成涉及大量的視覺信息處理,所需計算量遠超文本生成。模型可能需要在數(shù)以億計的參數(shù)上進行訓(xùn)練,消耗巨大的GPU算力資源。此外,文生視頻模型需要結(jié)合音頻、文本等多個模態(tài)信息,這就需要模型能夠有效融合不同類型的輸入信號,并輸出相應(yīng)的跨模態(tài)內(nèi)容,無疑將大大增加模型設(shè)計和訓(xùn)練的難度。

現(xiàn)階段的Sora并非完美無瑕。細心的網(wǎng)民們也在公開的Demo視頻中扒出了不少生成式AI的漏洞,比如隨著時間推移,有的人物、動物或物品會消失、變形或者生出分身;或者出現(xiàn)一些違背物理常識的畫面,比如穿過籃筐的籃球、懸浮移動的椅子。

OpenAI在技術(shù)報告中坦誠地公布了Sora的不成熟之處,表示Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,可能無法理解因果關(guān)系,可能混淆提示的空間細節(jié),可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡等。

英偉達高級科學(xué)家Jim Fan指出,目前Sora對涌現(xiàn)物理的理解是脆弱的,遠非完美,仍會產(chǎn)生嚴重、不符合常識的幻覺,還不能很好地掌握物體間的相互作用。

“Sora對真實世界的模擬還有很大提升空間,就目前的展示內(nèi)容來看,并不意味著它已經(jīng)‘讀懂了’物理規(guī)律?!倍嗄陱氖?a class="article-link" target="_blank" href="/tag/%E8%AE%A1%E7%AE%97%E6%9C%BA/">計算機視覺研究的上海交通大學(xué)人工智能研究院副教授王韞博認為。

圖靈獎得主、Meta首席AI科學(xué)家楊立昆(Yann LeCun)在社交平臺上表示:“一個AI模型可以生成逼真的視頻,但并不代表這個AI可以理解世界?!彼岢鲞^生成式模型不適合處理視頻的觀點,并指出目前最有希望(落地)的是圖像識別模型,并不是生成式模型。

此外,Sora的出現(xiàn)也進一步加劇了人們對于AI倫理和安全治理方面的擔(dān)憂。中國人民大學(xué)哲學(xué)院教授、國家發(fā)展與戰(zhàn)略研究院研究員劉永謀指出,在AI短視頻建構(gòu)的世界中,顯然不能將眼睛看到的東西作為判斷依據(jù)。Sora的應(yīng)用,無疑將進一步加劇當(dāng)代社會的“后真相”狀況,真實與虛擬的邊界進一步模糊,甚至完全被消解?!斑@需要我們高度警惕”。

DCCI互聯(lián)網(wǎng)研究院院長劉興亮表示,隨著AI生成內(nèi)容與現(xiàn)實之間的界限變得越來越模糊,如何確保內(nèi)容的真實性和透明性成為了一個重要問題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會必須面對這些挑戰(zhàn),通過制定相關(guān)政策、法律和倫理準(zhǔn)則來確保技術(shù)的健康發(fā)展,同時保護個人和社會的利益不受侵害。

OpenAI仍在進擊中

當(dāng)前,OpenAI的估值在Sora的驅(qū)動下,正在大幅飆升。市場預(yù)計,在最新一輪由風(fēng)投公司Thrive Capital牽頭的融資中,OpenAI的估值有望超過800億美元(約合5755億元)。而作為對比,OpenAI去年年初發(fā)布ChatGPT的時候,該公司的估值大約為290億美元(約合2086億元)。

然而,OpenAI在生成式AI領(lǐng)域的野心顯然不止于此。除了先后甩出“ChatGPT”和“Sora”兩張“王炸”,攻破自然語言模型和視頻生成模型兩座“堡壘”,OpenAI還公布了籌資7萬億美元建立“芯片帝國”的計劃。這筆巨額投資相當(dāng)于美國GDP(國內(nèi)生產(chǎn)總值)的25%,中國GDP的40%,全球GDP的10%。

OpenAI CEO奧特曼透露,目前OpenAI每天生成約1000億個單詞,需要大量的GPU(圖形處理器)芯片進行訓(xùn)練計算——這或許是奧特曼“造芯”的重要原因之一。此前,他曾多次“抱怨”AI芯片短缺問題,稱目前英偉達的芯片產(chǎn)能已不足以滿足未來的需求。

據(jù)業(yè)內(nèi)人士估算,ChatGPT訓(xùn)練一次大約需要2.5萬塊英偉達A100芯片。如果訓(xùn)練GPT-5,則還需要5萬張英偉達H100芯片。市場分析認為,隨著GPT模型的不斷迭代升級,未來GPT-5或?qū)⒊霈F(xiàn)無“芯”可用的情況。所以對于OpenAI而言,下場造芯是順理成章,也是必然選擇。

1月20日消息,阿爾特曼正在與中東阿布扎比G42基金、日本軟銀集團等全球投資者籌集超過80億美元資金,成立一家全新 AI 芯片公司,目標(biāo)是利用資金建立一個工廠網(wǎng)絡(luò)來制造芯片,直接對標(biāo)英偉達,目前談判仍處于早期階段。1月25日,奧特曼在韓國與存儲芯片龍頭SK海力士三星電子集團的高管會面,重點提及構(gòu)建“AI 芯片聯(lián)盟”,雙方或?qū)⒃?AI 芯片設(shè)計、制造等方面與三星和SK集團合作。

除了建廠和供應(yīng)鏈合作之外,OpenAI還至少投資了 3 家芯片公司,包括美國知名算力芯片公司Cerebras(簡化芯片制造流程)、芯片初創(chuàng)企業(yè)Rain Neuromorphics(擅長算法訓(xùn)練)、Atomic Semi(致力于簡化芯片制造流程,實現(xiàn)快速生產(chǎn),降低芯片成本)。

作為科技圈的“網(wǎng)紅”公司,OpenAI的一舉一動都會引發(fā)業(yè)界高度關(guān)注。從自然語言模型ChatGPT到視頻生成模型Sora,再到AI芯片產(chǎn)業(yè)鏈,OpenAI在生成式AI領(lǐng)域的布局將幫助其確立在算法和算力上的優(yōu)勢,進而向AGI高地發(fā)起總攻。不過,正如楊立昆所言,人工智能技術(shù)仍需在抽象表征空間中不斷探索和發(fā)展。OpenAI能否繼續(xù)保持領(lǐng)先地位,搶先奔赴AGI的未來,仍有待時間揭曉。

作者:宋婧,編輯:趙晨,美編:馬麗亞,監(jiān)制:連曉東

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA256A3U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM THICKNESS, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64
$7.71 查看
ATMEGA1284P-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$5.69 查看
ATSAMA5D35A-CU 1 Microchip Technology Inc IC MCU 32BIT 160KB ROM 324LFBGA
$13.36 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜