賈浩楠 發(fā)自 副駕寺,智能車(chē)參考 | 公眾號(hào) AI4Auto
商湯絕影,正在展現(xiàn)“CVPR最佳論文”之外的實(shí)力。
首先是在超越車(chē)端算法的AI大模型實(shí)力:自動(dòng)駕駛的云端世界模型,和智能座艙的流式多模態(tài)大模型。
作為智能汽車(chē)供應(yīng)商,還完成了350萬(wàn)輛+的產(chǎn)品上車(chē)搭載里程碑。
更重要到,商湯絕影作為技術(shù)絕對(duì)領(lǐng)先的端到端“T0”級(jí)別玩家,現(xiàn)出對(duì)主機(jī)廠的合作吸引力和落地加速度。
商湯絕影CTO肖楓直接說(shuō):“地大華魔”的頭部格局,已經(jīng)是過(guò)去式了。
絕影新進(jìn)展:云端世界模型和車(chē)端多模態(tài)大腦
商湯絕影剛剛辦了自己的第一個(gè)AI DAY,其實(shí)說(shuō)成是一場(chǎng)“交卷答辯”更為合適。
交的卷可以分成技術(shù)和落地兩方面。
首先是量產(chǎn)智駕方面,絕影首次公開(kāi)了自己的世界模型——開(kāi)悟。
簡(jiǎn)單的理解就是一個(gè)自動(dòng)駕駛專用版的Sora大模型,用來(lái)解決端到端研發(fā)體系中的仿真問(wèn)題。
開(kāi)悟世界模型可以理解真實(shí)世界中的物理法則和交通規(guī)則,在這個(gè)基礎(chǔ)上準(zhǔn)確的生成場(chǎng)景(這是與sora的最大不同)。
具體來(lái)說(shuō),生成的視頻基于11個(gè)攝像頭, 11V保持時(shí)空一致的時(shí)間間隔,最長(zhǎng)可以達(dá)到 150 秒,分辨率能夠達(dá)到1080P。
同時(shí)開(kāi)悟生成的場(chǎng)景也是可控的,能夠細(xì)微的做到元素級(jí)別。
晴天下周邊環(huán)境的投影、夜間車(chē)輛遠(yuǎn)近近光的投射,都是符合物理法則的真實(shí)呈現(xiàn)。
這種感覺(jué)有點(diǎn)像游戲工業(yè)著名的虛幻引擎,但開(kāi)悟世界模型的的不同之處在于,它通過(guò)海量數(shù)據(jù)的學(xué)習(xí)物理法則,而且同時(shí)還學(xué)會(huì)了交通規(guī)則,比如車(chē)輛剎車(chē)的時(shí)候視屏中車(chē)輛會(huì)適當(dāng)?shù)谋3周?chē)距并合理啟停。
而與行業(yè)內(nèi)其他先發(fā)的世界模型相比,開(kāi)悟的優(yōu)勢(shì)在于多視角和清晰度。
目前業(yè)內(nèi)最好的水平現(xiàn)在是6V視角,而開(kāi)悟通過(guò)行人車(chē)輛3D框和時(shí)空軌跡作為精準(zhǔn)的輸入,控制信號(hào)來(lái)生成 11V 的視頻數(shù)據(jù),保證了11個(gè)攝像頭在仿真空間中的時(shí)空一致性。
另外,開(kāi)悟生成的是1080P視頻會(huì)更加清晰,更加方便模型進(jìn)行訓(xùn)練。借助商湯日日新原生多模態(tài)的基模型,開(kāi)悟可以達(dá)到元素級(jí)別的精準(zhǔn)度,可以生成不同的場(chǎng)景和各種的 corner case,比如同一路段雨天變晴天、增加車(chē)輛種類數(shù)目等等。
有了開(kāi)悟世界模型,絕影目前打造了覆蓋 1024 類場(chǎng)景,包括了 50 多類天氣、光照等條件的基礎(chǔ)場(chǎng)景, 200 多類不同的交通標(biāo)志、 300 多類道路的連接的場(chǎng)景,比如說(shuō)路口、環(huán)島還有隧道等等,而在這個(gè)基礎(chǔ)上可以構(gòu)建千萬(wàn)級(jí)別的場(chǎng)景庫(kù),覆蓋更多的長(zhǎng)尾場(chǎng)景。
智能座艙層面,絕影發(fā)布了「A New Member For U」(你的家庭新成員),號(hào)稱讓汽車(chē)擁有「有趣的靈魂」。
核心技術(shù)是我們?cè)敿?xì)介紹過(guò)的商湯原生流式多模態(tài)大模型,以及車(chē)載類人記憶框架和持續(xù)運(yùn)行框架。
體驗(yàn)的亮點(diǎn)是更加“叛逆”,智能座艙不再只是一問(wèn)一答的工具,而是能夠主動(dòng)學(xué)習(xí),自我進(jìn)化。
例如,在旅途中,后排的孩子睡著了,New Member會(huì)主動(dòng)把空調(diào)溫度升高、音樂(lè)的聲量調(diào)低,底盤(pán)和駕駛模式都調(diào)整為舒適模式,給小朋友一個(gè)舒適安心的睡眠環(huán)境。
不需要用戶下指令,而是它觀察到了,思考和推理之后,主動(dòng)的服務(wù)。既不打擾,又有溫度。
車(chē)載類人記憶框架,與人類的記憶機(jī)制非常相似,包括臨時(shí)記憶、長(zhǎng)期記憶和場(chǎng)景記憶三部分,三者結(jié)合讓系統(tǒng)實(shí)現(xiàn)類人的記憶能力。
例如,車(chē)內(nèi)的小朋友看到路上其他小孩吃棉花糖,拿出棒棒糖想偷吃,New Member「家庭新成員」看到了這個(gè)小動(dòng)作,「記得」小朋友剛看完牙醫(yī),不能吃糖,進(jìn)行主動(dòng)提醒。
此外,商湯絕影還打造了能夠持續(xù)推理的Always-on運(yùn)行框架,能夠?qū)⒍嗄B(tài)感知到的信息與各種記憶相結(jié)合,進(jìn)行高效的處理和反饋,做到時(shí)刻感知需求,主動(dòng)為用戶服務(wù)。
兩個(gè)技術(shù)進(jìn)展“交卷”,分別來(lái)自量產(chǎn)智駕和智能座艙領(lǐng)域。
對(duì)應(yīng)在商業(yè)落地層面的,絕影橫跨智駕、座艙,同樣給出了最新的落地進(jìn)展。
商湯絕影,量產(chǎn)走到哪一步
商湯絕影商業(yè)化進(jìn)展,包含在這張圖中:智駕智艙產(chǎn)品上車(chē)數(shù)量超過(guò)350萬(wàn)輛,覆蓋超過(guò)30家車(chē)企100多款車(chē)型。
其中,智能座艙的AI軟件產(chǎn)品,絕影的市場(chǎng)份額是行業(yè)目前絕對(duì)的No.1,連續(xù)五年。舉幾個(gè)例子,比如極氪X上的B柱智慧人臉識(shí)別系統(tǒng)、小米SU7上小愛(ài)同學(xué)識(shí)別路上汽車(chē)品牌、建筑類別等等復(fù)雜目標(biāo)任務(wù)等等,都是絕影的提供的底層能力。
量產(chǎn)智駕上,目前公開(kāi)的有6款車(chē),覆蓋3個(gè)車(chē)企:
產(chǎn)品方案上,包括基礎(chǔ)智駕方案、覆蓋全場(chǎng)景的高階智駕,以及基于UniAD打造的端到端量產(chǎn)智駕方案。
地平線J6E和J6M兩個(gè)平臺(tái),絕影打造了AD Pro和AD Max兩個(gè)量產(chǎn)智駕方案,其中AD Max能夠?qū)崿F(xiàn)城區(qū)無(wú)圖NOP。J6平臺(tái)的智駕方案預(yù)計(jì)明年2季度就會(huì)量產(chǎn)交付。
200+TOPS的車(chē)載算力平臺(tái)上,絕影已經(jīng)具備量產(chǎn)無(wú)圖,無(wú)激光雷達(dá)的1R11V高階智駕方案,實(shí)現(xiàn)不挑城市不挑路段的“門(mén)到門(mén)”智駕。
這套“無(wú)圖純視覺(jué)”端到端方案,奇瑞旗下的大卓智能和東風(fēng)集團(tuán)剛剛和絕影達(dá)成協(xié)議,共同推進(jìn)量產(chǎn)上車(chē)。
新的合作模式中,絕影也不再是一個(gè)簡(jiǎn)單的智艙或智駕模塊供應(yīng)商,而是和主機(jī)廠深度合作,分享商湯積累已久的AI大算力裝置、云服務(wù)、工具鏈等等能力。
為什么會(huì)出現(xiàn)這樣的轉(zhuǎn)變?商湯聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影CEO王曉剛認(rèn)為:
AGI時(shí)代,單打獨(dú)斗的車(chē)企和AI公司都很難脫穎而出。
并且給出了技術(shù)層面的解析。
王曉剛:決戰(zhàn)端到端,車(chē)端遠(yuǎn)遠(yuǎn)不夠
所謂“地大華魔”的格局,是指去年圈內(nèi)流行開(kāi)的量產(chǎn)智駕頭部玩家名單,以定點(diǎn)數(shù)量、輿論聲勢(shì)等作為參考:地平線、大疆、華為、Momenta。
商湯認(rèn)為這樣的評(píng)價(jià)體系已經(jīng)成為過(guò)去式,但理由卻不是常見(jiàn)的端到端帶來(lái)的體驗(yàn)優(yōu)越性。
王曉剛博士以絕影最新的技術(shù)架構(gòu)作為依據(jù):端到端給了所有智駕玩家重新上桌出牌的機(jī)會(huì),但這個(gè)機(jī)會(huì)并不平等。
因?yàn)槎说蕉说臄?shù)據(jù)驅(qū)動(dòng)本質(zhì),決定了它本身上限極高,下限也極低的技術(shù)特征,所謂garbage in,garbage out。
所以商湯提出的第一個(gè)觀點(diǎn),是決勝不在車(chē),不在端到端算法本身,而在云端更加龐大和關(guān)鍵的世界模型,生成仿真數(shù)據(jù),形成雙輪驅(qū)動(dòng)車(chē)云、車(chē)輪一車(chē)云一體。
關(guān)鍵是獲取大量、高質(zhì)量的路測(cè)數(shù)據(jù),當(dāng)然還必須能持續(xù)獲得。
也給出了具體的數(shù)據(jù)尺度:
目前絕影智駕研發(fā)中20%的數(shù)據(jù),都是由開(kāi)悟世界模型生成。在一塊A100 GPU上,世界模型平均每天可以生產(chǎn)大約2萬(wàn)個(gè)bundle,相當(dāng)于100臺(tái)路測(cè)車(chē)的數(shù)據(jù)采集能力,或500 臺(tái)量產(chǎn)車(chē)回傳有效數(shù)據(jù)的效率。
而這樣的GPU,商湯一共有超過(guò)5.4萬(wàn)塊,另外世界模型生成的訓(xùn)練數(shù)據(jù),往后還會(huì)進(jìn)一步占比達(dá)到80%。
這其實(shí)才是“絕影”真正一日千里的核心,也是車(chē)企和AI公司無(wú)法“獨(dú)贏”的底層邏輯。
特斯拉因其不可復(fù)制的歷史原因,率先擁有了 700 萬(wàn)輛高階智駕量產(chǎn)車(chē),和算力達(dá)到 10萬(wàn)PFLOPS的基礎(chǔ)設(shè)施,已經(jīng)拿穩(wěn)了L2+終局的門(mén)票。
但根據(jù)第三方統(tǒng)計(jì),我們國(guó)內(nèi)支持城區(qū)輔助駕駛高階支架的車(chē)的數(shù)量約為數(shù)十萬(wàn)輛,并且不同的車(chē)型數(shù)據(jù)的基礎(chǔ)設(shè)施也不統(tǒng)一,云端算力與特斯拉也有兩個(gè)數(shù)量級(jí)的差距。
國(guó)內(nèi)車(chē)廠要想追趕上,必須要通過(guò)新的模式來(lái)革新數(shù)據(jù)基礎(chǔ)設(shè)施。
商湯絕影,同樣因其難以復(fù)制的歷史原因,形成了傳統(tǒng)自動(dòng)駕駛創(chuàng)業(yè)公司無(wú)法具備的大算力、大模型能力。
所以大卓、東風(fēng)和絕影的合作模式,超越傳統(tǒng)的地方不僅在于絕影愿意白盒交付,更關(guān)鍵在于絕影愿意把基礎(chǔ)設(shè)施、底層工具直接部署到主機(jī)廠,合作開(kāi)發(fā)。
換言之,將傳統(tǒng)智駕模塊用AI算法替代實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)并不難,甚至如今連“門(mén)檻”都算不上。端到端上車(chē)的體驗(yàn)、效率,關(guān)鍵是背后的數(shù)據(jù)能力。
所以從這個(gè)角度看,商湯絕影是目前智能供應(yīng)商中的唯一:頂尖AI大牛團(tuán)隊(duì)、全棧智艙智駕交付能力、“純血”一段式端到端算法、自有超算基礎(chǔ)設(shè)施、完善齊全的各類大模型應(yīng)用。
以及完全To B,沒(méi)有任何主導(dǎo)C端整車(chē)意愿的產(chǎn)品策略。