作者 | 老緬,編輯 | 德新
在剛剛結(jié)束不久的北京車展上,除一眾明星車型亮相,供應(yīng)鏈企業(yè)也開始大秀肌肉,其中尤其以端到端大模型為代表,煥新一代的智駕技術(shù)棧掀起了新一輪熱潮。
作為首個提出感知決策一體化自動駕駛通用模型的公司,商湯絕影也在這次車展上第一次向公眾展示了面向量產(chǎn)的端到端自動駕駛解決方案UniAD(Unified Autonomous Driving)的道路測試表現(xiàn)。
UniAD,讓智能駕駛「像人一樣」
相信不少用戶已經(jīng)關(guān)注到,今年以來,幾乎所有車企或產(chǎn)業(yè)鏈公司在宣傳智駕時,最常用的形容詞之一,就是「媲美真人駕駛」。端到端大模型的出現(xiàn),其重要方向之一就是解決「駕駛擬人化」的問題。
商湯絕影在這次北京車展上,展示出了在無高精地圖、僅靠視覺感知的實際道路測試成果:無論是城市道路還是無線的鄉(xiāng)村道路上,搭載UniAD的車輛都能準確地完成大角度左轉(zhuǎn)上橋、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作。
通常城市道路錯綜復(fù)雜,鄉(xiāng)村道路更是路況難測,比如永遠不知道什么時候會有慢行車擋路;什么時候會有電動小三輪突然從側(cè)方出現(xiàn);什么時候前方會有占道施工或臨時堵塞等等。這種無固定性、遇到情況需要依靠車主自身經(jīng)驗解決的行駛場景,在自動駕駛領(lǐng)域被稱之為Corner Case。
盡管類似場景和挑戰(zhàn),在整個駕駛過程中的占比可能不到10%,能否解決這樣的場景,卻是智駕從定位「小眾科技」贏得大眾信任的關(guān)鍵,也是智駕系統(tǒng)安全性的關(guān)鍵。隨著城區(qū)智駕成為高階智駕競爭的主戰(zhàn)場,場景計算的復(fù)雜度呈指數(shù)級增長。大量的人力資源投入也只是增加有限的規(guī)則,無法應(yīng)對數(shù)量無限的復(fù)雜場景和長尾路況?;诖?,端到端技術(shù)的出現(xiàn)開辟了一條新路徑,將智駕的開發(fā)范式從鋪設(shè)大量人力,轉(zhuǎn)變?yōu)槌掷m(xù)算力投入和高質(zhì)量數(shù)據(jù)輸入。
今年年初,特斯拉開始向部分用戶推送FSD V12版本的端到端自動駕駛方案,業(yè)內(nèi)也出現(xiàn)了越來越多的端到端智駕方案,不過大部分端到端方案采用的是更容易落地的由感知和決策兩個模型組成的「兩段式」架構(gòu),兩個模型之間依然存在信息傳遞過濾或丟失的問題。而UniAD將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,也就是一個完全感知決策一體化的「端到端」技術(shù)棧。
借助商湯科技大裝置的算力、高質(zhì)量仿真數(shù)據(jù)以及模型性能,UniAD端到端方案有更高的能力上限,以及強大的學(xué)習(xí)和思考能力;數(shù)據(jù)驅(qū)動的端到端模型泛化能力強、迭代效率快,可以幫助車企低成本快速開城;純視覺感知的無圖方案,進一步降低系統(tǒng)的軟硬件成本,助力智駕普及,實現(xiàn)全國都能開。在端到端系統(tǒng)基礎(chǔ)上,商湯絕影在這次車展期間還介紹了新一代自動駕駛大模型DriveAGI,推動自動駕駛從數(shù)據(jù)驅(qū)動向認知驅(qū)動的躍遷。
大模型登陸小米SU7,智能座艙升維開卷
在此之前的4月23日,商湯科技發(fā)布全新升級的「日日新SenseNova 5.0」大模型。據(jù)悉,6000億參數(shù)的「日日新5.0」采用混合專家架構(gòu)(MOE),具備更強的知識、數(shù)學(xué)、推理及代碼能力,成為國內(nèi)首個全面對標(biāo)甚至超越GPT-4 Turbo的大模型,多模態(tài)能力領(lǐng)先GPT-4V。
基于端云結(jié)合的架構(gòu),商湯端側(cè)大模型大幅超越同量級大模型,越級比肩7B、13B大模型,更適合車端部署。據(jù)官方透露,前不久上市的小米SU7將AI大模型帶進座艙,而商湯日日新大模型也全面助力小愛同學(xué)車載語音場景應(yīng)用。但這不是商湯絕影發(fā)力座艙體驗升維的全部。
據(jù)悉,商湯絕影從去年發(fā)售的Apple Vision Pro汲取靈感,憑借感知技術(shù)和高效的迭代效率,將3D Gaze高精視線交互和3D動態(tài)手勢交互這兩大全新座艙3D交互演示帶到現(xiàn)場,讓觀眾體驗到更符合人類直覺的艙內(nèi)交互方式,推動座艙交互向更安全、更便利的3D交互升維進化。據(jù)現(xiàn)場演示,操作人員坐在模仿座艙的屏幕前,通過3D Gaze高精視線交互和3D動態(tài)手勢交互,方法與Apple Vision Pro相類似。
據(jù)說,這是全球首創(chuàng)的能夠通過視線定位與屏幕圖標(biāo)進行交互的智能座艙技術(shù)。目前,采用「非接觸式」交互已經(jīng)成為智能座艙交互革命的必然趨勢,而視線交互是最為直接和便捷的方案之一。但過去,受限于精度等原因,DMS通常只能做到分心監(jiān)測等艙內(nèi)大面積區(qū)域的識別,很難通過它進行具體的交互動作。
商湯絕影全球首創(chuàng)3D Gaze高精視線交互,通過提升視線的精度,能精準識別到駕駛員注視中控屏或者后排用戶看向后排屏幕的具體的某個圖標(biāo)并進行交互,實現(xiàn)「所見即所選」。這背后,是一套「千人千眼」的高精度三維眼球模型。商湯絕影使用先進的眼動追蹤技術(shù)和高精度的眼部成像設(shè)備,收集并分析駕駛員的眼部數(shù)據(jù),精準為每個人的定制個性化的眼球模型,再以「千人千眼」的高精度三維眼球模型為基礎(chǔ),結(jié)合創(chuàng)新的亞像素級細節(jié)定位和信息融合技術(shù),突破了座艙場景下的視線精度難題,配合手勢、語音甚至是眨眼等方式,將給用戶帶來更智能、更個性化的艙內(nèi)視覺交互體驗。
3D動態(tài)手勢交互則是以超高精的三維手部重建為基礎(chǔ),實時捕捉、識別與分析用戶的三維手勢動作,實現(xiàn)對車輛功能控制的技術(shù),能讓用戶通過手勢隔空進行各類座艙交互。商湯絕影表示,已經(jīng)實現(xiàn)這兩大艙內(nèi)3D交互功能相互配合,如同Vision Pro裸眼上車,革命性改變了座艙交互的方式,讓用戶從傳統(tǒng)的物理按鍵和屏幕觸控方式中解脫出來,打造更符合人類直覺的自然交互體驗。
絕影尋找自己的「問界」
「未來汽車智能化的競爭,本質(zhì)上是通用人工智能技術(shù)融合應(yīng)用的比拼?!惯@是商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家、絕影智能汽車事業(yè)群總裁王曉剛的觀點。而在智能汽車的浪潮里,商湯絕影給自己的定位是:加速智能汽車駛?cè)階GI時代的核心技術(shù)伙伴,將人工智能技術(shù)與汽車產(chǎn)業(yè)深度融合,構(gòu)建了駕 - 艙 - 云三位一體的通用人工智能 (AGI) 技術(shù)架構(gòu),打造了智能駕駛、智能座艙和AI云的多元產(chǎn)品體系。
從技術(shù)實力上來看,背靠商湯的商湯絕影,有毋庸置疑的技術(shù)底蘊和研發(fā)實力,但再好的技術(shù)也需要強力的產(chǎn)品來推動落地和背書。在這一方面,商湯絕影還需要更多強有力的合作伙伴。截至2023年12月,商湯絕影已與本田、比亞迪、長城、廣汽、紅旗、極氪、哪吒、奇瑞、蔚來等超過30家國內(nèi)外車企攜手合作,覆蓋超90款車型,累計交付195萬輛智能汽車。
其中不乏廣汽埃安旗下高端豪華品牌昊鉑王牌車型GT這樣的高端車型,也有極氪X、奇瑞捷途旅行者等中端定位的車型,但商湯絕影還需要更加強有力的爆款車型,讓真正的消費級市場有所感知。
智能車時代,商湯絕影也在找尋自己的那個「問界」。