加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • “人與動物”,區(qū)別在哪?
    • “車企低估了AI的難度”
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

對話商湯絕影王曉剛:端到端上車,新的降維打擊開始了

07/15 13:50
614
閱讀需 17 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

賈浩楠 發(fā)自 副駕寺,智能車參考 | 公眾號 AI4Auto

端到端和傳統(tǒng)技術范式的區(qū)別,打個比方,就是人腦通用性之于動物的區(qū)別”。

王曉剛博士這樣解釋自動駕駛賽道如今這個“言必稱”的火爆概念。

他是商湯科技聯(lián)合創(chuàng)始人、首席科學家,也是商湯智能汽車業(yè)務絕影的負責人。

去年6月全球計算機視覺頂會CVPR 2023,他帶領的商湯技術團隊的成果一舉斬獲最佳論文——簡稱UniAD。

如果要標記中國自動駕駛里程碑的話,商湯提出UniAD,可能是一個新賽程的重要起點:

中國,以及業(yè)內首個感知決策一體化的自動駕駛通用大模型

體現(xiàn)著徹底以全局任務為目標的“一段式”結構,并非對以往技術模式的妥協(xié)和改良。

以及UniAD還很有可能是中國第一個真正實現(xiàn)量產(chǎn)上車的端到端自動駕駛體系:商湯科技的樓下,測試車來來往往川流不息。

王曉剛透露,已經(jīng)有很多車廠表現(xiàn)出了濃厚的興趣和合作意愿。

“人與動物”,區(qū)別在哪?

從去年CVPR 2023最佳論文到現(xiàn)在整整一年時間,王曉剛分享商湯絕影做了這么幾件事。

首先是UniAD的產(chǎn)品化、工程化不斷推進,已經(jīng)從幾千行代碼,完成了向符合汽車工業(yè)標準規(guī)范的量產(chǎn)產(chǎn)品的演變。

對于一般的自動駕駛公司來說,這一步可能就是目標和終點,也是最難、最緊迫的挑戰(zhàn)。能全力交付端到端的產(chǎn)品,就能活到下一輪出牌,至于功能、體驗,都可以后期OTA。

但商湯絕影不止步于交付一個單一的自動駕駛模型,更進一步,提出了兩個新的技術和應用:

自動駕駛大模型DriveAGI,和車載AI Agent,幾個月前北京車展期間就曾提及,剛剛結束的WAIC人工智能大會上,又被王曉剛博士著重強調。

同出一源,都是商湯原生多模態(tài)大模型,同時又都以UniAD端到端大模型為基礎,和自動駕駛、智能座艙的功能、體驗深度關聯(lián)。

比如DriveAGI,在無高精地圖,甚至是針對某種類型目標0樣本學習的前提下,也能僅依靠視覺感知實際道路情況,準確地完成包括大角度轉向、避讓占道車輛及施工區(qū)域、繞行跑步行人等一系列高難度操作,做到“像人一樣開車”:

在路上遇到救護車,它還可以自動避讓;遇到潮汐車道或公交車道時,它能根據(jù)限行規(guī)則自動規(guī)避:

除此之外,它也可以切換不同的駕駛風格,當需要趕時間時,你可以告訴DriveAGI開得更快?些;如果是想要放松?下,你還可以讓它開得平穩(wěn)?些。

到這里你會發(fā)現(xiàn),因為多模態(tài)大腦的存在,智駕和智艙,兩種完全隔絕的技術、體驗,第一次產(chǎn)生聯(lián)動和協(xié)作。智能汽車的體驗和交互方式,和以往完全不同了。

現(xiàn)在正值歐洲杯,我們“一邊開車一邊去找一個看比賽的餐館”。你直接告訴車載智能助手:訂一個晚上能夠看歐洲杯比賽的餐館。

商湯絕影基于多模態(tài)大模型的車載AI Agent,會把要求拆解成三個步驟。首先,到小紅書看大家的點評,根據(jù)你的喜好和地理位置給出推薦,接著在美團進行這個預定,最后打開導航,告訴DriveAGI要去的目的地。

王曉剛特別提到,包括對任務的分拆,以及后續(xù)對不同APP的調用、信息內容的總結和操作等等步驟,都是多模態(tài)模型憑借理解認知能力“一氣呵成”,不存在對某一APP或某一類任務的單獨調整適配。

對于智艙來說,多模態(tài)大模型就相當于一個超級管家“賈維斯”,所見即所得。

對于智駕,多模態(tài)大模型相當于一個“點讀機”,圖像、視頻數(shù)據(jù)哪里不會點哪里,不理解的目標場景,都能給出準確的解釋。

聽王曉剛博士講到這里,可以明顯感知到商湯絕影對于端到端的描述和布道,已經(jīng)和業(yè)內主流思路有了底層的區(qū)別:從應對自動駕駛挑戰(zhàn),上升到了AGI在車端應用。

是不是太早了?

王曉剛不這么認為。相反,他認為現(xiàn)在談AGI上車,時機剛好,甚至還有點緊迫,因為AGI應該是端到端的必要條件和前提。

所謂端到端,就是駕駛全流程的AI化,傳感器信息輸入,直接輸出決策數(shù)據(jù)信號。直接的好處,就是可以讓AI模型直接學習成熟的駕駛行為,理論上具備和人一樣的駕駛能力。

端到端對傳統(tǒng)自動駕駛技術范式的降維打擊,是用數(shù)據(jù)驅動替代規(guī)則驅動,解決系統(tǒng)能力上限被鎖死,以及后期無休止高投入、維護難的問題。

這樣的誘人前景讓現(xiàn)在所有玩家都跟進押注。但無論是出于成本考慮還是技術實力所限,現(xiàn)實的情況是大部分產(chǎn)品實現(xiàn)端到端,都是靠“兩段式”方法,即感知模型后面,串一個決策和規(guī)控模型。

但商湯絕影堅持搞“純粹”的一段式端到端模型:輸入一段視頻,輸出一段預測的軌跡。

王曉剛給出的理由是兩段式首先解決不了信息丟失的問題,但更致命的是后串決策規(guī)控模型,“實際上規(guī)模很小”。

小模型永遠無法激發(fā)出應對復雜場景的通用能力,永遠無法產(chǎn)生自動駕駛的ChatGPT。

所以端到端天然就應該是原生大模型,也只有這樣,才能解決自動駕駛從感知向認知轉變的問題。

所以商湯絕影的DriveAGI誕生,把商湯原生多模態(tài)大腦能力應用在車端,能夠同時輸入、處理多種數(shù)據(jù)類型的模型,可以是文本、語音、圖像、視頻等等。

實際上相當于給端到端自動駕駛系統(tǒng),安裝了一個和人類基本認知能力相同的大腦。

底層的思路是這樣:既然大語言模型的學習、認知能力已經(jīng)和人類差別不大了,那為什么不能用語言模型基礎的范式框架去處理其他數(shù)據(jù)類型的任務呢?

實際上就是用大模型語義理解能力去看、去分辨圖像、視頻或者任何類型的數(shù)據(jù)。

現(xiàn)在都說只有端到端才能真無圖,沒有無圖就沒有端到端…這樣的觀點背后暗含著系統(tǒng)能夠“認知”世界的前提,但這是狹義端到端模型本身完成不了的任務。

實際上幾乎所有和智能車參考交流過的業(yè)內人士,都說現(xiàn)在根本不存在絕對的無圖,各家方案都或多或少要用到相關信息。

或者說“端到端”這個大黑盒,決策過程、思維能力等等開發(fā)者根本就無從知曉,“菩提本無樹”。

現(xiàn)階段,商湯絕影根據(jù)歷史研發(fā)積累和技術發(fā)展趨勢給出的最佳解決方案,就是利用多模態(tài)大模型展現(xiàn)出的通用AI能力,解決自動駕駛的認知問題。

王曉剛說,商湯其實早在2021、2022年就已嘗試過構建大感知模型,當時達到了320億參數(shù),是世界上最大的之一。然而,盡管模型龐大且數(shù)據(jù)喂養(yǎng)充足,但其任務仍是識別簡單元素,比如車輛、人物和標注框,高難度數(shù)據(jù)占比很少。換句話說你讓模型看什么、學什么,它就專注于此。

語言模型ChatGPT的創(chuàng)造性震驚世界,由此衍生出推動各行各業(yè)生產(chǎn)力革命的多種產(chǎn)品雛形,其訓練方式并非簡單的識別任務。以往語言模型中的翻譯或識別意圖等任務型訓練,根本無法產(chǎn)生像ChatGPT這樣的模型。

所謂人和動物的區(qū)隔,分水嶺明顯。

“如果要比特定的任務,跑步人跑不過貓科,嗅覺比不上犬科。但這些動物,只在專有的任務里很強,永遠不會進化?!?/p>

“但人是有大腦的,人的特點就是通用性強,能不斷的培養(yǎng)出新的技能,用新的工具發(fā)明創(chuàng)造,搞出很多遠遠超過動物能力范圍之外的東西?!?/p>

商湯絕影為什么要在端到端競爭還未明了的時間節(jié)點大談AGI?

王曉剛認為,目的就是要把智能汽車的大腦培育出來,給自動駕駛一個“點讀機”,一張沒有高精地圖的“高精地圖”,給智能座艙帶來革命性的交互方式變革…

解決了制約自動駕駛、智能座艙功能體驗的技術問題,多模態(tài)大模型上車帶來的AGI潛力,會展現(xiàn)出更多的應用模式,新的東西就會應運而生。

“智能汽車”就不會只停留在現(xiàn)有的維度上了。

“車企低估了AI的難度”

商湯智能汽車業(yè)務絕影,本質是商湯追求布局AGI的過程中,被適時“點亮”的一個技能。

商湯進軍智能車領域始于2016年,當時本田來中國尋找智能駕駛方向的合作伙伴,最后選定了那時以AI視覺知名的商湯。

2017年末,商湯與本田正式對外官宣了合作,并且商湯也正式明確將把AI之力帶給主機廠。

當時商湯提出的產(chǎn)品已經(jīng)體現(xiàn)出了和其他廠商的不同。

有兩個關鍵點,首先是SenseAuto Empower絕影賦能引擎,包括算法工具箱、數(shù)據(jù)管理、回灌和仿真評測系統(tǒng)等工具鏈,供車企靈活定制方案。

但最關鍵的,是這里面內嵌了商湯最強的視覺感知能力,以及大模型體系支持的AGI能力。

第二個關鍵,就是從2018年開始,商湯開始布局算力基礎設施SenseCore商湯大裝置,截至2024年第一季度的總算力規(guī)模已達12000 petaFLOPS。

所以等到商湯的智能汽車業(yè)務2021年以“絕影”之名首次對外公布時,其實已經(jīng)是一個有30+車企合作,智駕、智艙方案定點上車2000萬輛的重要玩家了。

不過不同于其他任何玩家,商湯絕影不是以單一自動駕駛技術或智能座艙產(chǎn)品交付為目標,而是把汽車作為AGI能力的載體。

AI技術立身,尤其擅長計算機視覺的商湯,先后在互聯(lián)網(wǎng)、城市等領域實現(xiàn)場景驗證,在落地的一線戰(zhàn)場上,商湯很早意識到AGI是解決千行百業(yè)各種挑戰(zhàn)難題的“最優(yōu)解”。

這個過程中,逐漸建立了自己的“日日新大模型體系”,涵蓋大語言模型、文生圖/視頻模型、多模態(tài)模型等等,能夠解決眾多開放式任務,率先摸到了通用人工智能的門檻。

而把積累的AGI和大模型能力遷移到具體場景中,王曉剛認為目前汽車是最合適的載體。

因為AGI的基本思路變了,以前是根據(jù)任務去開發(fā)訓練專用模型,而大模型時代,關鍵是訓練出一個很有潛力的能力很強的模型,然后基于這個模型去點亮它各種新功能,不斷去挖掘。

就比如OpenAI最新的ChatGPT-4o,展現(xiàn)的就是端到端的多模態(tài)融合能力。

但是ChatGPT-4o展示時是用手機,智能手機以大屏幕為主的設計理念,本質是照顧以文本輸入為主,和視覺聽覺被動接收這樣的交互方式。

和手機對話或比劃動作、表情,其實對大部分用戶來說都很不自在,否則蘋果的Siri也不至于這么多年做不起來。

但智能汽車天然就是一個主動式的、以語音圖像為主的交互平臺。

所以在商湯絕影的理解中,未來可能AGI落地最廣的會是人形機器人,但這個10年中,無論是終端搭載規(guī)模,還是天然的交互模式,智能汽車就是AGI進行落地的最好的場景和載體。

但是王曉剛又強調,打造通用AI大腦的2.0時代,難度和門檻完全不同。

一個是基礎設施的投入,至少需要幾千塊卡去進行穩(wěn)定的定向訓練,而且訓練中怎么進行數(shù)據(jù)配置,有很多Know How,基本是“資源和金子堆出來的”。

比如多模態(tài)模型,每增加一個模態(tài),它的難度就會乘一個系數(shù)。

語言模型加進圖像的模態(tài),會發(fā)現(xiàn)語言的能力會大大退化,因為加入的圖像需要跟語言配對,而這種配對的數(shù)據(jù)十分稀少,而且以往人工標注描述圖像的文字干癟不準確,所以放進來以后,模型語言能力就會降低很多,必須得想各種辦法再補回來…

AGI越往后難度越高,尤其是自動駕駛領域,沒什么開源,只能靠團隊本身去克服各種障礙。

所以端到端的自動駕駛壁壘不斷變高,將來能夠支撐的團隊會越來越少。

至于今天業(yè)內很多車企嘗試自研,王曉剛認為也不奇怪:拿一些開源的模型試一試,也可以做個七七八八,但低估了AI的難度。

如果把規(guī)控改成一個模型,就叫端到端了,那還真不難,的確自己就能做。但如果想做出體驗、功能持續(xù)迭代能力都很優(yōu)秀的產(chǎn)品,難度會高很多,因為乏持續(xù)高投入的條件。

所以截至目前,王曉剛認為車企和AI公司的合作模式,還不夠理想,需要更多的磨合和探索。

“車廠說今天出了個事故,你給我看一看,趕緊把這個bug解了”…這是我們現(xiàn)在跟車廠的合作模式。

但這樣一來,我們沒有辦法看底層數(shù)據(jù)、拿到最有價值的那一部分,自然很難再去激發(fā)大模型新能力,去產(chǎn)生新的應用,產(chǎn)生降維打擊。

AGI時代的合作,應該超越過去主機廠采購,供應商供貨,然后提供售后服務的簡單模式。

王曉剛說絕影愿意白盒交付,幫助車企伙伴理解和掌握大模型技術,只有基于此,才能更加積極配合團隊共同開發(fā),加速產(chǎn)品迭代,打造真正以用戶為中心的AI大模型產(chǎn)品。

另一方面,作為戰(zhàn)略合作伙伴,絕影和主機廠之間也要實現(xiàn)信息和數(shù)據(jù)的共享,主機廠分享不涉及隱私的數(shù)據(jù)給絕影,更好的訓練出車載原生的大模型,這是共創(chuàng)共贏的。

這一點可能需要更快達成共識,因為有很強的AI技術能力、有10萬塊GPU、又擁有終端數(shù)據(jù)的特斯拉FSD,可能就要在一年、一年半之內落地中國。

王曉剛博士談到這點,透露出罕見的擔憂:

中國車企和科技公司的合作閉環(huán)里,不能只會解bug。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ICM-20948 1 InvenSense Inc Analog Circuit, 1 Func, CMOS, QFN-24
$7.19 查看
ACS712ELCTR-05B-T 1 Sanken Electric Co Ltd Analog Circuit, 1 Func, BICMOS, PDSO8, ROHS COMPLIANT, MS-012AA, SOIC-8
$4.03 查看
A3981KLPTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, PDSO28, 9.70 X 4.40 MM, 1.20 MM HEIGHT, LEAD FREE, MO-153AET, TSSOP-28

ECAD模型

下載ECAD模型
$3.2 查看

相關推薦

電子產(chǎn)業(yè)圖譜