五月丁香婷婷六月综合,good韩国理论在线三级

作者 | 王博

編輯 |?德新

「人工智能的定律只有一個(gè)，就是規(guī)模定律（Scaling Law），大力出奇跡。端到端是描述方式，更應(yīng)該去考慮如何去生產(chǎn)更多的自動(dòng)駕駛合適的數(shù)據(jù)，來喂養(yǎng)更大更合適的模型，取得更好效果。」這段話，出自毫末智行CEO顧維灝。近日，顧在2024未來汽車先行者大會(huì)上，提到了他認(rèn)為的端到端競(jìng)爭(zhēng)的關(guān)鍵點(diǎn)。端到端的出現(xiàn)，讓自動(dòng)駕駛今年再獲資本熱捧。

不久前，自動(dòng)駕駛?cè)偲爻鲆惠?0.5億美金的融資消息，軟銀領(lǐng)投，英偉達(dá)、微軟跟投，獲投方是一家名為Wayve的英國自動(dòng)駕駛公司。這是軟銀在自動(dòng)駕駛領(lǐng)域的最新一筆投資，之前其已在Cruise、Stack AV等公司身上花掉數(shù)十億美金。Wayve自2017年成立至今，推出的核心產(chǎn)品是GAIA-1、LINGO-2兩個(gè)自動(dòng)駕駛大模型，主打端到端大模型。這一點(diǎn)，和毫末在端到端的布局頗為相像。

毫末已搭建自監(jiān)督感知大模型、自監(jiān)督認(rèn)知大模型，并開始進(jìn)行端到端訓(xùn)練等，雖然命名方式不同，但與Wayve的思考路徑相似。

自動(dòng)駕駛將大模型引入后，解題思路完全改變。從以自動(dòng)駕駛工程師手寫規(guī)則，指導(dǎo)車輛如何駕駛為主，切換到以AI來答卷，讓神經(jīng)網(wǎng)絡(luò)大模型決定如何開車，程序員終于可以「少掉頭發(fā)」。10億美金融資，讓外人見識(shí)到自動(dòng)駕駛大模型的受關(guān)注程度。而其實(shí)，在智駕標(biāo)桿特斯拉和自動(dòng)駕駛的熱土中國公司毫末這里，大模型上車已經(jīng)初試牛刀，勝出希望寄托在數(shù)據(jù)的大力出奇跡。

1.換種思路，解決頭疼問題

大模型概念興起于NLP領(lǐng)域，直到ChatGPT出現(xiàn)后，GPT這一全新的訓(xùn)練范式迅速被自動(dòng)駕駛從業(yè)者認(rèn)同，行業(yè)上下如獲至寶。在GPT被引入之前，2004年美國DARPA那場(chǎng)自動(dòng)駕駛比賽之后的十多年里，研發(fā)模式仍與當(dāng)年的DAPRA如出一轍。以識(shí)別車道線為例，傳統(tǒng)操作步驟是，先采集車道線數(shù)據(jù)，然后進(jìn)行人工標(biāo)注，再把標(biāo)注完的數(shù)據(jù)訓(xùn)練成一個(gè)模型，最后把模型部署上車，再使用規(guī)則控制車輛做出決策。這可以稱之為小模型加手工規(guī)則。

GPT被引入自動(dòng)駕駛后，研發(fā)模式煥然一新。在大模型領(lǐng)域一早布局的Wayve，成立于2017年，直接跳過了傳統(tǒng)的自動(dòng)駕駛研發(fā)模式，瞄準(zhǔn)大模型發(fā)力。只不過，業(yè)內(nèi)最先看到的是特斯拉。在去年6月舉行的CVPR 2023上，特斯拉Autopilot軟件總監(jiān)Ashok Elluswamy透露，團(tuán)隊(duì)正在訓(xùn)練一個(gè)更通用的世界模型。特斯拉引入大模型，一部分原因在于，傳統(tǒng)的自動(dòng)駕駛研發(fā)模式，在城市場(chǎng)景中遇到了困難。仍以車道線場(chǎng)景為例，實(shí)時(shí)預(yù)測(cè)車道線一度是自動(dòng)駕駛頭疼的問題?！败嚨朗侨S數(shù)據(jù)，會(huì)分叉、合并，很難建模?！盇shok Elluswamy解釋道。

特斯拉的做法是，基于生成式大模型，采用自回歸Transformer，將車道令牌化，一次一個(gè)令牌地對(duì)車道進(jìn)行預(yù)測(cè)，對(duì)分叉點(diǎn)、合并點(diǎn)進(jìn)行預(yù)測(cè)。其實(shí)，早于Ashok Elluswamy演講前一天，Wayve已在自家官方博客上發(fā)布GAIA-1，一個(gè)用于自動(dòng)駕駛的生成式大模型。

幾個(gè)月后，這一模型擴(kuò)展至90億參數(shù)，Wayve開始能夠生成逼真的駕駛場(chǎng)景視頻，展示自動(dòng)駕駛“在各種情境的反應(yīng)”，且可以更好地預(yù)測(cè)未來事件。

今年4月，在NVDIA GTC的舞臺(tái)上，Wayve CEO Alex Kendall演講時(shí)表示，「自動(dòng)駕駛行業(yè)花費(fèi)了太多時(shí)間聚焦在復(fù)雜解法上，比如手動(dòng)編碼規(guī)則和高精地圖?！顾谐鰩讉€(gè)自動(dòng)駕駛誤區(qū)，第一個(gè)便是，以為解決感知問題就搞定了自動(dòng)駕駛?！耙雱?chuàng)造一種讓人們感到高興并信任的體驗(yàn)，關(guān)鍵不僅僅是能夠看到世界。

真正的問題在于決策，多智能體復(fù)雜推理，才是自動(dòng)駕駛問題的核心?！彼f。軟銀領(lǐng)投的那筆10.5億美金，也在不久后被官宣，Wayve開始被更多自動(dòng)駕駛領(lǐng)域的從業(yè)者認(rèn)識(shí)和關(guān)注。

2.中國版Wayve，入局端到端

將大模型引入自動(dòng)駕駛，Wayve同行者不止有特斯拉，還有中國的自動(dòng)駕駛公司。在國內(nèi)，大家較早聽聞大模型消息的玩家中，其中一家是開頭提到的毫末。毫末發(fā)布的DriveGPT這一生成式大模型，可用于自動(dòng)駕駛的感知、決策任務(wù)。開啟GPT時(shí)刻之前，毫末最初采用的是encoder+dedocer模型，輸入一串圖片，模型會(huì)輸出一串自動(dòng)駕駛決策動(dòng)作。后來，這家公司還采用基于encoder自編碼的訓(xùn)練方式，輸入感知結(jié)果，mask司機(jī)的駕駛行為，讓系統(tǒng)猜司機(jī)的駕駛行為。

ChatGPT出現(xiàn)后，毫末很快發(fā)現(xiàn)GPT的高效能力，就此入局。生成式大模型有一大任務(wù)，可以歸納為：“建立了一個(gè)神經(jīng)網(wǎng)絡(luò)，以過去或其他輸入為條件，預(yù)測(cè)未來?！辈煌氖?，Wayve和特斯拉輸入的是視頻序列，也就是一段過去的視頻，神經(jīng)網(wǎng)絡(luò)會(huì)預(yù)測(cè)未來可能發(fā)生的事情，生成一段預(yù)測(cè)的視頻序列。

毫末生成的是BEV序列，向大模型輸入一段過去10秒的感知場(chǎng)景，大模型會(huì)生成一段未來2 - 3秒的場(chǎng)景。無論各家輸入的是視頻還是BEV序列，邏輯是相同的。這一方式，與人類司機(jī)駕駛根據(jù)道路狀況做出駕駛決的做法頗為相似。它一改傳統(tǒng)的手寫規(guī)則，轉(zhuǎn)而讓神經(jīng)網(wǎng)絡(luò)決定如何開車，相當(dāng)于借助大模型短暫預(yù)測(cè)了未來。生成式大模型可以用于自動(dòng)駕駛認(rèn)知決策，這是一個(gè)很好的開始。同時(shí)，毫末也在訓(xùn)練基于自監(jiān)督的通用感知大模型，并最終希望將感知大模型、認(rèn)知大模型打通，并引入大語言模型LLM來獲得世界知識(shí)，實(shí)現(xiàn)端到端訓(xùn)練。

發(fā)布GAIA-1幾個(gè)月后，2023年9月，Wayve又在自家官方博客上發(fā)文，介紹了LINGO-1，一款開環(huán)的Driving Commentator C（自動(dòng)駕駛評(píng)論員），這是一個(gè)基于視覺、語言、動(dòng)作的自動(dòng)駕駛交互模型，可以用于解釋自動(dòng)駕駛系統(tǒng)的行為邏輯。今年4月， Wayve推出的LINGO-2，為自動(dòng)駕駛體驗(yàn)開辟全新的控制和定制維度，也是一個(gè)在公共道路上進(jìn)行測(cè)試的視覺語言動(dòng)作模型（VLAM）。這一多模態(tài)大模型被用于增加決策的可解釋性。在Wayve的官方視頻中，用戶可以和車輛進(jìn)行對(duì)話，對(duì)行駛路線等問題進(jìn)行提問，LINGO-2會(huì)給出回應(yīng)，并能實(shí)時(shí)解釋每一項(xiàng)決策背后的過程。

毫末的做法與之相似。他們意識(shí)到，在構(gòu)建對(duì)真實(shí)物理世界的4D感知基礎(chǔ)上，通過多模態(tài)大模型，實(shí)現(xiàn)文、圖、視頻多模態(tài)信息的整合，從而完成4D向量空間到語義空間的對(duì)齊，實(shí)現(xiàn)跟人類一樣的“識(shí)別萬物”的能力。與Wavye類似，毫末也嘗試引入大語言模型LLM，并利用自動(dòng)駕駛領(lǐng)域數(shù)據(jù)finetune后，使得LLM成為一個(gè)老司機(jī)，通過與LLM交互，能夠獲取豐富的世界知識(shí)，甚至能提出決策規(guī)劃建議。

3.奔赴端到端，解決后續(xù)上車問題

大模型時(shí)代，人們見證了初出茅廬ChatGPT 3.0，很快又見識(shí)到更強(qiáng)的文生視頻Sora，再到最近炸場(chǎng)的GPT-4o。這些產(chǎn)品所采用的新技術(shù)，為自動(dòng)駕駛持續(xù)輸送思想的養(yǎng)料。從Wayve和毫末等公司的實(shí)踐看，大家都在遵循著大模型的思路，但仍會(huì)分階段地推進(jìn)，比如會(huì)推出解決某個(gè)模塊任務(wù)大模型。

在探索自動(dòng)駕駛最為積極的中國，玩家們會(huì)單獨(dú)布局面向感知的大模型，然后布局用于駕駛決策的規(guī)控大模型。雖然這一過程中，某些地方還會(huì)用到CNN卷積神經(jīng)網(wǎng)絡(luò)，但整體會(huì)以Transformer為主。所以，Wayve推出GAIA-1也好，LINGO-2也好，這些大模型也會(huì)進(jìn)行統(tǒng)一，成為端到端大模型。而毫末發(fā)布的DriveGPT，同樣是將自動(dòng)駕駛生成式大模型、多模態(tài)大模型、LLM等統(tǒng)一起來后的產(chǎn)物。之后，就是自動(dòng)駕駛大模型上車，將大模型從云端搬到車端的過程。鑒于人工智能大模型的競(jìng)賽，是涉及算法、數(shù)據(jù)、算力的挑戰(zhàn)，自動(dòng)駕駛的競(jìng)爭(zhēng)也會(huì)圍繞這些維度展開。

進(jìn)入端到端的大門，僅僅是第一步，緊接著就是數(shù)據(jù)的比拼。正如顧維灝所說，自動(dòng)駕駛經(jīng)歷了硬件驅(qū)動(dòng)、軟件驅(qū)動(dòng)，現(xiàn)在正進(jìn)入數(shù)據(jù)驅(qū)動(dòng)時(shí)代。“數(shù)據(jù)驅(qū)動(dòng)有一個(gè)很典型的特征就是它是大模型的，更多通過模型來實(shí)現(xiàn)整個(gè)的過程?！案嗟臄?shù)據(jù)，會(huì)讓自動(dòng)駕駛玩家們開始比拼算力，囤積成千上萬塊GPU，從而在云端完成自動(dòng)駕駛大模型的訓(xùn)練。還要不斷進(jìn)行訓(xùn)練投入，傳聞ChatGPT訓(xùn)練一次，需要花費(fèi)1200萬美金。

自動(dòng)駕駛的訓(xùn)練費(fèi)用自然也不會(huì)少。接下來就是大模型上車。按照毫末的說法，動(dòng)輒千億級(jí)參數(shù)的大模型，要在保持效果接近的前提下，縮小到億級(jí)才可能上車。從量產(chǎn)層面看，目前僅有行業(yè)標(biāo)桿特斯拉推出FSD V12，宣布將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò)，經(jīng)過數(shù)百萬個(gè)視頻訓(xùn)練，取代了30多萬行代碼，可以視為端到端落地的最新動(dòng)向。

從一些國內(nèi)自動(dòng)駕駛公司的計(jì)劃看，預(yù)計(jì)在今年下半年，更多的端到端自動(dòng)駕駛方案也將量產(chǎn)上車。資本正在為自動(dòng)駕駛大模型定價(jià)，相信Wayve融資僅是一個(gè)開始。在國內(nèi)，毫末等Wayve的同行者，也許很快會(huì)獲得資本的押注。

畢竟端到端大模型這條路，現(xiàn)在看是最有希望抵達(dá)自動(dòng)駕駛彼岸的方向。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
FT232RQ-TRAY	1	FTDI Chip	USB Bus Controller, CMOS, 5 X 5 MM, GREEN, QFN-32	ECAD模型下載ECAD模型	$4.5	查看
ATMEGA8515L-8AU	1	Microchip Technology Inc	IC MCU 8BIT 8KB FLASH 44TQFP	ECAD模型下載ECAD模型	$4.23	查看
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下載ECAD模型	$15.87	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

FT232RQ-TRAY

FTDI Chip

USB Bus Controller, CMOS, 5 X 5 MM, GREEN, QFN-32