佐思汽研發(fā)布《2024-2025年端到端自動(dòng)駕駛產(chǎn)業(yè)研究報(bào)告》。
端到端自動(dòng)駕駛有全局式(一段式)和分段式(兩段式)兩種,其中全局式端到端思路清晰,研發(fā)成本遠(yuǎn)低于分段式,無(wú)需任何人工標(biāo)注數(shù)據(jù)集,依賴谷歌、META、阿里和OpenAI等開(kāi)發(fā)的多模態(tài)大模型。站在這些科技巨人肩上,性能比分段式端到端要好不少,但部署成本極高。
分段式的感知階段仍然使用傳統(tǒng)的CNN骨干網(wǎng)提取特征,在路徑規(guī)劃階段使用端到端,性能雖然不如全局式,但部署成本比全局式端到端要低。這里的部署成本低是相對(duì)的,與目前主流的傳統(tǒng)BEV+OCC+決策樹(shù)相比,分段式的部署成本還是很高的。
全局式端到端的代表:WAYMO的EMMA
全局式端到端的代表有Waymo的EMMA,直接輸入視頻,沒(méi)有骨干網(wǎng),核心就是多模態(tài)大模型。分段式端到端的代表有UniAD。
分段式端到端的典型代表:UniAD整體架構(gòu)
以能否得到反饋為標(biāo)準(zhǔn),端到端自動(dòng)駕駛的研究主要分為兩類(lèi):一類(lèi)是在模擬器比如CARLA中進(jìn)行,規(guī)劃的下一步指令可以被真實(shí)的執(zhí)行;第二類(lèi)主要是在已經(jīng)采集的現(xiàn)實(shí)數(shù)據(jù)上進(jìn)行端到端研究,主要是模仿學(xué)習(xí),參考UniAD。端到端自動(dòng)駕駛目前都是開(kāi)環(huán)的,不能真正看到自己的預(yù)測(cè)指令執(zhí)行后的效果。由于不能得到反饋,開(kāi)環(huán)自動(dòng)駕駛的測(cè)評(píng)很受限制,現(xiàn)在文獻(xiàn)中常用的兩種指標(biāo)包括L2距離和碰撞率。
-
- L2 距離:通過(guò)計(jì)算預(yù)測(cè)軌跡和真實(shí)軌跡之間的L2距離來(lái)判斷預(yù)測(cè)軌跡的質(zhì)量
Collision Rate碰撞率: 通過(guò)計(jì)算預(yù)測(cè)軌跡和其他物體發(fā)生碰撞的概率,來(lái)評(píng)價(jià)預(yù)測(cè)軌跡的安全性
端到端自動(dòng)駕駛最吸引人之處是性能提升潛力大,最早的端到端是UniAD,這是2022年底的論文,L2距離高達(dá)1.03米,2023年底就大幅提升至0.55米,2024年底進(jìn)一步升到0.22米。地平線是端到端領(lǐng)域最活躍的公司之一,其技術(shù)發(fā)展路徑也顯示出了端到端路線整體的演進(jìn)路徑。UniAD出來(lái)之后,地平線立刻提出理念與UniAD接近的VAD,性能遠(yuǎn)超UniAD。這之后地平線轉(zhuǎn)向全局端到端,第一個(gè)成果是HE-Driver,參數(shù)量比較大,然后是最近的Senna,參數(shù)量有所縮小,也是目前性能最佳的端到端方案之一。
Senna模型
部分端到端系統(tǒng)的核心仍然是傳統(tǒng)算法BEVFormer,BEVFormer默認(rèn)使用了車(chē)輛CAN總線信息,這里面包含了與自車(chē)速度,加速度,轉(zhuǎn)向角相關(guān)的信息,這些都是顯性的,對(duì)路徑規(guī)劃影響很大。這些端到端系統(tǒng)仍然需要監(jiān)督訓(xùn)練,大量的人工標(biāo)注就不可缺少,這讓數(shù)據(jù)成本很高,再有既然借鑒了GPT的理念,為何不直接用LLM?于是有了理想汽車(chē)的DriveVLM。
理想DriveVLM的模型pipeline,主要包括場(chǎng)景描述、場(chǎng)景分析、層級(jí)規(guī)劃三個(gè)主要模塊設(shè)計(jì)。
DriveVLM場(chǎng)景描述模塊的功能主要分為兩部分——環(huán)境描述和關(guān)鍵物體識(shí)別。其中,環(huán)境描述主要是對(duì)共性的駕駛環(huán)境的描述,比如天氣和道路狀況等;關(guān)鍵物體識(shí)別則是為了找出對(duì)于當(dāng)前駕駛決策產(chǎn)生較大影響的關(guān)鍵物體。環(huán)境描述共包括以下四個(gè)部分:天氣、時(shí)間、道路類(lèi)型、車(chē)道線狀況。
區(qū)別于傳統(tǒng)自動(dòng)駕駛感知模塊將所有待檢測(cè)物體都檢出,DriveVLM 專(zhuān)注于識(shí)別當(dāng)前駕駛場(chǎng)景中最有可能影響自車(chē)駕駛決策的物體,稱之為關(guān)鍵物體,因?yàn)槿慷紮z出會(huì)消耗天量算力。得益于理想汽車(chē)?yán)鄯e的海量自動(dòng)駕駛數(shù)據(jù)的預(yù)訓(xùn)練以及開(kāi)源的大模型,VLM相較傳統(tǒng)3D目標(biāo)檢測(cè)器能夠更好的檢出長(zhǎng)尾的關(guān)鍵物體,比如路面雜物或者非常見(jiàn)動(dòng)物等。
對(duì)于每個(gè)關(guān)鍵物體,DriveVLM會(huì)分別輸出其語(yǔ)義類(lèi)別c和對(duì)應(yīng)的2D目標(biāo)框b。預(yù)訓(xùn)練來(lái)自NLP大模型領(lǐng)域,因?yàn)镹LP用的標(biāo)注數(shù)據(jù)很少,很昂貴,預(yù)訓(xùn)練首先利用海量的未標(biāo)注數(shù)據(jù)訓(xùn)練,找到語(yǔ)言結(jié)構(gòu)特征,然后再利用prompt做標(biāo)簽,微調(diào)來(lái)解決具體的下游任務(wù)。
DriveVLM徹底放棄了BEVFormer這種傳統(tǒng)算法做核心,只用多模態(tài)大模型。理想汽車(chē)DriveVLM使用阿里Qwen-VL大模型,參數(shù)量高達(dá)97億,輸入清晰度選擇448*448這種最低清晰度,用英偉達(dá)Orin做推理運(yùn)算。
理想汽車(chē)如何從高端智駕追隨者成為領(lǐng)先者?
2023年初,理想汽車(chē)在NOA大戰(zhàn)中還是一個(gè)落后者,但2023年開(kāi)始全力投入高階自動(dòng)駕駛研發(fā)后,2024年經(jīng)過(guò)多次NOA版本升級(jí),到2024年11月底率先推出車(chē)位到車(chē)位全場(chǎng)景自動(dòng)駕駛,從而成為高階智駕(NOA)量產(chǎn)的領(lǐng)先者。
回顧理想汽車(chē)端到端智駕的發(fā)展歷程,除了自身數(shù)十萬(wàn)用戶提供的數(shù)據(jù)支持外,還與多家合作伙伴開(kāi)展端到端模型的研發(fā)合作。DriveVLM就是理想汽車(chē)和清華大學(xué)合作推出的。
除了上面提到的DriveVLM,理想汽車(chē)還與上海期智研究院、復(fù)旦大學(xué)等推出STR2,與極佳科技、中國(guó)科學(xué)院自動(dòng)化研究所等單位提出DriveDreamer4D,與清華大學(xué)合作推出MoE方案等。
MoE混合專(zhuān)家架構(gòu)
為了解決大模型參數(shù)太多,計(jì)算量太大的弊病,理想汽車(chē)與清華大學(xué)合作,采用了MoE即混合專(zhuān)家架構(gòu)?;旌蠈?zhuān)家(Mixture of Experts,簡(jiǎn)稱MoE)是一種集成學(xué)習(xí)方法,它通過(guò)將多個(gè)專(zhuān)業(yè)化的子模型(即“專(zhuān)家”)組合起來(lái),形成一個(gè)整體模型。每一個(gè)“專(zhuān)家”都在其擅長(zhǎng)的領(lǐng)域內(nèi)做出貢獻(xiàn)。而決定哪個(gè)“專(zhuān)家”參與解答特定問(wèn)題的,是一個(gè)稱為“門(mén)控網(wǎng)絡(luò)”的機(jī)制。每個(gè)專(zhuān)家模型可以專(zhuān)注于解決特定的子問(wèn)題,而整體模型則能夠在復(fù)雜的任務(wù)中獲得更好的性能?;旌蠈?zhuān)家方法適用于處理大規(guī)模數(shù)據(jù)集,能夠有效地應(yīng)對(duì)數(shù)據(jù)量巨大和特征復(fù)雜的挑戰(zhàn)。這是因?yàn)樗梢?a class="article-link" target="_blank" href="/baike/527651.html">并行處理不同的子任務(wù),充分利用計(jì)算資源,提高模型的訓(xùn)練和推理效率。
STR2路徑規(guī)劃方案
STR2是一種基于Vision Transformer(ViT)和混合專(zhuān)家(MoE)架構(gòu)的運(yùn)動(dòng)規(guī)劃方案,由理想汽車(chē)聯(lián)合來(lái)自上海期智研究院、復(fù)旦大學(xué)等高校機(jī)構(gòu)的研究人員共同開(kāi)發(fā)。
-
- STR2專(zhuān)為自動(dòng)駕駛領(lǐng)域設(shè)計(jì),以提升在復(fù)雜和少見(jiàn)交通情況下的泛化能力。STR2 是一種先進(jìn)運(yùn)動(dòng)規(guī)劃器,它通過(guò)結(jié)合Vision Transformer(ViT)編碼器和混合專(zhuān)家(MoE)因果變換器架構(gòu),實(shí)現(xiàn)了對(duì)復(fù)雜交通環(huán)境的深度學(xué)習(xí)和有效規(guī)劃。
STR2的核心思路是利用MoE架構(gòu)在訓(xùn)練過(guò)程中通過(guò)專(zhuān)家路由來(lái)解決模態(tài)崩潰和獎(jiǎng)勵(lì)平衡問(wèn)題,從而提高模型在未知或少見(jiàn)情況下的泛化能力。
DriveDreamer4D世界模型
2024年10月底,極佳科技聯(lián)合中國(guó)科學(xué)院自動(dòng)化研究所、理想汽車(chē)、北京大學(xué)、慕尼黑工業(yè)大學(xué)等單位提出DriveDreamer4D。
-
- DriveDreamer4D 利用世界模型作為數(shù)據(jù)引擎,基于真實(shí)世界的駕駛數(shù)據(jù)合成新軌跡視頻(例如變道場(chǎng)景)。同時(shí),DriveDreamer4D 可以為駕駛場(chǎng)景提供豐富多樣的視角(包括變道、加速和減速等)數(shù)據(jù),以增加動(dòng)態(tài)駕駛場(chǎng)景下的閉環(huán)仿真能力??傮w結(jié)構(gòu)框如圖所示,軌跡生成模塊(NTGM)用于調(diào)整原始軌跡動(dòng)作,如轉(zhuǎn)向角度和速度,以生成新的軌跡。這些新軌跡為提取結(jié)構(gòu)化信息(如車(chē)輛 3D 框和背景車(chē)道線細(xì)節(jié))提供了全新的視角。
隨后,基于世界模型的視頻生成能力,并利用更新軌跡后得到的結(jié)構(gòu)化信息作為控制條件,可以合成新軌跡的視頻。最后,原始軌跡視頻與新軌跡視頻相結(jié)合,進(jìn)行 4DGS 模型的優(yōu)化。