国产手机精品一区二区,日韩免费Av中文字幕人妻

最近，一直采用激光雷達(dá)和高精地圖實(shí)現(xiàn) L4 的自動(dòng)駕駛公司 Waymo 的一個(gè)內(nèi)部研究團(tuán)隊(duì)，發(fā)布了一篇關(guān)于利用端到端多模態(tài)自動(dòng)駕駛模型實(shí)現(xiàn)自動(dòng)駕駛的新論文。

它采用類似于 ChatGPT?的大語(yǔ)言模型?Gemini LLM?作為算法核心，算法所有的輸入和輸出表示為普通文本，具有非常強(qiáng)大的通用性和泛化性，算法還具有可解釋性。

引起了自動(dòng)駕駛行業(yè)的轟動(dòng)。所以，本文將初步總結(jié)和介紹Waymo 的端到端多模態(tài)自動(dòng)駕駛模型EMMA相關(guān)信息：

目前智能駕駛行業(yè)算法的四種算法方案。

“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是怎么做的？

當(dāng)前 EMMA 類方案有什么局限性？

對(duì)當(dāng)前智能駕駛乃至汽車(chē)行業(yè)產(chǎn)生什么影響？

希望能給大家?guī)?lái)一些智能駕駛和汽車(chē)發(fā)展的信息和思路。

目前智能駕駛行業(yè)算法的四種算法方案：模塊化自動(dòng)駕駛算法

模塊化的高階智能駕駛系統(tǒng)采用，感知?、地圖、預(yù)測(cè)和規(guī)劃等不同的模塊或者組件來(lái)實(shí)現(xiàn)。

這種設(shè)計(jì)便于單個(gè)模塊或組件的調(diào)試和優(yōu)化，但由于模塊間的錯(cuò)誤積累和模塊間的通信有限，它在可擴(kuò)展性方面面臨挑戰(zhàn)。特別需要指出的是，這些模塊通常是基于目標(biāo)場(chǎng)景預(yù)先定義的，所以，這些基于規(guī)則設(shè)計(jì)的模塊間接口（例如感知和行為模塊之間的接口）可能難以適應(yīng)新環(huán)境。

這種方案在現(xiàn)在的智能駕駛應(yīng)用，能夠?qū)崿F(xiàn)針對(duì)性場(chǎng)景下高性能，高性價(jià)比，我們之前文章《被逼墻角的Mobileye，祭出 CAIS 大旗，挑戰(zhàn)端到端大模型智能駕駛》中介紹的Mobileye是這方面的強(qiáng)者代表。

端到端自動(dòng)駕駛算法

特斯拉FSD V12，首先發(fā)起在智能駕駛方面采用端到端的自動(dòng)駕駛算法，直接從傳感器數(shù)據(jù)學(xué)習(xí)生成駕駛行為。該方法消除了模塊之間信號(hào)接口的需求，并允許從原始傳感器輸入聯(lián)合優(yōu)化駕駛目標(biāo)。這種端到端算法是專門(mén)針對(duì)駕駛這種特定的任務(wù)，它需要收集大量的道路駕駛數(shù)據(jù)來(lái)訓(xùn)練全新的模型。

這也就是當(dāng)前特斯拉以及國(guó)內(nèi)一眾智能駕駛公司的方法，數(shù)據(jù)，算力為王，大家都在賣(mài)力重復(fù)造自己的輪子，希望有朝一日自己輪子能夠成為米其林或者馬牌輪胎，獨(dú)步天下。但是，長(zhǎng)尾理論一直存在，大家一直在 push 尋找這個(gè)長(zhǎng)尾到底有多長(zhǎng)。端到端自動(dòng)駕駛算法+LVM圖像語(yǔ)言模型。我們之前文章《智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn)：從目標(biāo)物識(shí)別到大模型上車(chē)》分享了將現(xiàn)有智能駕駛系統(tǒng)的能力與多模特語(yǔ)言模型進(jìn)行整合和增強(qiáng)的案例，它就是借用大語(yǔ)言模型對(duì)世界理解的能力去解讀道路圖片信息來(lái)增強(qiáng)端到端算法能力，彌補(bǔ)長(zhǎng)尾。

業(yè)內(nèi)理想汽車(chē)最新的自動(dòng)駕駛就是采用此類方案E2E大模型+LVM圖像語(yǔ)言模型。

端到端多模態(tài)自動(dòng)駕駛大模型

本文介紹的 Waymo 端到端多模態(tài)自動(dòng)駕駛模型EMMA是另外一種方法，當(dāng)然它目前只是學(xué)術(shù)論文，沒(méi)有進(jìn)行工程化。它采用多模態(tài)大型語(yǔ)言模型為自動(dòng)駕駛中的人工智能提供了一個(gè)有前景的新范式，采用專門(mén)針對(duì)駕駛調(diào)整過(guò)的通用基礎(chǔ)大語(yǔ)言模型，作為智能駕駛算法的核心算法或者組件。大語(yǔ)言模型在兩個(gè)關(guān)鍵領(lǐng)域表現(xiàn)出色，所以采用它不需要重新訓(xùn)練一個(gè)模型：

互聯(lián)網(wǎng)

其實(shí)目前業(yè)內(nèi)已經(jīng)有兩三家開(kāi)始靠近這個(gè)方案，例如我們之前文章《探秘美國(guó)加州自動(dòng)駕駛路試：豪橫競(jìng)逐、勤奮探索與技術(shù)挑戰(zhàn)》提到的采用Open AI大模型的 Ghost (今年已經(jīng)倒閉)和 Wayve，但他們應(yīng)該是部分采用這個(gè)思維。

“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是怎么做的？

“端到端多模態(tài)自動(dòng)駕駛模型”（EMMA）是以谷歌的大語(yǔ)言模型 Gemini 框架為算法核心構(gòu)建。Gemini 是一個(gè)基于文本的 LLM，類似于 Open AI的 ChatGPT，它使用大量通用文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練，從而獲得世界和人類自然語(yǔ)言的知識(shí)。同時(shí)該算法針對(duì)大量有關(guān)道路和駕駛的文本以及許多其他通用知識(shí)進(jìn)行訓(xùn)練和微調(diào)。此外，還添加了基于駕駛視頻的“端到端”訓(xùn)練。EMMA的關(guān)鍵創(chuàng)新在于能夠同時(shí)處理視覺(jué)輸入（如攝像頭圖像）和非視覺(jué)輸入（如基于文本的駕駛指令和歷史上下文）。通過(guò)將駕駛?cè)蝿?wù)重新表述為視覺(jué)問(wèn)答（VQA）問(wèn)題，這樣，EMMA能夠利用Gemini原有模型中編碼的大量知識(shí)，同時(shí)賦予其處理各種駕駛?cè)蝿?wù)的能力。以下是論文中討論的幾個(gè)關(guān)鍵要素：

多模態(tài)輸入：EMMA接受攝像頭圖像（視覺(jué)數(shù)據(jù)）以及導(dǎo)航等文本輸入，駕駛指令和歷史上下文，使其能夠理解并應(yīng)對(duì)涉及視覺(jué)和非視覺(jué)信息的復(fù)雜駕駛場(chǎng)景。

視覺(jué)問(wèn)答VQA方法：將駕駛?cè)蝿?wù)重新表述為視覺(jué)問(wèn)答問(wèn)題，允許EMMA在文本指令的上下文中解讀視覺(jué)數(shù)據(jù)。這有助于模型更好地理解駕駛中的動(dòng)態(tài)和多樣化的情況。

使用任務(wù)特定提示進(jìn)行微調(diào)：EMMA通過(guò)使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào)，從而使其能夠生成各種駕駛輸出，如運(yùn)動(dòng)規(guī)劃的未來(lái)軌跡、感知目標(biāo)、道路圖元素和場(chǎng)景語(yǔ)義等。

EMMA概述圖：

它的三個(gè)輸入：

導(dǎo)航指令，類似于人類使用導(dǎo)航一樣，系統(tǒng)接收來(lái)自于導(dǎo)航的high level高層次文本指令，例如前方100m左轉(zhuǎn)，前方路口右轉(zhuǎn)等等類似指令。

自車(chē)的歷史狀態(tài)，表示為不同時(shí)間戳下的鳥(niǎo)瞰視圖（BEV）空間中的一組路標(biāo)坐標(biāo)。所有的路標(biāo)坐標(biāo)都表示為普通文本，不使用專門(mén)的標(biāo)記。方便擴(kuò)展為包含更高階的自車(chē)狀態(tài)，如速度和加速度。

攝像頭視頻感知。通過(guò)攝像頭感知三維世界、識(shí)別周?chē)奈矬w、道路圖以及交通狀況。Waymo 團(tuán)隊(duì)將EMMA構(gòu)建為一個(gè)通用模型，能夠通過(guò)訓(xùn)練混合處理多個(gè)駕駛?cè)蝿?wù)。Waymo 團(tuán)隊(duì)使用視覺(jué)-語(yǔ)言框架將所有的輸入和輸出表示為普通文本，從而提供了將許多其他駕駛?cè)蝿?wù)融入系統(tǒng)的靈活性。對(duì)原有大語(yǔ)言模型采用指令微調(diào)（instruction-tuning），將感知任務(wù)組織為三個(gè)主要類別：空間推理、道路圖估計(jì)和場(chǎng)景理解。

空間推理

道路圖估計(jì)

場(chǎng)景理解任務(wù)

測(cè)試模型對(duì)整個(gè)場(chǎng)景上下文的理解，這對(duì)于駕駛尤為重要。例如，由于施工、緊急情況或其他事件，道路可能暫時(shí)被堵塞。及時(shí)檢測(cè)這些堵塞并安全繞行對(duì)于確保自動(dòng)駕駛車(chē)輛的順暢和安全運(yùn)行至關(guān)重要；然而，場(chǎng)景中的多個(gè)線索必須結(jié)合起來(lái)才能確定是否存在堵塞。

所有的輸入和輸出都是文本信息，EMMA通過(guò)使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào)，從而使微調(diào)的 LLM 語(yǔ)言大模型能夠生成各種駕駛輸出運(yùn)動(dòng)規(guī)劃和駕駛控制信號(hào)。這樣的算法實(shí)現(xiàn)了三個(gè)優(yōu)點(diǎn)：

百度

其實(shí)端到端大模型，最大的問(wèn)題是可解釋性，EMMA引入了鏈?zhǔn)剿季S提示（Chain-of-Thought Prompting），它可以增強(qiáng)多模態(tài)大型語(yǔ)言模型（MLLMs）的推理能力，并提高其可解釋性。在EMMA中，Waymo團(tuán)隊(duì)通過(guò)要求模型在預(yù)測(cè)最終的未來(lái)軌跡路標(biāo)Otrajectory 時(shí)闡明其決策理由（Orationale），將鏈?zhǔn)剿季S推理融入端到端規(guī)劃軌跡生成中。Waymo 團(tuán)隊(duì)將駕駛推理結(jié)構(gòu)化為四種粗到細(xì)的信息類型：

Waymo 團(tuán)隊(duì)強(qiáng)調(diào)，駕駛推理文本是通過(guò)自動(dòng)化工具生成的，而沒(méi)有任何額外的人工標(biāo)簽，從而確保了數(shù)據(jù)生成流程的可擴(kuò)展性。

當(dāng)前 EMMA 有什么局限性

這么好的東西，那么直接上車(chē)了?Waymo 團(tuán)隊(duì)指出其當(dāng)前模型每次只能處理有限數(shù)量的圖像幀（最多4幀），搞自動(dòng)駕駛的朋友肯定知道，當(dāng)前牽扯安全的場(chǎng)景，甚至可能需要更多幀圖片來(lái)確定場(chǎng)景。同時(shí)這限制了其捕捉駕駛?cè)蝿?wù)所需的長(zhǎng)期依賴關(guān)系的能力。有效的自動(dòng)駕駛不僅需要實(shí)時(shí)決策，還需要在較長(zhǎng)的時(shí)間范圍內(nèi)進(jìn)行推理，能夠預(yù)測(cè)并應(yīng)對(duì)不斷變化的場(chǎng)景。所以，此類算法還需要解決長(zhǎng)時(shí)間記憶問(wèn)題。

另外，目前，哪里有能跑如此多參數(shù)的大模型車(chē)載算力芯片，我們之前文章《高通的下一代智能汽車(chē)芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過(guò)高通下一代智能汽車(chē)芯片，最大能跑數(shù)十億個(gè)參數(shù)的大型語(yǔ)言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運(yùn)行300億參數(shù)大模型，還不知道何時(shí)能上車(chē)。而現(xiàn)在的大語(yǔ)言模型參數(shù)量都是千億級(jí)別。

除此之外，隨著算力的增大，整個(gè)計(jì)算系統(tǒng)從緩存到帶寬再到熱管理都需要跟上，這都需要當(dāng)前車(chē)載算力平臺(tái)能夠跟上。

同時(shí)，另外一個(gè)要命的問(wèn)題是實(shí)時(shí)性，大模型用作ChatGPT對(duì)話，或者M(jìn)idjourny畫(huà)圖延遲幾秒完全沒(méi)問(wèn)題，不會(huì)影響到生命安全，但是對(duì)于汽車(chē)來(lái)講毫秒必爭(zhēng)，都是事關(guān)安全?？偟膩?lái)講，當(dāng)前大語(yǔ)言模型，需要通過(guò)蒸餾，來(lái)縮小參數(shù)，保證一定的準(zhǔn)確性來(lái)實(shí)現(xiàn)。所以這個(gè)方法必須要優(yōu)化模型，或者將其蒸餾成適合實(shí)時(shí)部署的更緊湊版本，同時(shí)確保不犧牲性能和安全。此外，當(dāng)前這個(gè)模型可以直接預(yù)測(cè)駕駛信號(hào)，而無(wú)需依賴中間輸出（如物體檢測(cè)或道路圖估計(jì)）。

這種方法在實(shí)時(shí)驗(yàn)證和后期分析時(shí)帶來(lái)了挑戰(zhàn)。盡管Waymo 團(tuán)隊(duì)已經(jīng)證明，模型可以生成如物體和道路圖預(yù)測(cè)這樣的可解釋輸出，并且駕駛決策可以通過(guò)思維鏈推理來(lái)解釋，但這些輸出與實(shí)際駕駛信號(hào)之間并不總是能夠完全一致，也就是說(shuō)這個(gè)可解釋性目前有時(shí)候也會(huì)出錯(cuò)。最后，當(dāng)前的模型主要依賴于預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型（MLLMs），這些模型通常不包括LiDAR或雷達(dá)輸入，汽車(chē)冗余多傳感器方案部署是個(gè)大問(wèn)題。所以此類大模型上車(chē)，需要解決工程問(wèn)題有：

解決好此類的工程問(wèn)題，才為上車(chē)工程化鋪好了路。

對(duì)當(dāng)前智能駕駛乃至汽車(chē)行業(yè)產(chǎn)生什么影響？

首先，Waymo 發(fā)布的端到端多模態(tài)自動(dòng)駕駛模型?EMMA 給智能駕駛時(shí)代又添加了一顆定心丸，當(dāng)前基于AI的人工智能，端到端方案理論上能夠?qū)崿F(xiàn)自動(dòng)駕駛，接下來(lái)就是工程化落地。它一定能夠幫助人類實(shí)現(xiàn)自動(dòng)駕駛，而且還不會(huì)太遠(yuǎn)。

另外，通用人工智能會(huì)成為智能駕駛的發(fā)動(dòng)機(jī)，智能汽車(chē)的劃分，可以通過(guò)模型參數(shù)和算力來(lái)實(shí)現(xiàn)能力的分級(jí)，猶如燃油車(chē)時(shí)代，發(fā)動(dòng)機(jī)排量決定車(chē)輛的等級(jí)和性能。那么對(duì)于車(chē)企來(lái)講，如果需要贏的智能汽車(chē)時(shí)代，可能需要擴(kuò)大自己的野心，做一個(gè)足夠大的集團(tuán)覆蓋汽車(chē)，機(jī)器人等人工智能落地的制造機(jī)器集團(tuán)?？赡鼙仨氁匝型ㄓ萌斯ぶ悄懿⒗?AI 賦能整個(gè)汽車(chē)和機(jī)器項(xiàng)目，提高汽車(chē)機(jī)器制造業(yè)的附加值。抑或采用通用人工智能打造差異化產(chǎn)品實(shí)現(xiàn)競(jìng)爭(zhēng)。最終或許通用人工智能接管人類的重復(fù)性的腦力勞動(dòng)，猶如現(xiàn)在機(jī)械取代人類的體力勞動(dòng)。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料：

EMMA: End-to-End Multimodal Model
for Autonomous Driving - waymo

Could Foundation Models really resolve
End-to-end Autonomy?
Hongyang Li

The Next Frontier in Embodied AI:
Autonomous Driving
CUED Guest Lecture – 25 April 2024

introduce autonomous vehicles?- 英偉達(dá)

GAIA-1: A Generative World Model for Autonomous Driving - wayve

加入我們的知識(shí)星球可以下載公眾號(hào)海量參考資料包含以上參考資料。