加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 端到端多模態(tài)自動(dòng)駕駛大模型
    • 當(dāng)前 EMMA 有什么局限性
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

采用 ChatGPT 類似大模型作為自動(dòng)駕駛算法核心的 - Waymo 的端到端多模態(tài)算法 EMMA

2024/11/08
1705
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

最近,一直采用激光雷達(dá)和高精地圖實(shí)現(xiàn) L4 的自動(dòng)駕駛公司 Waymo 的一個(gè)內(nèi)部研究團(tuán)隊(duì),發(fā)布了一篇關(guān)于利用端到端多模態(tài)自動(dòng)駕駛模型實(shí)現(xiàn)自動(dòng)駕駛的新論文。

它采用類似于 ChatGPT?的大語(yǔ)言模型?Gemini LLM?作為算法核心,算法所有的輸入和輸出表示為普通文本,具有非常強(qiáng)大的通用性和泛化性,算法還具有可解釋性。

引起了自動(dòng)駕駛行業(yè)的轟動(dòng)。所以,本文將初步總結(jié)和介紹Waymo 的端到端多模態(tài)自動(dòng)駕駛模型EMMA相關(guān)信息:

目前智能駕駛行業(yè)算法的四種算法方案。

“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是怎么做的?

當(dāng)前 EMMA 類方案有什么局限性?

對(duì)當(dāng)前智能駕駛乃至汽車(chē)行業(yè)產(chǎn)生什么影響?

希望能給大家?guī)?lái)一些智能駕駛和汽車(chē)發(fā)展的信息和思路。

目前智能駕駛行業(yè)算法的四種算法方案模塊化自動(dòng)駕駛算法

模塊化的高階智能駕駛系統(tǒng)采用,感知?、地圖、預(yù)測(cè)和規(guī)劃等不同的模塊或者組件來(lái)實(shí)現(xiàn)。

這種設(shè)計(jì)便于單個(gè)模塊或組件的調(diào)試和優(yōu)化,但由于模塊間的錯(cuò)誤積累和模塊間的通信有限,它在可擴(kuò)展性方面面臨挑戰(zhàn)。特別需要指出的是,這些模塊通常是基于目標(biāo)場(chǎng)景預(yù)先定義的,所以,這些基于規(guī)則設(shè)計(jì)的模塊間接口(例如感知和行為模塊之間的接口)可能難以適應(yīng)新環(huán)境。

這種方案在現(xiàn)在的智能駕駛應(yīng)用,能夠?qū)崿F(xiàn)針對(duì)性場(chǎng)景下高性能,高性價(jià)比,我們之前文章《被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛》中介紹的Mobileye是這方面的強(qiáng)者代表。

端到端自動(dòng)駕駛算法

特斯拉FSD V12,首先發(fā)起在智能駕駛方面采用端到端的自動(dòng)駕駛算法,直接從傳感器數(shù)據(jù)學(xué)習(xí)生成駕駛行為。該方法消除了模塊之間信號(hào)接口的需求,并允許從原始傳感器輸入聯(lián)合優(yōu)化駕駛目標(biāo)。這種端到端算法是專門(mén)針對(duì)駕駛這種特定的任務(wù),它需要收集大量的道路駕駛數(shù)據(jù)來(lái)訓(xùn)練全新的模型。

這也就是當(dāng)前特斯拉以及國(guó)內(nèi)一眾智能駕駛公司的方法,數(shù)據(jù),算力為王,大家都在賣(mài)力重復(fù)造自己的輪子,希望有朝一日自己輪子能夠成為米其林或者馬牌輪胎,獨(dú)步天下。但是,長(zhǎng)尾理論一直存在,大家一直在 push 尋找這個(gè)長(zhǎng)尾到底有多長(zhǎng)。端到端自動(dòng)駕駛算法+LVM圖像語(yǔ)言模型。我們之前文章《智能駕駛技術(shù)演進(jìn)與未來(lái)挑戰(zhàn):從目標(biāo)物識(shí)別到大模型上車(chē)》分享了將現(xiàn)有智能駕駛系統(tǒng)的能力與多模特語(yǔ)言模型進(jìn)行整合和增強(qiáng)的案例,它就是借用大語(yǔ)言模型對(duì)世界理解的能力去解讀道路圖片信息來(lái)增強(qiáng)端到端算法能力,彌補(bǔ)長(zhǎng)尾。

業(yè)內(nèi)理想汽車(chē)最新的自動(dòng)駕駛就是采用此類方案E2E大模型+LVM圖像語(yǔ)言模型。

端到端多模態(tài)自動(dòng)駕駛大模型

本文介紹的 Waymo 端到端多模態(tài)自動(dòng)駕駛模型EMMA是另外一種方法,當(dāng)然它目前只是學(xué)術(shù)論文,沒(méi)有進(jìn)行工程化。它采用多模態(tài)大型語(yǔ)言模型為自動(dòng)駕駛中的人工智能提供了一個(gè)有前景的新范式,采用專門(mén)針對(duì)駕駛調(diào)整過(guò)的通用基礎(chǔ)大語(yǔ)言模型,作為智能駕駛算法的核心算法或者組件。大語(yǔ)言模型在兩個(gè)關(guān)鍵領(lǐng)域表現(xiàn)出色,所以采用它不需要重新訓(xùn)練一個(gè)模型:

    他們是基于人類在互聯(lián)網(wǎng)上積累的文字信息訓(xùn)練而成,所以可以理解為三體中的“智子”他把人類豐富的“世界知識(shí)”全部折疊進(jìn)入它算法內(nèi),它的知識(shí)量遠(yuǎn)遠(yuǎn)超過(guò)我們常見(jiàn)駕駛?cè)罩局兴膬?nèi)容。它們通過(guò)鏈?zhǔn)剿季S推理等技術(shù)展示了卓越的推理能力 ,這些能力在專用駕駛系統(tǒng)中并不具備。

其實(shí)目前業(yè)內(nèi)已經(jīng)有兩三家開(kāi)始靠近這個(gè)方案,例如我們之前文章《探秘美國(guó)加州自動(dòng)駕駛路試:豪橫競(jìng)逐、勤奮探索與技術(shù)挑戰(zhàn)》提到的采用Open AI大模型的 Ghost (今年已經(jīng)倒閉)和 Wayve,但他們應(yīng)該是部分采用這個(gè)思維。

“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是怎么做的?

“端到端多模態(tài)自動(dòng)駕駛模型”(EMMA)是以谷歌的大語(yǔ)言模型 Gemini 框架為算法核心構(gòu)建。Gemini 是一個(gè)基于文本的 LLM,類似于 Open AI的 ChatGPT,它使用大量通用文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,從而獲得世界和人類自然語(yǔ)言的知識(shí)。同時(shí)該算法針對(duì)大量有關(guān)道路和駕駛的文本以及許多其他通用知識(shí)進(jìn)行訓(xùn)練和微調(diào)。此外,還添加了基于駕駛視頻的“端到端”訓(xùn)練。EMMA的關(guān)鍵創(chuàng)新在于能夠同時(shí)處理視覺(jué)輸入(如攝像頭圖像)和非視覺(jué)輸入(如基于文本的駕駛指令和歷史上下文)。通過(guò)將駕駛?cè)蝿?wù)重新表述為視覺(jué)問(wèn)答(VQA)問(wèn)題,這樣,EMMA能夠利用Gemini原有模型中編碼的大量知識(shí),同時(shí)賦予其處理各種駕駛?cè)蝿?wù)的能力。以下是論文中討論的幾個(gè)關(guān)鍵要素:

多模態(tài)輸入:EMMA接受攝像頭圖像(視覺(jué)數(shù)據(jù))以及導(dǎo)航等文本輸入,駕駛指令和歷史上下文,使其能夠理解并應(yīng)對(duì)涉及視覺(jué)和非視覺(jué)信息的復(fù)雜駕駛場(chǎng)景。

視覺(jué)問(wèn)答VQA方法:將駕駛?cè)蝿?wù)重新表述為視覺(jué)問(wèn)答問(wèn)題,允許EMMA在文本指令的上下文中解讀視覺(jué)數(shù)據(jù)。這有助于模型更好地理解駕駛中的動(dòng)態(tài)和多樣化的情況。

使用任務(wù)特定提示進(jìn)行微調(diào):EMMA通過(guò)使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使其能夠生成各種駕駛輸出,如運(yùn)動(dòng)規(guī)劃的未來(lái)軌跡、感知目標(biāo)、道路圖元素和場(chǎng)景語(yǔ)義等。

EMMA概述圖:

它的三個(gè)輸入:

導(dǎo)航指令,類似于人類使用導(dǎo)航一樣,系統(tǒng)接收來(lái)自于導(dǎo)航的high level高層次文本指令,例如前方100m左轉(zhuǎn),前方路口右轉(zhuǎn)等等類似指令。

自車(chē)的歷史狀態(tài),表示為不同時(shí)間戳下的鳥(niǎo)瞰視圖(BEV)空間中的一組路標(biāo)坐標(biāo)。所有的路標(biāo)坐標(biāo)都表示為普通文本,不使用專門(mén)的標(biāo)記。方便擴(kuò)展為包含更高階的自車(chē)狀態(tài),如速度和加速度。

攝像頭視頻感知。通過(guò)攝像頭感知三維世界、識(shí)別周?chē)奈矬w、道路圖以及交通狀況。Waymo 團(tuán)隊(duì)將EMMA構(gòu)建為一個(gè)通用模型,能夠通過(guò)訓(xùn)練混合處理多個(gè)駕駛?cè)蝿?wù)。Waymo 團(tuán)隊(duì)使用視覺(jué)-語(yǔ)言框架將所有的輸入和輸出表示為普通文本,從而提供了將許多其他駕駛?cè)蝿?wù)融入系統(tǒng)的靈活性。對(duì)原有大語(yǔ)言模型采用指令微調(diào)(instruction-tuning),將感知任務(wù)組織為三個(gè)主要類別:空間推理、道路圖估計(jì)和場(chǎng)景理解。

空間推理

    • 是理解、推理并得出關(guān)于物體及其在空間中的關(guān)系的能力。這使得自動(dòng)駕駛系統(tǒng)能夠解釋并與其周?chē)h(huán)境互動(dòng),從而實(shí)現(xiàn)安全導(dǎo)航。Waymo 團(tuán)隊(duì)巧妙的將空間推理結(jié)果的7維框((x, y, z)是車(chē)輛坐標(biāo)系中的中心位置,l, w, h是邊界框的長(zhǎng)、寬和高,θ是航向角)轉(zhuǎn)換為文本表示。

道路圖估計(jì)

    • 側(cè)重于識(shí)別關(guān)鍵的道路元素,以確保安全駕駛,包括語(yǔ)義元素(如車(chē)道標(biāo)線、標(biāo)志)和物理屬性(如車(chē)道曲率)。這些道路元素集合構(gòu)成了道路圖。

場(chǎng)景理解任務(wù)

    測(cè)試模型對(duì)整個(gè)場(chǎng)景上下文的理解,這對(duì)于駕駛尤為重要。例如,由于施工、緊急情況或其他事件,道路可能暫時(shí)被堵塞。及時(shí)檢測(cè)這些堵塞并安全繞行對(duì)于確保自動(dòng)駕駛車(chē)輛的順暢和安全運(yùn)行至關(guān)重要;然而,場(chǎng)景中的多個(gè)線索必須結(jié)合起來(lái)才能確定是否存在堵塞。

所有的輸入和輸出都是文本信息,EMMA通過(guò)使用駕駛?cè)罩竞腿蝿?wù)特定的提示進(jìn)行微調(diào),從而使微調(diào)的 LLM 語(yǔ)言大模型能夠生成各種駕駛輸出運(yùn)動(dòng)規(guī)劃和駕駛控制信號(hào)。這樣的算法實(shí)現(xiàn)了三個(gè)優(yōu)點(diǎn):

    自監(jiān)督:唯一需要監(jiān)督的是自車(chē)未來(lái)的位置,不需要專門(mén)的人工標(biāo)簽。僅使用攝像頭:唯一的傳感器輸入是周?chē)暯菙z像頭。無(wú)需高清地圖:除了來(lái)自導(dǎo)航系統(tǒng)(如Google Maps類似于我們用的高德和百度地圖)的高層次導(dǎo)航信息外,不需要高清地圖。

其實(shí)端到端大模型,最大的問(wèn)題是可解釋性,EMMA引入了鏈?zhǔn)剿季S提示(Chain-of-Thought Prompting),它可以增強(qiáng)多模態(tài)大型語(yǔ)言模型(MLLMs)的推理能力,并提高其可解釋性。在EMMA中,Waymo團(tuán)隊(duì)通過(guò)要求模型在預(yù)測(cè)最終的未來(lái)軌跡路標(biāo)Otrajectory 時(shí)闡明其決策理由(Orationale),將鏈?zhǔn)剿季S推理融入端到端規(guī)劃軌跡生成中。Waymo 團(tuán)隊(duì)將駕駛推理結(jié)構(gòu)化為四種粗到細(xì)的信息類型:

    R1 - 場(chǎng)景描述:廣泛描述駕駛場(chǎng)景,包括天氣、時(shí)間、交通狀況和道路條件。例如:“天氣晴朗,白天。道路是四車(chē)道的未分隔街道,中間有行人道,街道兩邊停著車(chē)。”R2 - 關(guān)鍵物體:指那些可能影響自車(chē)駕駛行為的路面上的其他代理物體,我們要求模型識(shí)別其精確的3D/BEV坐標(biāo)。例如:“行人位于[9.01, 3.22],車(chē)輛位于[11.58, 0.35]?!盧3 - 關(guān)鍵物體的行為描述:描述已識(shí)別關(guān)鍵物體的當(dāng)前狀態(tài)和意圖。例如:“行人目前站在人行道上,朝向道路,可能準(zhǔn)備過(guò)馬路。車(chē)輛目前在我前方,朝相同方向行駛,未來(lái)軌跡表明它將繼續(xù)直行。”R4 - 元駕駛決策:包括12類高層次駕駛決策,總結(jié)基于前述觀察的駕駛計(jì)劃。例如:“我應(yīng)該保持當(dāng)前的低速?!?/ul>

    Waymo 團(tuán)隊(duì)強(qiáng)調(diào),駕駛推理文本是通過(guò)自動(dòng)化工具生成的,而沒(méi)有任何額外的人工標(biāo)簽,從而確保了數(shù)據(jù)生成流程的可擴(kuò)展性。

    當(dāng)前 EMMA 有什么局限性

    這么好的東西,那么直接上車(chē)了?Waymo 團(tuán)隊(duì)指出其當(dāng)前模型每次只能處理有限數(shù)量的圖像幀(最多4幀),搞自動(dòng)駕駛的朋友肯定知道,當(dāng)前牽扯安全的場(chǎng)景,甚至可能需要更多幀圖片來(lái)確定場(chǎng)景。同時(shí)這限制了其捕捉駕駛?cè)蝿?wù)所需的長(zhǎng)期依賴關(guān)系的能力。有效的自動(dòng)駕駛不僅需要實(shí)時(shí)決策,還需要在較長(zhǎng)的時(shí)間范圍內(nèi)進(jìn)行推理,能夠預(yù)測(cè)并應(yīng)對(duì)不斷變化的場(chǎng)景。所以,此類算法還需要解決長(zhǎng)時(shí)間記憶問(wèn)題。

    另外,目前,哪里有能跑如此多參數(shù)的大模型車(chē)載算力芯片,我們之前文章《高通的下一代智能汽車(chē)芯片 - 驍龍 Cockpit Elite 和 Ride Elite》介紹過(guò)高通下一代智能汽車(chē)芯片,最大能跑數(shù)十億個(gè)參數(shù)的大型語(yǔ)言模型;最近小鵬AI日表示其新一代Turing芯片也最高可運(yùn)行300億 參數(shù)大模型,還不知道何時(shí)能上車(chē)。而現(xiàn)在的大語(yǔ)言模型參數(shù)量都是千億級(jí)別。

    除此之外,隨著算力的增大,整個(gè)計(jì)算系統(tǒng)從緩存到帶寬再到熱管理都需要跟上,這都需要當(dāng)前車(chē)載算力平臺(tái)能夠跟上

    同時(shí),另外一個(gè)要命的問(wèn)題是實(shí)時(shí)性,大模型用作ChatGPT對(duì)話,或者M(jìn)idjourny畫(huà)圖延遲幾秒完全沒(méi)問(wèn)題,不會(huì)影響到生命安全,但是對(duì)于汽車(chē)來(lái)講毫秒必爭(zhēng),都是事關(guān)安全??偟膩?lái)講,當(dāng)前大語(yǔ)言模型,需要通過(guò)蒸餾,來(lái)縮小參數(shù),保證一定的準(zhǔn)確性來(lái)實(shí)現(xiàn)。所以這個(gè)方法必須要優(yōu)化模型,或者將其蒸餾成適合實(shí)時(shí)部署的更緊湊版本,同時(shí)確保不犧牲性能和安全。此外,當(dāng)前這個(gè)模型可以直接預(yù)測(cè)駕駛信號(hào),而無(wú)需依賴中間輸出(如物體檢測(cè)或道路圖估計(jì))。

    這種方法在實(shí)時(shí)驗(yàn)證和后期分析時(shí)帶來(lái)了挑戰(zhàn)。盡管Waymo 團(tuán)隊(duì)已經(jīng)證明,模型可以生成如物體和道路圖預(yù)測(cè)這樣的可解釋輸出,并且駕駛決策可以通過(guò)思維鏈推理來(lái)解釋,但這些輸出與實(shí)際駕駛信號(hào)之間并不總是能夠完全一致,也就是說(shuō)這個(gè)可解釋性目前有時(shí)候也會(huì)出錯(cuò)。最后,當(dāng)前的模型主要依賴于預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(MLLMs),這些模型通常不包括LiDAR或雷達(dá)輸入,汽車(chē)冗余多傳感器方案部署是個(gè)大問(wèn)題。所以此類大模型上車(chē),需要解決工程問(wèn)題有:

      • 強(qiáng)大算力的芯片,支持本地高達(dá)百億,千億參數(shù)的LLM大模型。蒸餾優(yōu)化后縮小參數(shù)可以部署上車(chē)的大模型,適合實(shí)時(shí)部署,同時(shí)確保不犧牲性能和安全,這個(gè)有點(diǎn)和小鵬汽車(chē)的云端大模型,車(chē)端小模型理論相吻合。
        支持長(zhǎng)記憶的LLM大模型,并降低延遲。泛化并融合好例如激光雷達(dá)和雷達(dá)。

    解決好此類的工程問(wèn)題,才為上車(chē)工程化鋪好了路。

    對(duì)當(dāng)前智能駕駛乃至汽車(chē)行業(yè)產(chǎn)生什么影響?

    首先,Waymo 發(fā)布的端到端多模態(tài)自動(dòng)駕駛模型?EMMA 給智能駕駛時(shí)代又添加了一顆定心丸,當(dāng)前基于AI的人工智能,端到端方案理論上能夠?qū)崿F(xiàn)自動(dòng)駕駛,接下來(lái)就是工程化落地。它一定能夠幫助人類實(shí)現(xiàn)自動(dòng)駕駛,而且還不會(huì)太遠(yuǎn)。

    另外,通用人工智能會(huì)成為智能駕駛的發(fā)動(dòng)機(jī),智能汽車(chē)的劃分,可以通過(guò)模型參數(shù)和算力來(lái)實(shí)現(xiàn)能力的分級(jí),猶如燃油車(chē)時(shí)代,發(fā)動(dòng)機(jī)排量決定車(chē)輛的等級(jí)和性能。那么對(duì)于車(chē)企來(lái)講,如果需要贏的智能汽車(chē)時(shí)代,可能需要擴(kuò)大自己的野心,做一個(gè)足夠大的集團(tuán)覆蓋汽車(chē),機(jī)器人等人工智能落地的制造機(jī)器集團(tuán)??赡鼙仨氁匝型ㄓ萌斯ぶ悄懿⒗?AI 賦能整個(gè)汽車(chē)和機(jī)器項(xiàng)目,提高汽車(chē)機(jī)器制造業(yè)的附加值。抑或采用通用人工智能打造差異化產(chǎn)品實(shí)現(xiàn)競(jìng)爭(zhēng)。最終或許通用人工智能接管人類的重復(fù)性的腦力勞動(dòng),猶如現(xiàn)在機(jī)械取代人類的體力勞動(dòng)。

    *未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-參考資料:

    EMMA: End-to-End Multimodal Model
    for Autonomous Driving - waymo

    Could Foundation Models really resolve
    End-to-end Autonomy?
    Hongyang Li

    The Next Frontier in Embodied AI:
    Autonomous Driving
    CUED Guest Lecture – 25 April 2024

    introduce autonomous vehicles?- 英偉達(dá)

    GAIA-1: A Generative World Model for Autonomous Driving - wayve

    加入我們的知識(shí)星球可以下載公眾號(hào)海量參考資料包含以上參考資料。

Waymo

Waymo

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。

Waycom,第一家替代電信運(yùn)營(yíng)商IDF中的云,新阿基坦。電信、主機(jī)和信息管理器。100%云電話。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄