4月11日,毫末智行正式發(fā)布自動駕駛生成式大模型 DriveGPT,中文名雪湖·海若,可以提升自動駕駛認知能力,最終提升規(guī)控效率。
雪湖·海若的核心,是將各種駕駛場景作為Token輸入到模型中,然后輸出一連串有可能發(fā)生的駕駛場景Token。
翻譯成白話就是,讓車認知到自己所處的道路環(huán)境,并決定下一步怎么開。
雪湖·海若的參數(shù)量已經(jīng)達到1200億,接近GPT3時期的參數(shù)規(guī)模。
當然,學習語言和學習開車是不同的,多少參數(shù)量可以將自動駕駛訓練成“老手司機”也沒有一個硬性標準。
但雪湖·海若的出現(xiàn),意味著國內的自動駕駛玩家找到了提升規(guī)控能力的新入口。
拆解“雪湖·海若”,參數(shù)量達1200億
了解雪湖·海若前,先回顧一下ChatGPT,二者頗為相似。
2017年,谷歌首次提出一種新的學習框架——Transformer,可以讓機器同時學習大量文字。相比以往的RNN循環(huán)神經(jīng)網(wǎng)絡的串聯(lián)學習,這種新的學習框架更進一步,可以做到并聯(lián)學習。
2018年,一家叫OpenAI的公司基于Transformer推出了Generative Pre-trained Transformer,簡稱GPT,中文名為生成式預訓練模型,也就是第一代GPT——GPT 1。
在投入更多的數(shù)據(jù)和算力之后,GPT 1又經(jīng)歷了GPT 2、GPT3、GPT3.5的演進。
直到去年11月,它開始可以更聰明地和人類對話,并在OpenAI的重要資方微軟的推動下,一朝成名天下知,成為今天大家熱議的超級產(chǎn)品——ChatGPT。
ChatGPT本質上是一個語言大模型,向ChatGPT輸入一個單詞或文字,模型會給出下一個單詞或文字出現(xiàn)的概率。最終可以和人類對話,是因為模型大量學習了人類的語言,可以基于語言知識庫和推理邏輯給出一個概率式的結果。
在GPT的進化中,參數(shù)量規(guī)模的大小很重要,各代產(chǎn)品的參數(shù)量從最初的1.2億,進化到了15億、1750億。
進化過程中,為了讓對話機器人不胡說八道,Open AI還加入人工反饋機制RLHF,可以理解為由工程師向機器人提出好或者壞的反饋,引導對話機器人變得更加聰明。
如今的ChatGPT,已經(jīng)可以和人類流暢、自然地對話,回答各個領域的問題了。
這么好用的工具,能不能拿來用在自動駕駛領域?
毫末雪湖·海若成為國內首款自動駕駛生成式大模型產(chǎn)品,與ChatGPT有所區(qū)別的是,海若面對的是駕駛語言Drive Language。
大致的運行流程是,向雪湖·海若大模型輸入一段前N秒的環(huán)境信息,比如車輛自身狀態(tài)、周圍障礙物狀態(tài)或者道路環(huán)境等,雪湖·海若就會生成下一個環(huán)境會發(fā)生什么樣的結果,比如其它道路交通參與者和自身車輛的應對措施等等。
那么,機器是怎么運行的呢?
第一步,轉化。
自動駕駛傳感器會采集到各種數(shù)據(jù),并通過BEV感知架構生成一張平面圖的結果。
雪湖·海若會通過網(wǎng)格對BEV的圖像感知結果進行整個空間的離散化,通過判斷每個網(wǎng)格,來形成一個固定大小的詞表作為Token,這一過程結束后,可以把車道線、道路障礙物等現(xiàn)實世界信息轉化為機器可以理解的駕駛語言。
第二步,預訓練。
關于預訓練模型,雪湖·海若稍微有些不同,它從ChatGPT的 encoder+decoder 結構,調整為 Decode-only 結構的 GPT 模 型,通過4000 萬公里的量產(chǎn)車駕駛數(shù)據(jù)進行訓練。
為了讓雪湖·海若不亂開車,毫末還引入人類接管數(shù)據(jù),用大概 5 萬個 Clips 進行反饋模型的訓練, 得到一個打分模型,讓機器最終可以更好地理解所處環(huán)境,并不斷學習作出更優(yōu)秀的自動駕駛決策。
需要指出的是,現(xiàn)在的雪湖·海若是一個云端大模型,雪湖·海若的大模型的成果將首發(fā)落地搭載毫末 HPilot3.0 的新摩卡 DHT-PHEV 上。
如果說ChatGPT是聊天機器人,可以通過聊天互動并給出人類想要的文字答案。雪湖·海若更像是駕駛機器人,更多地讓機器和道路環(huán)境互動,并給出更優(yōu)的駕駛決策答案。
沿著這條路徑向前走,毫末的自動駕駛系統(tǒng)會更像人類,對道路場景的理解和處理更為成熟,路線的盡頭也許正是實現(xiàn)端到端的自動駕駛。
讓機器學習人類駕駛,雪湖·海若這種基于GPT大模型的產(chǎn)品問世,將汽車智能化的迭代與人工智能的演進緊緊綁在了一起。
有了雪湖·海若后,自動駕駛的認知能力會得到更好的提升,進而有助于改善規(guī)劃和控制環(huán)節(jié)。
目前,毫末給出了雪湖·海若幾大應用領域:
- 由于能夠提高規(guī)劃和控制能力,所以可以用于開發(fā)城市NOH;
- 可以用于捷徑推薦;
- 由于可以對一些未來會發(fā)生的道路場景變化進行路徑推演,雪湖·海若還可以擔當智能司機教練,幫助車主更好地開車;
- 可以排除一些駕駛中遇到的困難場景,進行智能救護;
雪湖·海若不僅面向自動駕駛行業(yè),還將對機器人、汽車主機廠、芯片廠商、科研機構等行業(yè)進行相應的能力和資源開放。
目前,雪湖·海若已正式對外開放,開啟對限量首批客戶的合作,北京交通大學計算機與信息技術學院、高通、火山引擎、華為云、京東科技、四維圖新、魏牌新能源、英特爾等已經(jīng)加入。
開放的第一步,是一些數(shù)據(jù)方面的能力,后續(xù)還會陸續(xù)開放駕駛行為驗證、困難場景脫困等能力。
量產(chǎn)進展迅速,破圈拿下三家車企
發(fā)布雪湖·海若之外,量產(chǎn)落地節(jié)奏也十分迅速。根據(jù)毫末智行董事長張凱介紹,公司在2023年取得四個方面的進展。
毫末HPilot:
首款搭載毫末HPilot3.0的新摩卡DHT-PHEV即將上市,第二款搭載毫末HPilot3.0的車型魏牌藍山也將在今年發(fā)布。
目前,毫末HPilot整體已搭載近20款車型。用戶輔助駕駛行駛里程突破4000萬公里,HPilot2.0輔助駕駛日均里程使用率達到了12.6%。
在海外,搭載毫末HPilot的車輛已經(jīng)向歐盟、以色列等地區(qū)和國家的用戶進行交付。接下來還將在中東、南非、澳大利亞等市場投放。毫末HPilot還將量產(chǎn)墨西哥版本及俄羅斯版本。
MANA:
到2023年4月,MANA學習時長超56萬小時,相當于人類司機6.8萬年。
毫末打造的全球首個自動駕駛生成式大模型DriveGPT,已經(jīng)完成基于4000萬公里駕駛數(shù)據(jù)的訓練,參數(shù)規(guī)模達1200億。
城市NOH:
毫末城市NOH已在北京、保定、上海等城市開啟泛化測試,可以進行大規(guī)模量產(chǎn)落地。2024年將有序落地100個城市。
張凱認為,毫末NOH這一采用重感知不依賴高精地圖的方案,量產(chǎn)落地要比行業(yè)內的玩家快了一年以上。
末端物流自動配送:
毫末的末端物流自動配送車小魔駝已在商超履約、智慧社區(qū)、校園配送、餐飲零售、機場巡邏、高校教育、快遞自提、智慧園區(qū)、大氣環(huán)評等九個場景開啟運營。
今年3月,小魔駝2.0獲得北京亦莊無人配送車車輛編碼,開啟亦莊運營。
毫末也成為《北京智能網(wǎng)聯(lián)汽車政策先行區(qū)無人配送測試規(guī)范》升級后,準許在北京市高級別自動駕駛示范區(qū)公開道路進行無人配送車測試的首個公司。
現(xiàn)場,張凱還向外界公布了毫末6P開放合作的重要進展,目前已與3家主機廠簽署定點合同,相關項目正在交付中。
據(jù)HiEV了解,這三家主機廠中,包含長城汽車系之外的主機廠。
與同行相比,毫末的技術迭代和量產(chǎn)節(jié)奏相對更快,是Tier 1中最懂自動駕駛技術的,又是自動公司中最懂如何量產(chǎn)的,同時是數(shù)據(jù)公司中,在量產(chǎn)數(shù)據(jù)積累的基礎上真正實現(xiàn)了數(shù)據(jù)閉環(huán)的玩家。
回顧毫末的發(fā)展歷程,會發(fā)現(xiàn)其野心絕不是成為簡單的Tier1,而是一家人工智能公司。
背后的原因,和核心團隊、技術架構等均有著密切關系。
以張凱、顧維灝、侯軍、甄龍豹為核心的高管團隊,本身融合了主機廠、科技公司的基因。從創(chuàng)立之初,這支團隊一直堅持著數(shù)據(jù)驅動的技術路線。
毫末發(fā)布了中國首個自動駕駛數(shù)據(jù)智能體系MANA雪湖,并建設了智算中心MANA OASIS雪湖·綠洲。
基于L2輔助駕駛系統(tǒng)的大規(guī)模前裝量產(chǎn),毫末站穩(wěn)了量產(chǎn)自動駕駛第一名的位置,并形成了數(shù)據(jù)智能閉環(huán)體系,在迭代速度和成本優(yōu)化上實現(xiàn)良性循環(huán)。
經(jīng)過一年多時間的應用迭代,MANA如今也迎來全面升級,并開始對外賦能行業(yè)。
毫末的整個技術演進軌跡,本質上正是一家汽車垂直領域的人工智能公司,不斷釋放新技術同時快步上車的過程。
如果我們將毫末和特斯拉進行對比,會發(fā)現(xiàn)二者存在很大程度的相似,均在自我驅動不斷推出新技術。
單就自動駕駛而言,從BEV感知算法,到占用網(wǎng)絡Occupancy Network,特斯拉正是通過新技術逐漸進化,讓車輛更夠更好地感知和理解世界,做出更好的規(guī)劃控制。
唯一不同的是,毫末的技術不像特斯拉那樣只提供給自身,更多用于自有的龐大的汽車隊伍,而是面向行業(yè),既服務長城汽車,也在不斷拓展長城系之外的車企客戶。
毫末這次在主機廠合作的范圍突破長城系,給了行業(yè)一個重要信號。
當下,智駕領域量產(chǎn)上車的背景是,一方面,華為車BU的發(fā)展已經(jīng)告訴我們,向車企提供智駕方案時限制重重。另一方面,一些芯片公司、智駕公司正在推出低成本的方案比如行泊一體,并且開始獲得車企的合作訂單。
這些案例告訴我們,智駕方案供應商既面臨上車難,同時又有機會與車企合作。
“我們做了三年前裝量產(chǎn),真的是一個辛苦活,量產(chǎn)和Demo是完全不一樣的。那些沒有做過前裝量產(chǎn)的公司突然宣布進入自動駕駛領域,會陷入苦戰(zhàn)。”張凱在發(fā)布會后這樣感慨道。
所以,有量產(chǎn)經(jīng)驗,且可以滿足車企的智駕方案需求,如此一來,哪怕是具有某家車企背景的智駕供應商,也是具備存活機會的。
破解規(guī)控難題,中國玩家加速進化
在L4級自動駕駛公司聲量日益式微的當下,主機廠成了自動駕駛的堅定支持者。
國外有特斯拉,國內則是毫末、蔚小理、華為等自動駕駛領域的重要玩家。
當下,這些玩家正在進入自動駕駛技術的深水區(qū)——規(guī)劃控制。
“現(xiàn)在的問題不是大家做出來一個開法后不知道這個開法好不好,而是不知道怎么開。” 毫末智行技術副總裁艾銳不久前表示。
同樣的,在被問題到要讓自動駕駛更像老司機,接下來應該解決的核心模塊是哪個時,小鵬汽車自動駕駛副總裁吳新宙也提出類似的觀點,認為小鵬汽車的感知“到現(xiàn)在整體的狀態(tài)是不錯的,核心和具體的工作量還是在預測和規(guī)控上?!?/p>
吳新宙本人是特斯拉FSD的深度使用用戶,在使用過FSD后,他的感受是在很多地方的處理的細膩程度,CNGP不輸于對方。但他不確定的是,對方在中國的復雜場景是否會自如應對,尤其是規(guī)控方面。
余承東則更直接地表示,“中國道路非常復雜,像特斯拉FSD在美國和歐洲容易搞定,在中國來可能夠他們搞的?!?/p>
預測和規(guī)控,考驗的正是自動駕駛的認知能力。
有多年駕駛經(jīng)驗的老手司機,會基于經(jīng)驗對道路環(huán)境進行更為全面預判,迅速作出最優(yōu)的駕駛操作。
自動駕駛也是如此,不僅要感知道路環(huán)境,還要像老手司機一樣,知道自己應該怎么開。
特斯拉走在最前,F(xiàn)SD的功能已經(jīng)在北美城市場景下開啟應用。特斯拉的自動駕駛路線做了一個示范,引導著車企向全自動駕駛的寶座前進。
暫且不去管全自動駕駛何時到來,或者能否到來,至少我們看到了一個共識,車企必須投入自動駕駛研發(fā)。
尤其是毫末、小鵬、華為這些公司,進行了大規(guī)模的自動駕駛技術研發(fā)投入。
各家不斷發(fā)布的新技術,比如雪湖·海若的出現(xiàn),不僅讓我們看到了中國自動駕駛玩家走到了哪里,也讓我們看到了車企投入的堅決。
OpenAI給出的ChatGPT這一生成式對話產(chǎn)品,是人類與機器世界更好地互動的一把鑰匙,毫末的雪湖·海若同樣汽車與道路環(huán)境的互動,是提升自動駕駛規(guī)控的一把鑰匙。
最近有消息稱,特斯拉FSD將有大的更新,未來引入國內市場或許已經(jīng)排上日程。
我們很好奇在中國道路環(huán)境中,特斯拉與國內的自動駕駛玩家會呈現(xiàn)何種格局,究竟是處于跟隨狀態(tài),還是會在規(guī)控環(huán)節(jié)實現(xiàn)技術趕超。