4月11日,毫末智行正式發(fā)布自動(dòng)駕駛生成式大模型 DriveGPT,中文名雪湖·海若,可以提升自動(dòng)駕駛認(rèn)知能力,最終提升規(guī)控效率。
雪湖·海若的核心,是將各種駕駛場(chǎng)景作為Token輸入到模型中,然后輸出一連串有可能發(fā)生的駕駛場(chǎng)景Token。
翻譯成白話就是,讓車認(rèn)知到自己所處的道路環(huán)境,并決定下一步怎么開。
雪湖·海若的參數(shù)量已經(jīng)達(dá)到1200億,接近GPT3時(shí)期的參數(shù)規(guī)模。
當(dāng)然,學(xué)習(xí)語(yǔ)言和學(xué)習(xí)開車是不同的,多少參數(shù)量可以將自動(dòng)駕駛訓(xùn)練成“老手司機(jī)”也沒有一個(gè)硬性標(biāo)準(zhǔn)。
但雪湖·海若的出現(xiàn),意味著國(guó)內(nèi)的自動(dòng)駕駛玩家找到了提升規(guī)控能力的新入口。
拆解“雪湖·海若”,參數(shù)量達(dá)1200億
了解雪湖·海若前,先回顧一下ChatGPT,二者頗為相似。
2017年,谷歌首次提出一種新的學(xué)習(xí)框架——Transformer,可以讓機(jī)器同時(shí)學(xué)習(xí)大量文字。相比以往的RNN循環(huán)神經(jīng)網(wǎng)絡(luò)的串聯(lián)學(xué)習(xí),這種新的學(xué)習(xí)框架更進(jìn)一步,可以做到并聯(lián)學(xué)習(xí)。
2018年,一家叫OpenAI的公司基于Transformer推出了Generative Pre-trained Transformer,簡(jiǎn)稱GPT,中文名為生成式預(yù)訓(xùn)練模型,也就是第一代GPT——GPT 1。
在投入更多的數(shù)據(jù)和算力之后,GPT 1又經(jīng)歷了GPT 2、GPT3、GPT3.5的演進(jìn)。
直到去年11月,它開始可以更聰明地和人類對(duì)話,并在OpenAI的重要資方微軟的推動(dòng)下,一朝成名天下知,成為今天大家熱議的超級(jí)產(chǎn)品——ChatGPT。
ChatGPT本質(zhì)上是一個(gè)語(yǔ)言大模型,向ChatGPT輸入一個(gè)單詞或文字,模型會(huì)給出下一個(gè)單詞或文字出現(xiàn)的概率。最終可以和人類對(duì)話,是因?yàn)槟P痛罅繉W(xué)習(xí)了人類的語(yǔ)言,可以基于語(yǔ)言知識(shí)庫(kù)和推理邏輯給出一個(gè)概率式的結(jié)果。
在GPT的進(jìn)化中,參數(shù)量規(guī)模的大小很重要,各代產(chǎn)品的參數(shù)量從最初的1.2億,進(jìn)化到了15億、1750億。
進(jìn)化過程中,為了讓對(duì)話機(jī)器人不胡說八道,Open AI還加入人工反饋機(jī)制RLHF,可以理解為由工程師向機(jī)器人提出好或者壞的反饋,引導(dǎo)對(duì)話機(jī)器人變得更加聰明。
如今的ChatGPT,已經(jīng)可以和人類流暢、自然地對(duì)話,回答各個(gè)領(lǐng)域的問題了。
這么好用的工具,能不能拿來用在自動(dòng)駕駛領(lǐng)域?
毫末雪湖·海若成為國(guó)內(nèi)首款自動(dòng)駕駛生成式大模型產(chǎn)品,與ChatGPT有所區(qū)別的是,海若面對(duì)的是駕駛語(yǔ)言Drive Language。
大致的運(yùn)行流程是,向雪湖·海若大模型輸入一段前N秒的環(huán)境信息,比如車輛自身狀態(tài)、周圍障礙物狀態(tài)或者道路環(huán)境等,雪湖·海若就會(huì)生成下一個(gè)環(huán)境會(huì)發(fā)生什么樣的結(jié)果,比如其它道路交通參與者和自身車輛的應(yīng)對(duì)措施等等。
那么,機(jī)器是怎么運(yùn)行的呢?
第一步,轉(zhuǎn)化。
自動(dòng)駕駛傳感器會(huì)采集到各種數(shù)據(jù),并通過BEV感知架構(gòu)生成一張平面圖的結(jié)果。
雪湖·海若會(huì)通過網(wǎng)格對(duì)BEV的圖像感知結(jié)果進(jìn)行整個(gè)空間的離散化,通過判斷每個(gè)網(wǎng)格,來形成一個(gè)固定大小的詞表作為Token,這一過程結(jié)束后,可以把車道線、道路障礙物等現(xiàn)實(shí)世界信息轉(zhuǎn)化為機(jī)器可以理解的駕駛語(yǔ)言。
第二步,預(yù)訓(xùn)練。
關(guān)于預(yù)訓(xùn)練模型,雪湖·海若稍微有些不同,它從ChatGPT的 encoder+decoder 結(jié)構(gòu),調(diào)整為 Decode-only 結(jié)構(gòu)的 GPT 模 型,通過4000 萬(wàn)公里的量產(chǎn)車駕駛數(shù)據(jù)進(jìn)行訓(xùn)練。
為了讓雪湖·海若不亂開車,毫末還引入人類接管數(shù)據(jù),用大概 5 萬(wàn)個(gè) Clips 進(jìn)行反饋模型的訓(xùn)練, 得到一個(gè)打分模型,讓機(jī)器最終可以更好地理解所處環(huán)境,并不斷學(xué)習(xí)作出更優(yōu)秀的自動(dòng)駕駛決策。
需要指出的是,現(xiàn)在的雪湖·海若是一個(gè)云端大模型,雪湖·海若的大模型的成果將首發(fā)落地搭載毫末 HPilot3.0 的新摩卡 DHT-PHEV 上。
如果說ChatGPT是聊天機(jī)器人,可以通過聊天互動(dòng)并給出人類想要的文字答案。雪湖·海若更像是駕駛機(jī)器人,更多地讓機(jī)器和道路環(huán)境互動(dòng),并給出更優(yōu)的駕駛決策答案。
沿著這條路徑向前走,毫末的自動(dòng)駕駛系統(tǒng)會(huì)更像人類,對(duì)道路場(chǎng)景的理解和處理更為成熟,路線的盡頭也許正是實(shí)現(xiàn)端到端的自動(dòng)駕駛。
讓機(jī)器學(xué)習(xí)人類駕駛,雪湖·海若這種基于GPT大模型的產(chǎn)品問世,將汽車智能化的迭代與人工智能的演進(jìn)緊緊綁在了一起。
有了雪湖·海若后,自動(dòng)駕駛的認(rèn)知能力會(huì)得到更好的提升,進(jìn)而有助于改善規(guī)劃和控制環(huán)節(jié)。
目前,毫末給出了雪湖·海若幾大應(yīng)用領(lǐng)域:
- 由于能夠提高規(guī)劃和控制能力,所以可以用于開發(fā)城市NOH;
- 可以用于捷徑推薦;
- 由于可以對(duì)一些未來會(huì)發(fā)生的道路場(chǎng)景變化進(jìn)行路徑推演,雪湖·海若還可以擔(dān)當(dāng)智能司機(jī)教練,幫助車主更好地開車;
- 可以排除一些駕駛中遇到的困難場(chǎng)景,進(jìn)行智能救護(hù);
雪湖·海若不僅面向自動(dòng)駕駛行業(yè),還將對(duì)機(jī)器人、汽車主機(jī)廠、芯片廠商、科研機(jī)構(gòu)等行業(yè)進(jìn)行相應(yīng)的能力和資源開放。
目前,雪湖·海若已正式對(duì)外開放,開啟對(duì)限量首批客戶的合作,北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院、高通、火山引擎、華為云、京東科技、四維圖新、魏牌新能源、英特爾等已經(jīng)加入。
開放的第一步,是一些數(shù)據(jù)方面的能力,后續(xù)還會(huì)陸續(xù)開放駕駛行為驗(yàn)證、困難場(chǎng)景脫困等能力。
量產(chǎn)進(jìn)展迅速,破圈拿下三家車企
發(fā)布雪湖·海若之外,量產(chǎn)落地節(jié)奏也十分迅速。根據(jù)毫末智行董事長(zhǎng)張凱介紹,公司在2023年取得四個(gè)方面的進(jìn)展。
毫末HPilot:
首款搭載毫末HPilot3.0的新摩卡DHT-PHEV即將上市,第二款搭載毫末HPilot3.0的車型魏牌藍(lán)山也將在今年發(fā)布。
目前,毫末HPilot整體已搭載近20款車型。用戶輔助駕駛行駛里程突破4000萬(wàn)公里,HPilot2.0輔助駕駛?cè)站锍淌褂寐蔬_(dá)到了12.6%。
在海外,搭載毫末HPilot的車輛已經(jīng)向歐盟、以色列等地區(qū)和國(guó)家的用戶進(jìn)行交付。接下來還將在中東、南非、澳大利亞等市場(chǎng)投放。毫末HPilot還將量產(chǎn)墨西哥版本及俄羅斯版本。
MANA:
到2023年4月,MANA學(xué)習(xí)時(shí)長(zhǎng)超56萬(wàn)小時(shí),相當(dāng)于人類司機(jī)6.8萬(wàn)年。
毫末打造的全球首個(gè)自動(dòng)駕駛生成式大模型DriveGPT,已經(jīng)完成基于4000萬(wàn)公里駕駛數(shù)據(jù)的訓(xùn)練,參數(shù)規(guī)模達(dá)1200億。
城市NOH:
毫末城市NOH已在北京、保定、上海等城市開啟泛化測(cè)試,可以進(jìn)行大規(guī)模量產(chǎn)落地。2024年將有序落地100個(gè)城市。
張凱認(rèn)為,毫末NOH這一采用重感知不依賴高精地圖的方案,量產(chǎn)落地要比行業(yè)內(nèi)的玩家快了一年以上。
末端物流自動(dòng)配送:
毫末的末端物流自動(dòng)配送車小魔駝已在商超履約、智慧社區(qū)、校園配送、餐飲零售、機(jī)場(chǎng)巡邏、高校教育、快遞自提、智慧園區(qū)、大氣環(huán)評(píng)等九個(gè)場(chǎng)景開啟運(yùn)營(yíng)。
今年3月,小魔駝2.0獲得北京亦莊無人配送車車輛編碼,開啟亦莊運(yùn)營(yíng)。
毫末也成為《北京智能網(wǎng)聯(lián)汽車政策先行區(qū)無人配送測(cè)試規(guī)范》升級(jí)后,準(zhǔn)許在北京市高級(jí)別自動(dòng)駕駛示范區(qū)公開道路進(jìn)行無人配送車測(cè)試的首個(gè)公司。
現(xiàn)場(chǎng),張凱還向外界公布了毫末6P開放合作的重要進(jìn)展,目前已與3家主機(jī)廠簽署定點(diǎn)合同,相關(guān)項(xiàng)目正在交付中。
據(jù)HiEV了解,這三家主機(jī)廠中,包含長(zhǎng)城汽車系之外的主機(jī)廠。
與同行相比,毫末的技術(shù)迭代和量產(chǎn)節(jié)奏相對(duì)更快,是Tier 1中最懂自動(dòng)駕駛技術(shù)的,又是自動(dòng)公司中最懂如何量產(chǎn)的,同時(shí)是數(shù)據(jù)公司中,在量產(chǎn)數(shù)據(jù)積累的基礎(chǔ)上真正實(shí)現(xiàn)了數(shù)據(jù)閉環(huán)的玩家。
回顧毫末的發(fā)展歷程,會(huì)發(fā)現(xiàn)其野心絕不是成為簡(jiǎn)單的Tier1,而是一家人工智能公司。
背后的原因,和核心團(tuán)隊(duì)、技術(shù)架構(gòu)等均有著密切關(guān)系。
以張凱、顧維灝、侯軍、甄龍豹為核心的高管團(tuán)隊(duì),本身融合了主機(jī)廠、科技公司的基因。從創(chuàng)立之初,這支團(tuán)隊(duì)一直堅(jiān)持著數(shù)據(jù)驅(qū)動(dòng)的技術(shù)路線。
毫末發(fā)布了中國(guó)首個(gè)自動(dòng)駕駛數(shù)據(jù)智能體系MANA雪湖,并建設(shè)了智算中心MANA OASIS雪湖·綠洲。
基于L2輔助駕駛系統(tǒng)的大規(guī)模前裝量產(chǎn),毫末站穩(wěn)了量產(chǎn)自動(dòng)駕駛第一名的位置,并形成了數(shù)據(jù)智能閉環(huán)體系,在迭代速度和成本優(yōu)化上實(shí)現(xiàn)良性循環(huán)。
經(jīng)過一年多時(shí)間的應(yīng)用迭代,MANA如今也迎來全面升級(jí),并開始對(duì)外賦能行業(yè)。
毫末的整個(gè)技術(shù)演進(jìn)軌跡,本質(zhì)上正是一家汽車垂直領(lǐng)域的人工智能公司,不斷釋放新技術(shù)同時(shí)快步上車的過程。
如果我們將毫末和特斯拉進(jìn)行對(duì)比,會(huì)發(fā)現(xiàn)二者存在很大程度的相似,均在自我驅(qū)動(dòng)不斷推出新技術(shù)。
單就自動(dòng)駕駛而言,從BEV感知算法,到占用網(wǎng)絡(luò)Occupancy Network,特斯拉正是通過新技術(shù)逐漸進(jìn)化,讓車輛更夠更好地感知和理解世界,做出更好的規(guī)劃控制。
唯一不同的是,毫末的技術(shù)不像特斯拉那樣只提供給自身,更多用于自有的龐大的汽車隊(duì)伍,而是面向行業(yè),既服務(wù)長(zhǎng)城汽車,也在不斷拓展長(zhǎng)城系之外的車企客戶。
毫末這次在主機(jī)廠合作的范圍突破長(zhǎng)城系,給了行業(yè)一個(gè)重要信號(hào)。
當(dāng)下,智駕領(lǐng)域量產(chǎn)上車的背景是,一方面,華為車BU的發(fā)展已經(jīng)告訴我們,向車企提供智駕方案時(shí)限制重重。另一方面,一些芯片公司、智駕公司正在推出低成本的方案比如行泊一體,并且開始獲得車企的合作訂單。
這些案例告訴我們,智駕方案供應(yīng)商既面臨上車難,同時(shí)又有機(jī)會(huì)與車企合作。
“我們做了三年前裝量產(chǎn),真的是一個(gè)辛苦活,量產(chǎn)和Demo是完全不一樣的。那些沒有做過前裝量產(chǎn)的公司突然宣布進(jìn)入自動(dòng)駕駛領(lǐng)域,會(huì)陷入苦戰(zhàn)?!睆垊P在發(fā)布會(huì)后這樣感慨道。
所以,有量產(chǎn)經(jīng)驗(yàn),且可以滿足車企的智駕方案需求,如此一來,哪怕是具有某家車企背景的智駕供應(yīng)商,也是具備存活機(jī)會(huì)的。
破解規(guī)控難題,中國(guó)玩家加速進(jìn)化
在L4級(jí)自動(dòng)駕駛公司聲量日益式微的當(dāng)下,主機(jī)廠成了自動(dòng)駕駛的堅(jiān)定支持者。
國(guó)外有特斯拉,國(guó)內(nèi)則是毫末、蔚小理、華為等自動(dòng)駕駛領(lǐng)域的重要玩家。
當(dāng)下,這些玩家正在進(jìn)入自動(dòng)駕駛技術(shù)的深水區(qū)——規(guī)劃控制。
“現(xiàn)在的問題不是大家做出來一個(gè)開法后不知道這個(gè)開法好不好,而是不知道怎么開?!?毫末智行技術(shù)副總裁艾銳不久前表示。
同樣的,在被問題到要讓自動(dòng)駕駛更像老司機(jī),接下來應(yīng)該解決的核心模塊是哪個(gè)時(shí),小鵬汽車自動(dòng)駕駛副總裁吳新宙也提出類似的觀點(diǎn),認(rèn)為小鵬汽車的感知“到現(xiàn)在整體的狀態(tài)是不錯(cuò)的,核心和具體的工作量還是在預(yù)測(cè)和規(guī)控上?!?/p>
吳新宙本人是特斯拉FSD的深度使用用戶,在使用過FSD后,他的感受是在很多地方的處理的細(xì)膩程度,CNGP不輸于對(duì)方。但他不確定的是,對(duì)方在中國(guó)的復(fù)雜場(chǎng)景是否會(huì)自如應(yīng)對(duì),尤其是規(guī)控方面。
余承東則更直接地表示,“中國(guó)道路非常復(fù)雜,像特斯拉FSD在美國(guó)和歐洲容易搞定,在中國(guó)來可能夠他們搞的?!?/p>
預(yù)測(cè)和規(guī)控,考驗(yàn)的正是自動(dòng)駕駛的認(rèn)知能力。
有多年駕駛經(jīng)驗(yàn)的老手司機(jī),會(huì)基于經(jīng)驗(yàn)對(duì)道路環(huán)境進(jìn)行更為全面預(yù)判,迅速作出最優(yōu)的駕駛操作。
自動(dòng)駕駛也是如此,不僅要感知道路環(huán)境,還要像老手司機(jī)一樣,知道自己應(yīng)該怎么開。
特斯拉走在最前,F(xiàn)SD的功能已經(jīng)在北美城市場(chǎng)景下開啟應(yīng)用。特斯拉的自動(dòng)駕駛路線做了一個(gè)示范,引導(dǎo)著車企向全自動(dòng)駕駛的寶座前進(jìn)。
暫且不去管全自動(dòng)駕駛何時(shí)到來,或者能否到來,至少我們看到了一個(gè)共識(shí),車企必須投入自動(dòng)駕駛研發(fā)。
尤其是毫末、小鵬、華為這些公司,進(jìn)行了大規(guī)模的自動(dòng)駕駛技術(shù)研發(fā)投入。
各家不斷發(fā)布的新技術(shù),比如雪湖·海若的出現(xiàn),不僅讓我們看到了中國(guó)自動(dòng)駕駛玩家走到了哪里,也讓我們看到了車企投入的堅(jiān)決。
OpenAI給出的ChatGPT這一生成式對(duì)話產(chǎn)品,是人類與機(jī)器世界更好地互動(dòng)的一把鑰匙,毫末的雪湖·海若同樣汽車與道路環(huán)境的互動(dòng),是提升自動(dòng)駕駛規(guī)控的一把鑰匙。
最近有消息稱,特斯拉FSD將有大的更新,未來引入國(guó)內(nèi)市場(chǎng)或許已經(jīng)排上日程。
我們很好奇在中國(guó)道路環(huán)境中,特斯拉與國(guó)內(nèi)的自動(dòng)駕駛玩家會(huì)呈現(xiàn)何種格局,究竟是處于跟隨狀態(tài),還是會(huì)在規(guī)控環(huán)節(jié)實(shí)現(xiàn)技術(shù)趕超。