和 ChatGPT 在 AIGC(AI- Generated Content,人工智能生成內(nèi)容)領(lǐng)域一樣具備顛覆性的事情正在發(fā)生。
4 月 11 日,自動(dòng)駕駛技術(shù)公司毫末智行在其第八屆 HAOMO AI DAY 上,重磅發(fā)布行業(yè)首個(gè)自動(dòng)駕駛生成式大模型 DriveGPT,中文名「雪湖·海若」,該模型參數(shù)規(guī)模達(dá)到 1200 億,可用于解決自動(dòng)駕駛研發(fā)過(guò)程中困擾已久的認(rèn)知決策問(wèn)題,并通過(guò)能力迭代,最終實(shí)現(xiàn)端到端自動(dòng)駕駛。
此前,受制于傳統(tǒng)模型「數(shù)據(jù)量小、基于規(guī)則」等局限性,智能駕駛技術(shù)進(jìn)展一度較為緩慢,甚至不少?gòu)臉I(yè)者都對(duì)未來(lái)產(chǎn)生了自我懷疑,在這樣的背景下,兩年前,毫末率先投入到大模型技術(shù)的研發(fā)之中,旨在尋找新的突破。
經(jīng)歷了先行探索和反復(fù)驗(yàn)證,毫末成功找到了突破口——生成式大模型,通過(guò)在行業(yè)首個(gè)將 GPT 落地到自動(dòng)駕駛領(lǐng)域,大大加速了更高階智能駕駛的落地應(yīng)用。
「生成式大模型將成為自動(dòng)駕駛系統(tǒng)進(jìn)化的關(guān)鍵,基于 Transformer 大模型訓(xùn)練的感知、認(rèn)知算法會(huì)逐步在車(chē)端進(jìn)行落地部署?!购聊┒麻L(zhǎng)張凱在 HAOMO AI DAY 上對(duì)行業(yè)未來(lái)發(fā)展趨勢(shì)作出論斷。
毫末 CEO 顧維灝也表示:「DriveGPT 雪湖·海若將會(huì)重塑汽車(chē)智能化技術(shù)路線(xiàn),讓輔助駕駛進(jìn)化更快,讓自動(dòng)駕駛更早到來(lái)?!?/p>
顧維灝在自動(dòng)駕駛技術(shù)領(lǐng)域的眼光獨(dú)到,布局非常領(lǐng)先。
事實(shí)上,毫末在 2021 年就已經(jīng)開(kāi)始了 Transformer 大模型技術(shù)的探索,并快速落地應(yīng)用到 BEV 視覺(jué)感知算法當(dāng)中,然后又以五大模型的方式來(lái)實(shí)現(xiàn)自動(dòng)駕駛感知、認(rèn)知算法的快速升級(jí),現(xiàn)在這些大模型將統(tǒng)一到 DriveGPT 生成式大模型當(dāng)中,目標(biāo)將實(shí)現(xiàn)端到端自動(dòng)駕駛。
毫末的探索始終走在行業(yè)技術(shù)探索的前列。
據(jù)了解,新摩卡 DHT-PHEV 即將首發(fā)搭載 DriveGPT 雪湖·海若量產(chǎn)上市,屆時(shí),用戶(hù)市場(chǎng)還將迎來(lái)一輪新的震撼。
「毫末真正重塑了行業(yè)信心,」一位業(yè)內(nèi)人士略微激動(dòng)地說(shuō)道,「這將是一場(chǎng)革命?!?/p>
DriveGPT 雪湖·海若,如何顛覆智能駕駛
在介紹 DriveGPT 雪湖·海若之前,先回顧一下 ChatGPT 的概念,其全稱(chēng)是 Chat Generative Pre-trained Transformer,字面意思是用于聊天的生成式預(yù)訓(xùn)練 Transformer 大模型。
其中 Transformer 是 ChatGPT 的重點(diǎn),最早由谷歌在 2017 年提出,該模型基于注意力機(jī)制的設(shè)計(jì),可以實(shí)現(xiàn)出色的算法并行性,因而迅速在自然語(yǔ)言處理(NLP) 領(lǐng)域流行起來(lái),ChatGPT 就是其最新成果。
Transformer 大模型對(duì)于智能駕駛來(lái)說(shuō)也不陌生,在 NLP 中奠定了核心地位之后,被逐漸被引入計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域,后又被特斯拉、毫末智行等行業(yè)龍頭先行引入自動(dòng)駕駛系統(tǒng)中,用于提升感知端的模型效果。
如今,毫末在 Transformer 大模型的應(yīng)用上更進(jìn)一步,將其率先拓展到智能駕駛系統(tǒng)認(rèn)知端,DriveGPT 雪湖·海若由此誕生。
從同樣使用 Transformer 大模型的角度來(lái)說(shuō),ChatGPT 和 DriveGPT 雪湖·海若屬于同宗同源。
其中,ChatGPT 是對(duì)話(huà)式的生成式自然語(yǔ)言模型,輸入是自然語(yǔ)言的文本串,輸出是自然語(yǔ)言的文本,可以完成通用的下游語(yǔ)言生成任務(wù),比如多輪對(duì)話(huà)、代碼生成、翻譯、數(shù)學(xué) 運(yùn)算等能力。
而毫末 DriveGPT 雪湖·海若是用于自動(dòng)駕駛場(chǎng)景的生成式大模型,輸入是感知融合后的文本序列,輸出是自動(dòng)駕駛場(chǎng)景文本序列,即將自動(dòng)駕駛場(chǎng)景 Token 化,形成「Drive Language」,最終完成自車(chē)的決策規(guī)控、障礙物預(yù)測(cè)以及決策邏輯鏈的輸出等任務(wù)。
DriveGPT 雪湖·海若首先在預(yù)訓(xùn)練階段通過(guò)引入量產(chǎn)駕駛數(shù)據(jù),訓(xùn)練初始模型,再通過(guò)引入駕駛接管 Clips 數(shù)據(jù)完成反饋模型 (Reward Model) 的訓(xùn)練,然后再通過(guò)強(qiáng)化學(xué)習(xí)的方式,使用反饋模型去不斷優(yōu)化迭代初始模型,形成對(duì)自動(dòng)駕駛認(rèn)知決策模型的持續(xù)優(yōu)化。
具體來(lái)說(shuō),DriveGPT 雪湖·海若會(huì)通過(guò)人類(lèi)反饋強(qiáng)化學(xué)習(xí)的方式進(jìn)行迭代,用 DriveGPT 雪湖·海若最新模型 (Active Model) 對(duì)真實(shí)場(chǎng)景 Case 做生成,產(chǎn)出多種場(chǎng)景序列結(jié)果,再用反饋模型給這些結(jié)果進(jìn)行打分排序,目標(biāo)是把好的結(jié)果排上來(lái),差的結(jié)果排下去,然后與初始模型 (Pretrain-Model) 的生成概率做比較,放大比分。最后通過(guò)強(qiáng)化學(xué)習(xí)的方式將參數(shù)再次更新到最新模型 (Active Model) 中,一直反復(fù)這個(gè)迭代過(guò)程。
其中,Reward Model(反饋模型) 的訓(xùn)練過(guò)程是獨(dú)立的,使用帶有偏序關(guān)系的 Pair 樣本對(duì)來(lái)訓(xùn)練,這些樣本對(duì)來(lái)自于接管 Case,毫末將與人類(lèi)駕駛結(jié)果相似的模型結(jié)果作為正樣本,與被接管軌跡相似的作為負(fù)樣本,這樣來(lái)構(gòu)建偏序?qū)?,再利?LTR(Learning To Rank) 的思路去訓(xùn)練 Reward Model,進(jìn)而得到一個(gè)打分模型。
此外,DriveGPT 雪湖·海若還可以輸出決策邏輯鏈:即在輸入端提供 Prompts(提示語(yǔ)),根據(jù)提示輸出含有決策邏輯鏈 (Chain of Thought) 的未來(lái)序列。
毫末 CSS 自動(dòng)駕駛場(chǎng)景庫(kù)是 CoT 的重要輸入,擁有超過(guò)幾十萬(wàn)個(gè)細(xì)顆粒度場(chǎng)景,將 Prompt 提示語(yǔ)和完整決策過(guò)程的樣本交給模型去學(xué)習(xí),學(xué)到推理關(guān)系,從而將完整駕駛策略拆分為自動(dòng)駕駛場(chǎng)景的動(dòng)態(tài)識(shí)別過(guò)程,完成可理解、可解釋的推理邏輯鏈生成。
除了用作認(rèn)知決策,DriveGPT 雪湖·海若還可以逐步應(yīng)用到城市 NOH、捷徑推薦、智能陪練以及脫困場(chǎng)景中。
有了 DriveGPT 雪湖·海若的加持,車(chē)輛行駛會(huì)更安全;動(dòng)作更人性、更絲滑,并有合理的邏輯告訴駕駛者,車(chē)輛為何選擇這樣的決策動(dòng)作。
對(duì)于普通用戶(hù)來(lái)說(shuō),車(chē)輛越來(lái)越像老司機(jī),用戶(hù)對(duì)智能產(chǎn)品的信任感會(huì)更強(qiáng),理解到車(chē)輛的行為都是可預(yù)期、可理解的。
盡管 DriveGPT 雪湖·海若剛出世就擁有強(qiáng)大的功能,但這還不是它的「終局」,毫末對(duì)于 DriveGPT 雪湖·海若的目標(biāo)是實(shí)現(xiàn)端到端自動(dòng)駕駛,后續(xù)毫末會(huì)持續(xù)將多個(gè)大模型的能力整合到 DriveGPT 雪湖·海若中。
與此同時(shí),毫末也對(duì)外構(gòu)建 DriveGPT 雪湖·海若生態(tài),通過(guò)對(duì)行業(yè)提供開(kāi)放服務(wù),促進(jìn)自動(dòng)駕駛的從業(yè)者和研究機(jī)構(gòu),快速構(gòu)建基礎(chǔ)能力,釋放創(chuàng)新。
汽車(chē)之心獲知,毫末 DriveGPT 雪湖·海若首批定向邀請(qǐng)了北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院、高通、火山引擎、華為云、京東科技、四維圖新、魏牌新能源、英特爾等加入。
事實(shí)上,毫末對(duì)于大模型的開(kāi)放從 DriveGPT 雪湖·海若的中文名「雪湖·海若」即可窺見(jiàn)。
據(jù)了解,「海若」一詞出自《莊子·秋水》中的神話(huà)人物北海若,在該書(shū)中,另一神話(huà)人物河伯請(qǐng)教北海若,何謂大小之分,北海若教導(dǎo)河伯說(shuō),不因天地而覺(jué)大,不因毫末而覺(jué)小。
毫末據(jù)此把 DriveGPT 中文名命名為「海若」,寓意著智慧包容、海納百川,為行業(yè)發(fā)展貢獻(xiàn)力量。
自動(dòng)駕駛生成式大模型「第一槍」,為何由毫末打響
自動(dòng)駕駛領(lǐng)域頂級(jí)玩家眾多,毫末憑何在全球首個(gè)推出了自動(dòng)駕駛生成式大模型 DriveGPT 雪湖·海若?
要回答這個(gè)問(wèn)題,首先要理清楚毫末 DriveGPT 雪湖·海若的本質(zhì),它是應(yīng)用在智能駕駛上的人工智能,就必然離不開(kāi)人工智能三要素:算法、數(shù)據(jù)和算力,而這三者恰恰是毫末具備領(lǐng)先性?xún)?yōu)勢(shì)的地方。
首先在算法的技術(shù)路線(xiàn)上,毫末早早就堅(jiān)定選擇走漸進(jìn)式發(fā)展路線(xiàn),比「躍進(jìn)式」玩家的量產(chǎn)時(shí)間更早,更快形成規(guī)模化,從用戶(hù)真實(shí)使用場(chǎng)景中積累足夠多的數(shù)據(jù)。
毫末還清晰地提出了從自動(dòng)駕駛 1.0 時(shí)代到自動(dòng)駕駛 3.0 時(shí)代的演進(jìn)路徑,并率先進(jìn)入以數(shù)據(jù)驅(qū)動(dòng)為核心的新時(shí)代。
從這時(shí)開(kāi)始,自動(dòng)駕駛獲取的數(shù)據(jù)量與數(shù)據(jù)多樣性將呈現(xiàn)指數(shù)級(jí)膨脹,在深度學(xué)習(xí)主導(dǎo)中,與大模型相輔相成,真正去解決自動(dòng)駕駛最后的長(zhǎng)尾難題。
在 2021 年 12 月第四屆 HAOMO AI DAY 上,毫末發(fā)布中國(guó)首個(gè)數(shù)據(jù)智能體系 MANA,其由四大板塊組成,分別是 TARS、LUCAS、VENUS 和 BASE。
其中,BASE 是整個(gè)系統(tǒng)架構(gòu)的底層,包括數(shù)據(jù)底座、數(shù)據(jù)融合、PoseidonOS 等。
其他三大板塊置于上層:
TARS 代表毫末智行的開(kāi)發(fā)的原型算法,包括感知、規(guī)劃決策、地圖定位、仿真引擎;
LUCAS 是提取數(shù)據(jù)價(jià)值,以數(shù)據(jù)驅(qū)動(dòng)系統(tǒng)能力持續(xù)迭代的核心子系統(tǒng),解決場(chǎng)景泛化,評(píng)測(cè)和部署的問(wèn)題;
VENUS 則是數(shù)據(jù)看板,以參考標(biāo)準(zhǔn)評(píng)價(jià)算法的好壞。
在 MANA 的加持下,毫末輔助駕駛系統(tǒng)持續(xù)迭代,并不斷積累數(shù)據(jù),目前用戶(hù)使用毫末輔助駕駛的行駛里程超過(guò) 4000 萬(wàn)公里,而這即成就了 DriveGPT 雪湖·海若的數(shù)據(jù)底座。
毫末 DriveGPT 雪湖·海若使用了基于這 4000 萬(wàn)公里的駕駛數(shù)據(jù)做 Pretrain(預(yù)訓(xùn)練),為了對(duì)生成決策結(jié)果進(jìn)行調(diào)優(yōu),又引入大約 5 萬(wàn)段駕駛接管 Clips 數(shù)據(jù),完成模型的訓(xùn)練和推理。
距離上一屆 HAOMO AI DAY 三個(gè)月時(shí)間過(guò)去,毫末在數(shù)據(jù)驅(qū)動(dòng)六大閉環(huán)體系上又實(shí)現(xiàn)多重進(jìn)展:
在用戶(hù)需求閉環(huán)方面,毫末在道路曲率限速、換道時(shí)機(jī)、換道平順性、跟車(chē)控制平順性等產(chǎn)品性能上持續(xù)優(yōu)化,并進(jìn)行新功能的體驗(yàn)反饋;
在研發(fā)效能閉環(huán)方面,毫末將數(shù)據(jù)驅(qū)動(dòng)理念深入到包括產(chǎn)品需求定義、感知與認(rèn)知算法開(kāi)發(fā)、系統(tǒng)驗(yàn)證環(huán)節(jié)等產(chǎn)品開(kāi)發(fā)流程的各個(gè)環(huán)節(jié),使得整體開(kāi)發(fā)效率較去年提升 30%;
數(shù)據(jù)積累閉環(huán)方面,毫末在車(chē)端部署診斷服務(wù)的相關(guān)數(shù)據(jù)場(chǎng)景標(biāo)簽覆蓋 92% 的駕駛場(chǎng)景,在離線(xiàn)評(píng)測(cè)升級(jí)上,實(shí)現(xiàn)場(chǎng)景數(shù)據(jù)庫(kù)到仿真測(cè)試用例的自動(dòng)化轉(zhuǎn)化,覆蓋 97% 的用戶(hù)使用高頻場(chǎng)景,同時(shí)在大規(guī)模純視覺(jué) 4D 標(biāo)注和場(chǎng)景編輯的能力和效率上均達(dá)到行業(yè)頂尖水平;
在數(shù)據(jù)價(jià)值閉環(huán)方面,毫末大模型正在持續(xù)挖掘自動(dòng)駕駛數(shù)據(jù)價(jià)值并解決自動(dòng)駕駛的關(guān)鍵問(wèn)題;
關(guān)于產(chǎn)品自完善閉環(huán),毫末實(shí)現(xiàn)售后問(wèn)題處理速度較傳統(tǒng)方式的十倍效率提升,實(shí)現(xiàn)最快 10 分鐘定位售后問(wèn)題。
兩年時(shí)間有效挖掘產(chǎn)品提升點(diǎn),問(wèn)題閉環(huán)率達(dá) 76%,并且實(shí)現(xiàn) 8 輪 HWA 性能提升和 5 輪 NOH 軟件迭代,幫助客戶(hù)成功實(shí)現(xiàn) 8 次 OTA 產(chǎn)品在線(xiàn)升級(jí);
最后在業(yè)務(wù)工程化閉環(huán)方面,毫末進(jìn)一步完善了從采集回流環(huán)節(jié)、標(biāo)注訓(xùn)練環(huán)節(jié)、系統(tǒng)標(biāo)定環(huán)節(jié)、仿真驗(yàn)證環(huán)節(jié)到最終 OTA 釋放環(huán)節(jié)的產(chǎn)品研發(fā)全流程工程化閉環(huán)。
毫末不斷進(jìn)步的數(shù)據(jù)驅(qū)動(dòng)六大閉環(huán)能力,進(jìn)一步加速毫末沖刺進(jìn)入自動(dòng)駕駛 3.0 時(shí)代的步伐,并形成相應(yīng)的護(hù)城河。
除了在技術(shù)路線(xiàn)和數(shù)據(jù)積累上保持領(lǐng)先,毫末之所以能讓 DriveGPT 雪湖·海若橫空出世的原因還在于提前布局算力。
2023 年 1 月 5 日,第七屆 HAOMO AI DAY 上,毫末與火山引擎聯(lián)手發(fā)布了智算中心「雪湖·綠洲」(MANA OASIS),這也是中國(guó)自動(dòng)駕駛行業(yè)首個(gè)也是最大的智算中心,每秒浮點(diǎn)運(yùn)算達(dá)到 67 億億次。
基于雪湖·綠洲,毫末得以訓(xùn)練出參數(shù)規(guī)模達(dá) 1200 億的 DriveGPT 雪湖·海若模型。
從首個(gè)提出在技術(shù)路線(xiàn)上步入自動(dòng)駕駛 3.0,到發(fā)布中國(guó)首個(gè)數(shù)據(jù)智能體系 MANA,再到建設(shè)中國(guó)自動(dòng)駕駛行業(yè)首個(gè)也是最大的智算中心,毫末在前期如此多的積累,讓其在自動(dòng)駕駛生成式大模型的推出上,再次奪下「首個(gè)」,變得順理成章。
盡管已經(jīng)走在最前面,毫末的腳步也沒(méi)有停下。
在本屆 HAOMO AI DAY 上,顧維灝透露,為給 DriveGPT 雪湖·海若做好算力支持,毫末對(duì)智算中心 MANA OASIS(雪湖·綠洲) 進(jìn)行了三大升級(jí),首先是與火山引擎全新搭建了「全套大模型訓(xùn)練保障框架」,以保障毫末大模型訓(xùn)練的穩(wěn)定性。
據(jù)了解,訓(xùn)練保障框架包括 Monitor&Alert、Tracer&Log、Profile&Checkpoint 等功能,通過(guò)訓(xùn)練保障框架,集群調(diào)度器可以實(shí)時(shí)獲取服務(wù)器異常、并及時(shí)將異常節(jié)點(diǎn)從訓(xùn)練 pod group 中刪除,再結(jié)合 CheckPoint 功能,利用 VePFS 高性能存儲(chǔ)和 RDMA 網(wǎng)絡(luò)高效分發(fā)。此外,訓(xùn)練保障框架實(shí)現(xiàn)了異常任務(wù)分鐘級(jí)捕獲和恢復(fù)能力,可以保證千卡任務(wù)連續(xù)訓(xùn)練數(shù)個(gè)月沒(méi)有任何非正常中斷,有效地保障了大模型訓(xùn)練的穩(wěn)定性。
其次,毫末還將「增量式學(xué)習(xí)」推廣到大模型訓(xùn)練,構(gòu)建 DriveGPT 雪湖·海若大模型學(xué)習(xí)系統(tǒng)。
具體來(lái)說(shuō):
(1)基于量產(chǎn)自動(dòng)駕駛規(guī)模優(yōu)勢(shì),毫末研發(fā)出以真實(shí)數(shù)據(jù)回傳為核心的增量學(xué)習(xí)技術(shù);
(2)針對(duì)不同時(shí)段數(shù)據(jù)回傳量差異巨大,MANA OASIS 訓(xùn)練平臺(tái)依靠彈性調(diào)度能力,自適應(yīng)數(shù)據(jù)規(guī)模大小。同時(shí)將增量學(xué)習(xí)推廣到了大模型訓(xùn)練,構(gòu)建了一個(gè)大模型持續(xù)學(xué)習(xí)系統(tǒng),自主研發(fā)任務(wù)級(jí)彈性伸縮調(diào)度器,分鐘級(jí)調(diào)度資源,集群計(jì)算資源利用率達(dá)到 95%;
(3)結(jié)合增量學(xué)習(xí)數(shù)據(jù)以動(dòng)態(tài)數(shù)據(jù)流的形式,持續(xù)不斷將量產(chǎn)回傳和篩選的存量數(shù)據(jù),傳入感知和認(rèn)知 Pre-train 大模型。系統(tǒng)定時(shí)采樣評(píng)測(cè)模型學(xué)習(xí)狀態(tài),出現(xiàn)異??焖倩貪L。持續(xù)提取最佳模型版本。
最后,毫末優(yōu)化關(guān)鍵算子,以提升數(shù)據(jù)吞吐量,提升 DriveGPT 雪湖·海若大模型訓(xùn)練效率。
針對(duì) Transformer 大矩陣計(jì)算,通過(guò)對(duì)內(nèi)外循環(huán)的數(shù)據(jù)拆分,盡量保持?jǐn)?shù)據(jù)在 SRAM 中,以提升計(jì)算的效率。
「Transformer 類(lèi)大模型計(jì)算復(fù)雜度高,訓(xùn)練難度大。在傳統(tǒng)訓(xùn)練框架中,例如 PyTorch,算子流程很長(zhǎng),包括 Attention、LayerNorm、Dropout、Softmax 等多個(gè)環(huán)節(jié),通過(guò)引入火山引擎提供的 Lego 算子庫(kù)實(shí)現(xiàn)算子融合,端到端吞吐提升 84%?!诡櫨S灝介紹道。
2023 年智駕競(jìng)爭(zhēng)白熱化,毫末也開(kāi)始干掉超聲波雷達(dá)?
過(guò)去幾年,智能駕駛在國(guó)內(nèi)市場(chǎng)增長(zhǎng)迅速,第三方數(shù)據(jù)顯示,2022 年在乘用車(chē)上,L2/L2+功能的搭載率接近 30%,時(shí)間來(lái)到 2023 年,行業(yè)更是全線(xiàn)爆發(fā)。
高速 NOA 等 L2+功能正成為標(biāo)配,搭載行泊一體功能的智駕產(chǎn)品也迎來(lái)前裝量產(chǎn)潮,而另一邊,城市 NOA 也開(kāi)啟搶位戰(zhàn),玩家們紛紛比拼在多城市落地的速度以及真實(shí)用戶(hù)覆蓋面。
這其中,智駕方案性?xún)r(jià)比以及用戶(hù)價(jià)值被前所未有地凸顯出來(lái)。前者關(guān)系到智能駕駛能不能被更廣泛的用戶(hù)使用到,后者則與智能駕駛好不好用直接掛鉤。
張凱也提到:「車(chē)主的使用頻率和滿(mǎn)意度開(kāi)始成為產(chǎn)品競(jìng)爭(zhēng)力的重要衡量標(biāo)準(zhǔn)。」毫末的應(yīng)對(duì)之策其一是修煉好內(nèi)功,進(jìn)而向外擠出「成本」,降低智能駕駛使用門(mén)檻;其二是通過(guò)領(lǐng)先的技術(shù)布局、數(shù)據(jù)閉環(huán)體系等,為用戶(hù)提供最優(yōu)選擇。
在降本上,毫末的第一步是開(kāi)始像特斯拉一樣,驗(yàn)證能否使用魚(yú)眼相機(jī)進(jìn)行測(cè)距滿(mǎn)足泊車(chē)要求,以成功去掉超聲波雷達(dá),進(jìn)一步降低整體智駕成本。
據(jù)了解,毫末把視覺(jué) BEV 感知框架引入到車(chē)端魚(yú)眼相機(jī),目前做到了在 15 米范圍內(nèi)達(dá)到 30cm 的測(cè)量精度,2 米內(nèi)精度高于 10cm 的視覺(jué)精度效果,未來(lái)還有望進(jìn)一步提高對(duì)于障礙物的輪廓邊界識(shí)別和測(cè)量的精度。
此外,毫末還升級(jí) MANA 視覺(jué)感知能力,可實(shí)現(xiàn)單趟和多趟純視覺(jué) NeRF 三維重建和虛擬動(dòng)態(tài)物體合成,重建道路場(chǎng)景更逼真,肉眼幾乎看不出差異。
通過(guò) NeRF 進(jìn)行場(chǎng)景重建后,就可以編輯合成真實(shí)環(huán)境難以收集到的 Corner Case,模擬城市復(fù)雜交通環(huán)境,用更低成本測(cè)試提升城市 NOH 能力邊界,更好提升應(yīng)對(duì)城市復(fù)雜交通環(huán)境。
在提升用戶(hù)價(jià)值上,毫末的打法是在技術(shù)上「增效」,成功實(shí)現(xiàn) MANA 視覺(jué)感知對(duì)于三維空間結(jié)構(gòu)和圖片紋理的同時(shí)學(xué)習(xí),讓模型練好內(nèi)功理解場(chǎng)景中的結(jié)構(gòu)、速度和紋理等核心信息,最終將輸出渲染得到結(jié)果和真實(shí)的后續(xù)視頻保持一致。
顧維灝表示,這一過(guò)程使用了 400 萬(wàn) Clips 訓(xùn)練數(shù)據(jù)集,使 MANA 視覺(jué)感知性能提升了 20%。
「我們一直提到,基于真實(shí)用戶(hù)場(chǎng)景的反饋數(shù)據(jù)能夠讓我們更好的優(yōu)化產(chǎn)品,讓產(chǎn)品進(jìn)步的更快。所有技術(shù)都要轉(zhuǎn)化為對(duì)人有用的產(chǎn)品才最有價(jià)值。現(xiàn)在,毫末的產(chǎn)品正在為用戶(hù)提供著更多價(jià)值?!?/p>
除了在技術(shù)上不斷收獲進(jìn)步,毫末在商業(yè)化進(jìn)展上也取得重大勝利,張凱透露,毫末已與 3 家主機(jī)廠(chǎng)簽署戰(zhàn)略合作協(xié)議,達(dá)成面向 L2+級(jí)別智能駕駛領(lǐng)域的全方位戰(zhàn)略合作,相關(guān)項(xiàng)目已經(jīng)在交付中。
2023 年一季度,毫末又迎來(lái)了映馳科技、中國(guó)自動(dòng)化學(xué)會(huì)等更多合作伙伴,秉持著「6P 開(kāi)放合作原則」,至此,毫末生態(tài)伙伴已達(dá)近百家。
基于以上取得的種種成就,毫末為 2023 定下的四大戰(zhàn)役正在全面突圍。
首先在智能駕駛裝機(jī)量王者之戰(zhàn)上,毫末三代乘用車(chē)產(chǎn)品搭載車(chē)型近 20 款,HPilot2.0 日均里程使用率 12.6%;
此外,HPilot 還在歐盟、以色列等地區(qū)和國(guó)家得到使用,墨西哥、俄羅斯、中東、南非、澳大利亞等市場(chǎng)也將陸續(xù)投放。
其次在大模型巔峰之戰(zhàn)中,毫末自動(dòng)駕駛生成式大模型 DriveGPT 雪湖·海若已經(jīng)發(fā)布,接下來(lái),將攜手合作伙伴率先探索包括智能駕駛、駕駛場(chǎng)景識(shí)別、駕駛行為驗(yàn)證、困難場(chǎng)景脫困等四大應(yīng)用能力。
例如在駕駛場(chǎng)景識(shí)別中,毫末建立起一套基于 4D Clips 的方案,相比行業(yè)對(duì)一張圖片給出正確標(biāo)注結(jié)果,需要付出約 5 元的代價(jià),使用 DriveGPT 雪湖·海若的場(chǎng)景識(shí)別服務(wù),單幀圖片整體標(biāo)注成本直線(xiàn)下降到 0.5 元,僅相當(dāng)于前者的 1/10。
接下來(lái),毫末會(huì)逐步向行業(yè)開(kāi)放圖像幀及 4D Clips 自動(dòng)標(biāo)注服務(wù)的使用,此舉將大幅降低行業(yè)使用數(shù)據(jù)的成本,提高數(shù)據(jù)質(zhì)量,從而加速自動(dòng)駕駛技術(shù)的快速發(fā)展。
此外,在城市 NOH 百城大戰(zhàn)里,毫末城市 NOH 將在北京、保定、上海等第一批城市率先落地,具體到車(chē)型,除了前面提到的新摩卡 DHT-PHEV,還將搭載魏牌藍(lán)山,并以安全為先、用戶(hù)為先、規(guī)模為先的原則,到 2024 年有序落地 100 城,目前量產(chǎn)落地至少領(lǐng)先業(yè)內(nèi)一年以上時(shí)間。
最后,需要指出的是末端物流自動(dòng)配送車(chē)商業(yè)之戰(zhàn)也已經(jīng)打響,毫末末端物流自動(dòng)配送車(chē)小魔駝 2.0 獲北京亦莊無(wú)人配送車(chē)車(chē)輛編碼,開(kāi)啟亦莊運(yùn)營(yíng),截止目前,已履約商超、智慧社區(qū)、校園配送、 餐飲零售、機(jī)場(chǎng)巡邏、高校教育、快遞自提、智慧園區(qū)、大氣環(huán)評(píng)等九大場(chǎng)景。
2023 年,AI大模型一夜火爆,讓所有人驚呼人工智能的時(shí)代真正開(kāi)啟,英偉達(dá) CEO 黃仁勛稱(chēng)這是「iPhone 時(shí)刻」,比爾·蓋茨大贊堪比互聯(lián)網(wǎng)的發(fā)明,然而事實(shí)上,任何技術(shù)的爆發(fā)都不是一刻之間,往往前期已經(jīng)經(jīng)歷了較深的鋪墊。
毫末 DriveGPT 雪湖·海若也是如此,其源自于大模型、大數(shù)據(jù)和超算中心的深厚積累,才得以一鳴驚人,率先在業(yè)內(nèi)開(kāi)啟自動(dòng)駕駛技術(shù)發(fā)展的黃金時(shí)代。
借用顧維灝在本屆 HAOMO AI AI DAY 上的結(jié)束語(yǔ):
「很多人問(wèn)我,為什么自動(dòng)駕駛領(lǐng)域的 GPT 是毫末先做出的? 毫末成立到現(xiàn)在接近三年半時(shí)間。這三年多時(shí)間,很多事物都發(fā)生了變化,但是毫末對(duì)技術(shù)的堅(jiān)定投入始終未變。我們始終熱愛(ài)技術(shù),枕戈待旦,全力沖刺。再難,我們都不會(huì)放棄?!?/p>