毫末的自動駕駛路徑越來越清晰,核心技術(shù)點可以概括為三個詞:大算力、大模型、大數(shù)據(jù)。
作者 | 肖瑩
1月5日,第七屆 HAOMO AI DAY在北京舉辦,毫末分享了對自動駕駛技術(shù)迭代的思考和實踐。
每個季度做一個總結(jié)分享,個人感受而言,毫末團隊是學(xué)習(xí)能力很強且最有意愿分享的自動駕駛公司之一。就像特斯拉AI DAY,HAOMO AI DAY也成為了一個了解自動駕駛技術(shù)進展的窗口。
這次HAOMO AI DAY上,毫末智行宣布智算中心正式成立,命名為“雪湖·綠洲”(MANA OASIS)。以此為支撐,毫末還發(fā)布了MANA五大模型,包括視覺自監(jiān)督大模型、多模態(tài)互監(jiān)督大模型、3D重建大模型、動態(tài)環(huán)境大模型,以及人駕自監(jiān)督認知大模型。
經(jīng)過不斷地迭代、進化,毫末的自動駕駛路徑也更加清晰,核心技術(shù)點可以概括為三個詞:大算力、大模型、大數(shù)據(jù)。
01、搶先投入大算力基建 智算中心“綠洲”發(fā)布
算力比拼已經(jīng)不局限于車端,開始進入到了云端,即智算中心的搭建。
毫末智行在國內(nèi)自動駕駛玩家中,最早意識到了這一問題,并搶先著手搭建智算中心。
在這次AI DAY上,毫末宣布了智算中心的命名——“雪湖·綠洲”(MANA OASIS)。
由毫末智行與字節(jié)跳動旗下云服務(wù)平臺火山引擎聯(lián)合打造,每秒浮點運算達67 億億次,存儲帶寬每秒2T,通信帶寬每秒800G。
小鵬汽車在2022年8月發(fā)布的智算中心扶搖算力為600PFLOPS,即每秒浮點運算60億億次。當(dāng)時,小鵬稱之為算力最強的自動駕駛智算中心。
對比算力來看,MANA OASIS已經(jīng)超越扶搖,成為國內(nèi)自動駕駛行業(yè)最大的智算中心。
自動駕駛發(fā)展進入關(guān)鍵階段,數(shù)據(jù)獲取效率、處理效率是算法進化的關(guān)鍵,海量的產(chǎn)品數(shù)據(jù)、超大規(guī)模的數(shù)據(jù)訓(xùn)練、大模型的應(yīng)用等,都對算力提出了更龐大的需求。
值得一提是的,MANA OASIS是毫末建設(shè)的私有云。
就采用公有云還是搭建私有云的話題,我們曾咨詢過多家自動駕駛公司,目前多數(shù)玩家還是以公有云為主,大家普遍認為,是否自建的核心在于性價比考量。而隨著數(shù)據(jù)存儲、處理量越來越大,公有云就越來越不具備成本優(yōu)勢。毫末建設(shè)私有云,一方面是私有云針對性更強,另一方面也是基于性價比的考慮。
同時,據(jù)毫末介紹,在數(shù)據(jù)管理能力方面,為充分發(fā)揮智算中心價值,讓GPU 持續(xù)飽和運行,毫末歷經(jīng)兩年研發(fā),建立了全套面向大規(guī)模訓(xùn)練的Data Engine,實現(xiàn)了百P數(shù)據(jù)篩選速度提升10倍、百億小文件隨機讀寫延遲小于500微秒。
500微秒意味著什么?毫末解釋稱,對于數(shù)據(jù)處理來說,大家一般考慮的是算得有多快。但隨著技術(shù)的發(fā)展,數(shù)據(jù)處理真正的瓶頸已經(jīng)不卡在GPU上,并不是顯卡本身算得不夠快,而是卡在通信上。
只有達到500微秒這樣水平的文件讀取速度,才能支撐起來能把幾十萬、幾百萬的clips放在一起訓(xùn)練。如果做不到這樣水平,整個訓(xùn)練速度就會由于文件讀取的原因卡住,這就意味著,有相當(dāng)于大量的GPU在閑置,等待文件系統(tǒng)把數(shù)據(jù)讀上來,才能開始計算。
在算力優(yōu)化方面,毫末與火山引擎合作,部署了Lego高性能算子庫、ByteCCL 通信優(yōu)化能力、以及大模型訓(xùn)練框架。
在訓(xùn)練效率方面,基于Sparse MoE,通過跨機共享,可完成萬億參數(shù)大模型訓(xùn)練,且百萬個clips訓(xùn)練成本只需百卡周級別,訓(xùn)練效率提升100倍。
毫末預(yù)計,進入2023年,超算中心會成為自動駕駛企業(yè)的入門配置,預(yù)計會有更多的企業(yè)開始投入建設(shè),毫末屬于率先摸索的企業(yè)。
02、打造五大算法模型,感知模型跨代升級
在介紹毫末打造的五大大模型之前,我們先來解釋一下如何理解“大模型”?
大模型也可以稱之為基石模型(fundation model),屬于深度學(xué)習(xí)的一種,在AI領(lǐng)域具備里程碑式的影響。
在《2022達摩院十大科技趨勢》中,達摩院將其稱作“從弱人工智能通向人工智能突破性的探索”。
大模型的主要特征包括三個方面:參數(shù)規(guī)模大、數(shù)據(jù)規(guī)模大、算力需求大?;谶@樣的特點,大模型在自動駕駛領(lǐng)域的應(yīng)用有一定優(yōu)勢。
自動駕駛采集的數(shù)據(jù)種類繁雜,包括不同傳感器采集的數(shù)據(jù)、實際路測數(shù)據(jù)、仿真數(shù)據(jù)等等,小模型因為模型容量太小,無法灌入足夠多數(shù)據(jù),難以沉淀出有價值的信息,大模型則在模型容量上有保障,能夠通過大量數(shù)據(jù)灌入,學(xué)習(xí)到關(guān)鍵信息。
交代完這一背景,我們來重點介紹一下毫末MANA五大模型:
1、視覺自監(jiān)督大模型。這一大模型核心價值是讓毫末4D clip標(biāo)注實現(xiàn)100%自動化,同時將標(biāo)注成本降低98%。
為了更低成本、更高效獲取更多高價值數(shù)據(jù),需要解決從離散幀自動化擴充到clips形態(tài)的問題。
毫末首先利用海量videoclip,通過視頻自監(jiān)督方式,預(yù)訓(xùn)練出一個大模型,用少量人工標(biāo)注好的clip數(shù)據(jù)進行Finetune(微調(diào)),訓(xùn)練檢測跟蹤模型,使得模型具備自動標(biāo)注的能力。
然后,將已經(jīng)標(biāo)注好的千萬級單幀數(shù)據(jù)所對應(yīng)的原始視頻提取出來組織成clip,其中10%是標(biāo)注幀,90%是未標(biāo)注幀,再將這些clip輸入到模型,完成對90%未標(biāo)注幀的自動標(biāo)注,進而實現(xiàn)所有單幀標(biāo)注向clip標(biāo)注的100%的自動轉(zhuǎn)化,同時降低98%的clip標(biāo)注成本。
2、3D重建大模型。核心價值在于數(shù)據(jù)生成、仿真場景的搭建,以獲得海量corner case(長尾場景)。
面對“完全從真實數(shù)據(jù)中積累的corner case困難且昂貴”的行業(yè)難題,毫末將爆火的三維重建NeRF技術(shù)應(yīng)用在自動駕駛場景重建和數(shù)據(jù)生成中,它通過改變視角、光照、紋理材質(zhì)的方法,生成高真實感數(shù)據(jù),實現(xiàn)以低成本獲取normal case,生成各種高成本corner case。
根據(jù)毫末介紹,3D重建大模型生成的數(shù)據(jù),不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低,增加NeRF生成的數(shù)據(jù)后,還可將感知的錯誤率降低30%以上。
3、多模態(tài)互監(jiān)督大模型,主要是為了更加精準(zhǔn)識別異形障礙物。
在實現(xiàn)車道線和常見障礙物的精準(zhǔn)檢測后,針對城市多種異形障礙物的穩(wěn)定檢測問題,毫末正在思考和探索更加通用的解決方案。
多模態(tài)互監(jiān)督大模型引入了激光雷達作為視覺監(jiān)督信號,直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構(gòu)表達。通用結(jié)構(gòu)的檢測,可以很好地補充已有的語義障礙物檢測,有效提升自動駕駛系統(tǒng)在城市復(fù)雜工況下的通過率。
4、動態(tài)環(huán)境大模型,進一步降低對高精地圖的依賴。
通過這一模型可以預(yù)測道路的拓撲關(guān)系,讓車輛行駛在正確的車道中。
在重感知技術(shù)路線下,毫末為了將對高精地圖的依賴度降到最低,面臨著“道路拓撲結(jié)構(gòu)實時推斷”的挑戰(zhàn)。為此,毫末在BEV(鳥瞰圖)的feature map(特征圖)基礎(chǔ)上,以標(biāo)精地圖作為引導(dǎo)信息,使用自回歸編解碼網(wǎng)絡(luò),將BEV特征,解碼為結(jié)構(gòu)化的拓撲點序列,實現(xiàn)車道拓撲預(yù)測,讓感知能力能像人類一樣,在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實現(xiàn)對道路拓撲結(jié)構(gòu)的實時推斷。
毫末認為,解決了路口問題實際就解決了大部分城市NOH問題,目前在保定、北京,毫末對于 85%的路口拓撲推斷準(zhǔn)確率高達 95%。但毫末也坦言,這一模型距離大規(guī)模應(yīng)用還有一定距離。
5、人駕自監(jiān)督認知大模型,可以讓駕駛策略更加擬人化。
在探索“使用大量人駕數(shù)據(jù),直接訓(xùn)練模型做出擬人化決策”方面,毫末為了讓模型能夠?qū)W習(xí)到高水平司機的優(yōu)秀開車方法,全新引入了用戶真實的接管數(shù)據(jù),同時用RLHF(從人類反饋中強化學(xué)習(xí))思路先訓(xùn)練一個reward model(獎勵模型)來挑選出更好的駕駛決策。
通過這種方式,使毫末在掉頭、環(huán)島等公認的困難場景中,通過率提升30%以上。這與AGI領(lǐng)域爆火的ChatGPT 的思路相同,通過人類行為反饋來選出最優(yōu)答案。
在五大模型助力下,MANA最新的車端感知架構(gòu),從過去分散的多個下游任務(wù)集成到了一起,形成一個更加端到端的架構(gòu),包括通用障礙物識別、局部路網(wǎng)、行為預(yù)測等任務(wù),讓毫末車端感知架構(gòu)實現(xiàn)了跨代升級。
03、HPilot搭載近20款產(chǎn)品,自動駕駛進入3.0時代
在技術(shù)落地層面,毫末也復(fù)盤了2022年進展,以及后續(xù)的規(guī)劃。
自發(fā)布以來,毫末HPilot智能駕駛系統(tǒng)已經(jīng)經(jīng)過了6次OTA升級,迭代到3.0版本。三代HPilot產(chǎn)品搭載至魏牌、坦克、歐拉、長城炮等近20款車型,輔助駕駛用戶行駛里程突破2500萬公里。
HPilot 3.0也將要正式量產(chǎn)交付,毫末的城市NOH軟件封版,并達到交付狀態(tài),具備打通高速、城市場景高級別的輔助駕駛能力,首款搭載城市NOH的車型將在2023年上市。
通過重感知、輕地圖技術(shù),毫末城市NOH定位是可大規(guī)模量產(chǎn)的城市導(dǎo)航輔助駕駛。
預(yù)計到2024年上半年,毫末將完成HPilot落地中國100個城市的計劃,實現(xiàn)點點互達。到2025年,更大規(guī)模全場景的NOH將更快落地,并邁入全無人駕駛時代。
第六屆毫末AI DAY上,毫末首次提出自動駕駛3.0時代的概念,這是對于自動駕駛技術(shù)發(fā)展階段的一個判斷。
毫末認為自動駕駛發(fā)展會經(jīng)歷三個階段。硬件驅(qū)動的1.0時代,最典型的特征是,感知能力主要靠激光雷達,認知方式依賴人工規(guī)則,整車成本高企,自動駕駛里程數(shù)據(jù)在100萬公里左右。
軟件驅(qū)動的2.0時代,AI在車上廣泛應(yīng)用,但還是小模型和小數(shù)據(jù)訓(xùn)練的方式,傳感器的識別結(jié)果開始融合,但還是基于結(jié)果的后融合方式,認知方式依然以人工規(guī)則為主,自動駕駛里程數(shù)據(jù)在100萬到1億公里之間。
數(shù)據(jù)驅(qū)動的3.0時代,數(shù)據(jù)可以自己訓(xùn)練自己,自動駕駛玩家的側(cè)重點,轉(zhuǎn)移到高效獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識上。
從全球來看,以數(shù)據(jù)驅(qū)動為標(biāo)志,特斯拉領(lǐng)跑全球率先進入自動駕駛3.0時代。在中國,以毫末智行等漸進式自動駕駛企業(yè)為代表,正在通過規(guī)模量產(chǎn)和高階輔助駕駛場景落地實現(xiàn)數(shù)據(jù)閉環(huán),推動自動駕駛技術(shù)快速走向成熟。
在此次AI DAY上,毫末作出判斷,2023年自動駕駛將全面進入3.0時代。
同時,毫末還做出判斷,進入2023年,智能駕駛的用戶體驗將從嘗鮮轉(zhuǎn)變?yōu)橛脩粢蕾嚒kS著搭載高速導(dǎo)航輔助駕駛系統(tǒng)的智能汽車大量進入市場,智能駕駛系統(tǒng)能力不斷提升,用戶使用時長和粘性也在不斷增加,智能駕駛系統(tǒng)的核心價值將會逐步從體驗嘗鮮轉(zhuǎn)變?yōu)楣δ芤蕾嚒?/p>