一本加勒比波多野结衣,欧美自慰在线观看

毫末的自動駕駛路徑越來越清晰，核心技術(shù)點可以概括為三個詞：大算力、大模型、大數(shù)據(jù)。

作者 | 肖瑩

1月5日，第七屆 HAOMO AI DAY在北京舉辦，毫末分享了對自動駕駛技術(shù)迭代的思考和實踐。

每個季度做一個總結(jié)分享，個人感受而言，毫末團隊是學(xué)習(xí)能力很強且最有意愿分享的自動駕駛公司之一。就像特斯拉AI DAY，HAOMO AI DAY也成為了一個了解自動駕駛技術(shù)進展的窗口。

這次HAOMO AI DAY上，毫末智行宣布智算中心正式成立，命名為“雪湖·綠洲”（MANA OASIS）。以此為支撐，毫末還發(fā)布了MANA五大模型，包括視覺自監(jiān)督大模型、多模態(tài)互監(jiān)督大模型、3D重建大模型、動態(tài)環(huán)境大模型，以及人駕自監(jiān)督認知大模型。

經(jīng)過不斷地迭代、進化，毫末的自動駕駛路徑也更加清晰，核心技術(shù)點可以概括為三個詞：大算力、大模型、大數(shù)據(jù)。

01、搶先投入大算力基建智算中心“綠洲”發(fā)布

算力比拼已經(jīng)不局限于車端，開始進入到了云端，即智算中心的搭建。

毫末智行在國內(nèi)自動駕駛玩家中，最早意識到了這一問題，并搶先著手搭建智算中心。

在這次AI DAY上，毫末宣布了智算中心的命名——“雪湖·綠洲”（MANA OASIS）。

由毫末智行與字節(jié)跳動旗下云服務(wù)平臺火山引擎聯(lián)合打造，每秒浮點運算達67 億億次，存儲帶寬每秒2T，通信帶寬每秒800G。

小鵬汽車在2022年8月發(fā)布的智算中心扶搖算力為600PFLOPS，即每秒浮點運算60億億次。當(dāng)時，小鵬稱之為算力最強的自動駕駛智算中心。

對比算力來看，MANA OASIS已經(jīng)超越扶搖，成為國內(nèi)自動駕駛行業(yè)最大的智算中心。

自動駕駛發(fā)展進入關(guān)鍵階段，數(shù)據(jù)獲取效率、處理效率是算法進化的關(guān)鍵，海量的產(chǎn)品數(shù)據(jù)、超大規(guī)模的數(shù)據(jù)訓(xùn)練、大模型的應(yīng)用等，都對算力提出了更龐大的需求。

值得一提是的，MANA OASIS是毫末建設(shè)的私有云。

就采用公有云還是搭建私有云的話題，我們曾咨詢過多家自動駕駛公司，目前多數(shù)玩家還是以公有云為主，大家普遍認為，是否自建的核心在于性價比考量。而隨著數(shù)據(jù)存儲、處理量越來越大，公有云就越來越不具備成本優(yōu)勢。毫末建設(shè)私有云，一方面是私有云針對性更強，另一方面也是基于性價比的考慮。

同時，據(jù)毫末介紹，在數(shù)據(jù)管理能力方面，為充分發(fā)揮智算中心價值，讓GPU 持續(xù)飽和運行，毫末歷經(jīng)兩年研發(fā)，建立了全套面向大規(guī)模訓(xùn)練的Data Engine，實現(xiàn)了百P數(shù)據(jù)篩選速度提升10倍、百億小文件隨機讀寫延遲小于500微秒。

500微秒意味著什么？毫末解釋稱，對于數(shù)據(jù)處理來說，大家一般考慮的是算得有多快。但隨著技術(shù)的發(fā)展，數(shù)據(jù)處理真正的瓶頸已經(jīng)不卡在GPU上，并不是顯卡本身算得不夠快，而是卡在通信上。

只有達到500微秒這樣水平的文件讀取速度，才能支撐起來能把幾十萬、幾百萬的clips放在一起訓(xùn)練。如果做不到這樣水平，整個訓(xùn)練速度就會由于文件讀取的原因卡住，這就意味著，有相當(dāng)于大量的GPU在閑置，等待文件系統(tǒng)把數(shù)據(jù)讀上來，才能開始計算。

在算力優(yōu)化方面，毫末與火山引擎合作，部署了Lego高性能算子庫、ByteCCL 通信優(yōu)化能力、以及大模型訓(xùn)練框架。

在訓(xùn)練效率方面，基于Sparse MoE，通過跨機共享，可完成萬億參數(shù)大模型訓(xùn)練，且百萬個clips訓(xùn)練成本只需百卡周級別，訓(xùn)練效率提升100倍。

毫末預(yù)計，進入2023年，超算中心會成為自動駕駛企業(yè)的入門配置，預(yù)計會有更多的企業(yè)開始投入建設(shè)，毫末屬于率先摸索的企業(yè)。

02、打造五大算法模型，感知模型跨代升級

在介紹毫末打造的五大大模型之前，我們先來解釋一下如何理解“大模型”？

大模型也可以稱之為基石模型（fundation model），屬于深度學(xué)習(xí)的一種，在AI領(lǐng)域具備里程碑式的影響。

在《2022達摩院十大科技趨勢》中，達摩院將其稱作“從弱人工智能通向人工智能突破性的探索”。

大模型的主要特征包括三個方面：參數(shù)規(guī)模大、數(shù)據(jù)規(guī)模大、算力需求大?；谶@樣的特點，大模型在自動駕駛領(lǐng)域的應(yīng)用有一定優(yōu)勢。

自動駕駛采集的數(shù)據(jù)種類繁雜，包括不同傳感器采集的數(shù)據(jù)、實際路測數(shù)據(jù)、仿真數(shù)據(jù)等等，小模型因為模型容量太小，無法灌入足夠多數(shù)據(jù)，難以沉淀出有價值的信息，大模型則在模型容量上有保障，能夠通過大量數(shù)據(jù)灌入，學(xué)習(xí)到關(guān)鍵信息。

交代完這一背景，我們來重點介紹一下毫末MANA五大模型：

1、視覺自監(jiān)督大模型。這一大模型核心價值是讓毫末4D clip標(biāo)注實現(xiàn)100%自動化，同時將標(biāo)注成本降低98%。

為了更低成本、更高效獲取更多高價值數(shù)據(jù)，需要解決從離散幀自動化擴充到clips形態(tài)的問題。

毫末首先利用海量videoclip，通過視頻自監(jiān)督方式，預(yù)訓(xùn)練出一個大模型，用少量人工標(biāo)注好的clip數(shù)據(jù)進行Finetune（微調(diào)），訓(xùn)練檢測跟蹤模型，使得模型具備自動標(biāo)注的能力。

然后，將已經(jīng)標(biāo)注好的千萬級單幀數(shù)據(jù)所對應(yīng)的原始視頻提取出來組織成clip，其中10%是標(biāo)注幀，90%是未標(biāo)注幀，再將這些clip輸入到模型，完成對90%未標(biāo)注幀的自動標(biāo)注，進而實現(xiàn)所有單幀標(biāo)注向clip標(biāo)注的100%的自動轉(zhuǎn)化，同時降低98%的clip標(biāo)注成本。

2、3D重建大模型。核心價值在于數(shù)據(jù)生成、仿真場景的搭建，以獲得海量corner case（長尾場景）。

面對“完全從真實數(shù)據(jù)中積累的corner case困難且昂貴”的行業(yè)難題，毫末將爆火的三維重建NeRF技術(shù)應(yīng)用在自動駕駛場景重建和數(shù)據(jù)生成中，它通過改變視角、光照、紋理材質(zhì)的方法，生成高真實感數(shù)據(jù)，實現(xiàn)以低成本獲取normal case，生成各種高成本corner case。

根據(jù)毫末介紹，3D重建大模型生成的數(shù)據(jù)，不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低，增加NeRF生成的數(shù)據(jù)后，還可將感知的錯誤率降低30%以上。

3、多模態(tài)互監(jiān)督大模型，主要是為了更加精準(zhǔn)識別異形障礙物。

在實現(xiàn)車道線和常見障礙物的精準(zhǔn)檢測后，針對城市多種異形障礙物的穩(wěn)定檢測問題，毫末正在思考和探索更加通用的解決方案。

多模態(tài)互監(jiān)督大模型引入了激光雷達作為視覺監(jiān)督信號，直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構(gòu)表達。通用結(jié)構(gòu)的檢測，可以很好地補充已有的語義障礙物檢測，有效提升自動駕駛系統(tǒng)在城市復(fù)雜工況下的通過率。

4、動態(tài)環(huán)境大模型，進一步降低對高精地圖的依賴。

通過這一模型可以預(yù)測道路的拓撲關(guān)系，讓車輛行駛在正確的車道中。

在重感知技術(shù)路線下，毫末為了將對高精地圖的依賴度降到最低，面臨著“道路拓撲結(jié)構(gòu)實時推斷”的挑戰(zhàn)。為此，毫末在BEV（鳥瞰圖）的feature map（特征圖）基礎(chǔ)上，以標(biāo)精地圖作為引導(dǎo)信息，使用自回歸編解碼網(wǎng)絡(luò)，將BEV特征，解碼為結(jié)構(gòu)化的拓撲點序列，實現(xiàn)車道拓撲預(yù)測，讓感知能力能像人類一樣，在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實現(xiàn)對道路拓撲結(jié)構(gòu)的實時推斷。

毫末認為，解決了路口問題實際就解決了大部分城市NOH問題，目前在保定、北京，毫末對于 85%的路口拓撲推斷準(zhǔn)確率高達 95%。但毫末也坦言，這一模型距離大規(guī)模應(yīng)用還有一定距離。

5、人駕自監(jiān)督認知大模型，可以讓駕駛策略更加擬人化。

在探索“使用大量人駕數(shù)據(jù)，直接訓(xùn)練模型做出擬人化決策”方面，毫末為了讓模型能夠?qū)W習(xí)到高水平司機的優(yōu)秀開車方法，全新引入了用戶真實的接管數(shù)據(jù)，同時用RLHF（從人類反饋中強化學(xué)習(xí)）思路先訓(xùn)練一個reward model（獎勵模型）來挑選出更好的駕駛決策。

通過這種方式，使毫末在掉頭、環(huán)島等公認的困難場景中，通過率提升30%以上。這與AGI領(lǐng)域爆火的ChatGPT 的思路相同，通過人類行為反饋來選出最優(yōu)答案。

在五大模型助力下，MANA最新的車端感知架構(gòu)，從過去分散的多個下游任務(wù)集成到了一起，形成一個更加端到端的架構(gòu)，包括通用障礙物識別、局部路網(wǎng)、行為預(yù)測等任務(wù)，讓毫末車端感知架構(gòu)實現(xiàn)了跨代升級。

03、HPilot搭載近20款產(chǎn)品，自動駕駛進入3.0時代

在技術(shù)落地層面，毫末也復(fù)盤了2022年進展，以及后續(xù)的規(guī)劃。

自發(fā)布以來，毫末HPilot智能駕駛系統(tǒng)已經(jīng)經(jīng)過了6次OTA升級，迭代到3.0版本。三代HPilot產(chǎn)品搭載至魏牌、坦克、歐拉、長城炮等近20款車型，輔助駕駛用戶行駛里程突破2500萬公里。

HPilot 3.0也將要正式量產(chǎn)交付，毫末的城市NOH軟件封版，并達到交付狀態(tài)，具備打通高速、城市場景高級別的輔助駕駛能力，首款搭載城市NOH的車型將在2023年上市。

通過重感知、輕地圖技術(shù)，毫末城市NOH定位是可大規(guī)模量產(chǎn)的城市導(dǎo)航輔助駕駛。

預(yù)計到2024年上半年，毫末將完成HPilot落地中國100個城市的計劃，實現(xiàn)點點互達。到2025年，更大規(guī)模全場景的NOH將更快落地，并邁入全無人駕駛時代。

第六屆毫末AI DAY上，毫末首次提出自動駕駛3.0時代的概念，這是對于自動駕駛技術(shù)發(fā)展階段的一個判斷。

毫末認為自動駕駛發(fā)展會經(jīng)歷三個階段。硬件驅(qū)動的1.0時代，最典型的特征是，感知能力主要靠激光雷達，認知方式依賴人工規(guī)則，整車成本高企，自動駕駛里程數(shù)據(jù)在100萬公里左右。

軟件驅(qū)動的2.0時代，AI在車上廣泛應(yīng)用，但還是小模型和小數(shù)據(jù)訓(xùn)練的方式，傳感器的識別結(jié)果開始融合，但還是基于結(jié)果的后融合方式，認知方式依然以人工規(guī)則為主，自動駕駛里程數(shù)據(jù)在100萬到1億公里之間。

數(shù)據(jù)驅(qū)動的3.0時代，數(shù)據(jù)可以自己訓(xùn)練自己，自動駕駛玩家的側(cè)重點，轉(zhuǎn)移到高效獲取數(shù)據(jù)，并把數(shù)據(jù)轉(zhuǎn)化為知識上。

從全球來看，以數(shù)據(jù)驅(qū)動為標(biāo)志，特斯拉領(lǐng)跑全球率先進入自動駕駛3.0時代。在中國，以毫末智行等漸進式自動駕駛企業(yè)為代表，正在通過規(guī)模量產(chǎn)和高階輔助駕駛場景落地實現(xiàn)數(shù)據(jù)閉環(huán)，推動自動駕駛技術(shù)快速走向成熟。

在此次AI DAY上，毫末作出判斷，2023年自動駕駛將全面進入3.0時代。

同時，毫末還做出判斷，進入2023年，智能駕駛的用戶體驗將從嘗鮮轉(zhuǎn)變?yōu)橛脩粢蕾嚒ｋS著搭載高速導(dǎo)航輔助駕駛系統(tǒng)的智能汽車大量進入市場，智能駕駛系統(tǒng)能力不斷提升，用戶使用時長和粘性也在不斷增加，智能駕駛系統(tǒng)的核心價值將會逐步從體驗嘗鮮轉(zhuǎn)變?yōu)楣δ芤蕾嚒?/p>