從技術(shù)預言家到量產(chǎn)實干家。
“你對王傳福的觀點怎么看?”這是今年上海車展采訪間里可能最高頻的問題。
4月初,比亞迪董事長王傳福在一場投資者溝通會上表示:“無人駕駛都是扯淡和忽悠,是一場皇帝的新裝?!?/p>
出乎提問者意料的是,從紛紛押注智能駕駛的主機廠,再到頭部智駕供應商都對此表示贊同:“無人駕駛很難實現(xiàn)。由機器完成駕駛行為,而人類駕駛員作為監(jiān)督者的自動駕駛將會是中長期的主流路線?!?/p>
行業(yè)變化也佐證了這一觀點,人機共駕的智能駕駛輔助正走向大規(guī)模量產(chǎn)和高階能力的深水區(qū)。而立志無人化的L4級自動駕駛公司則面臨資本退潮的現(xiàn)實壓力,紛紛選擇功能降級,加入輔助駕駛產(chǎn)品的競爭。
“只有退潮了,才知道誰在裸泳”,看來巴菲特的這句名言對科技行業(yè)同樣適用。我們也可以說,同樣因為退潮,我們也能看到哪些玩家已經(jīng)率先取得領先,進入了深水區(qū)。
目前,中國高階智駕能力的先發(fā)名單中已有華為、小鵬汽車、毫末智行三位玩家。
一位是根技術(shù)深厚的科技大佬、一位是ALL IN智能化近十年的新勢力三強,還有一個是成立僅三年的毫末。
在自動駕駛領域,毫末為何能與華為、小鵬并肩,站在高階智能駕駛從技術(shù)驗證到市場爆發(fā)的前排位置?
這需要深入毫末過去三年發(fā)展中尋找到答案。
準確預判未來的毫末
未來難以預測,但科技創(chuàng)業(yè)公司必須準確預判未來,因為生死攸關。
對于所有科技公司來說,技術(shù)產(chǎn)品研發(fā)與市場落地應用有著漫長的產(chǎn)業(yè)鏈和一定的時間差;而對于創(chuàng)業(yè)公司,較少的資金和客戶儲備意味著極小的容錯率。所以,科技創(chuàng)業(yè)公司能夠取得成功的先決條件之一,就是要準確預判未來,選對適應市場的技術(shù)路線,并忠實地執(zhí)行落地。
從結(jié)果來看,有著主機廠+科技互聯(lián)網(wǎng)公司雙重身份基因的毫末做到了。
回溯2019年,L4無人駕駛不僅頗受資本市場青睞,更開始在多個城市落地試運營;國內(nèi)外的大型汽車集團采用L2級和L4級并行的雙技術(shù)路線投入,并且不乏試水Robotaxi車隊的車企。
但同年成立的毫末,卻在一開始選擇了看上去不那么“遠大”的技術(shù)路徑:從低速到高速、從載物到載人、從商用到民用的漸進式發(fā)展的技術(shù)商業(yè)路線。
“未來智能駕駛和智能交互技術(shù)支撐起來的出行工具將成為我們的第三空間,下一個十年毫末認為人類最大的變革將來自于智能化的出行工具。毫末將利用自動駕駛大規(guī)模量產(chǎn)的技術(shù)能力和數(shù)據(jù)智能優(yōu)勢,助力客戶贏得這場戰(zhàn)爭?!痹?021年3月首屆技術(shù)品牌日(后更名為“HAOMO AI DAY”)上,毫末智行董事長張凱對智能駕駛的本質(zhì)屬性和突破關鍵做出了判斷。
當天,毫末智行CEO顧維灝從費用成本和迭代速度兩個維度,首次分享了數(shù)據(jù)智能驅(qū)動自動駕駛升級的技術(shù)路徑。
在2021年12月HAOMO AI DAY上,顧維灝正式完整地解讀了這一戰(zhàn)略路徑的選擇邏輯:“數(shù)據(jù)是人工智能最大的驅(qū)動力,數(shù)據(jù)也是這個進步過程中最大的成本,自動駕駛產(chǎn)品的完善是個漫長的進化過程,就像是智人在漫長的歷史過程中,一定要找到用最低能量消耗維持生命的方法,這樣才有機會開發(fā)智力和積累經(jīng)驗進化人類文明。所以我們數(shù)據(jù)智能的核心,也是降低成本,提高迭代速度。”
此后,顧維灝又將毫末數(shù)據(jù)智能的“思想鋼印”看作自動駕駛的第一性原理:毫末用更低的成本和更快的迭代速度,為用戶提供更安全、更好用的產(chǎn)品。
在2021年的第三屆技術(shù)品牌日上,張凱表示,2022年將是AI自動駕駛商業(yè)化分水嶺之年,智能駕駛將從高速簡單場景漸進到城市復雜場景。自動駕駛的商業(yè)化落地將采用漸進式的路線逐步落地。
“規(guī)?;虡I(yè)落地的進程和節(jié)奏決定一個自動駕駛科技公司能夠走多快,持續(xù)穩(wěn)定、高質(zhì)量的場景數(shù)據(jù)決定一個自動駕駛科技公司能夠走多遠”,張凱的判斷很大程度代表了毫末對數(shù)據(jù)驅(qū)動技術(shù)路線的原點思考。
以此為方向,毫末明確了利用乘用車、末端物流自動配送車和智能硬件三個終端,不斷積累場景數(shù)據(jù),促進數(shù)據(jù)能力的迭代,從而能生產(chǎn)出更好的產(chǎn)品,形成良性循環(huán)的“風車戰(zhàn)略”。
現(xiàn)在,自動駕駛的技術(shù)路線開始從跨越式向漸進式收斂,驗證了毫末三年前的判斷。
原本聚焦Robotaxi、Robobus、干線物流等領域的L4自動駕駛公司紛紛倒戈推出自己的L2+輔助駕駛產(chǎn)品;地平線作為中國自動駕駛產(chǎn)業(yè)鏈頭部供應商則明確表示L3、L4級自動駕駛十年也實現(xiàn)不了,各家應著力將L2+高階駕駛輔助能力打磨至高效可用;比亞迪作為“后來者”更是在一面炮轟“無人駕駛”是“扯淡、忽悠人”,一面大力布局自動駕駛和智能輔助駕駛產(chǎn)品。
而毫末的“風車葉片”則在三年間“轉(zhuǎn)”來了大量的數(shù)據(jù)和多次迭代。
“2021年,毫末智行提出中國自動駕駛的新范式,也就是毫末智行的致勝公式——以領先的數(shù)據(jù)智能體系乘以穩(wěn)定的量產(chǎn)能力乘以安全,之后再乘上生態(tài)的N次方,毫末智行的致勝公式源于毫末對自動駕駛行業(yè)的深刻理解?!睆垊P說。
截止2023月4月初,毫末輔助駕駛用戶行駛里程已經(jīng)突破4100萬公里,小魔駝的配送量也超過了16萬單,智能數(shù)據(jù)體系MANA(雪湖)的學習時長超過56萬小時,虛擬世界駕齡相當于普通人類司機行駛經(jīng)驗的6.8萬年。
在一線市場驗證的基礎上,毫末于2022年9月首個提出自動駕駛3.0時代的概念:
近十年來,自動駕駛產(chǎn)業(yè)經(jīng)過了硬件驅(qū)動,數(shù)據(jù)規(guī)模在100萬公里的1.0時代;軟件驅(qū)動,數(shù)據(jù)規(guī)模在1億公里以下的2.0時代。2023年開始,將進入數(shù)據(jù)驅(qū)動,數(shù)據(jù)規(guī)模達1億公里以上的3.0時代。
而毫末已經(jīng)為3.0時代備戰(zhàn)許久。
毫末的城市NOH方案為什么能不用高精地圖?
今年,搭載毫末HPilot3.0系統(tǒng),具備城市領航駕駛輔助功能(以下簡稱城市NOH)的魏牌新摩卡DHT-PHEV和藍山將先后上市。
隨著兩款車型交付,毫末城市NOH將首批落地在北京、保定、上海等城市,并于2024年開拓100個城市。
值得注意的是,毫末城市NOH的技術(shù)方案,與目前已經(jīng)量產(chǎn)上車的小鵬和華為有著本質(zhì)的不同。
小鵬和華為的量產(chǎn)方案在城市領航中采用高精地圖作為重要的“傳感器”,但毫末則將只基于導航地圖實現(xiàn)城市領航功能,像人類駕駛員一樣開車。
作為后發(fā)者,為什么是毫末率先脫離高精地圖?從毫末過去三年的技術(shù)積累上可以窺見一斑。
高精地圖能夠預先提供“正確”的靜態(tài)環(huán)境,從而大幅降低感知難度。例如面對紅綠燈時,感知模型可以先在高精地圖上預瞄紅綠燈位置和車道線關系,然后進行的識別。
但高精地圖由于鮮度和成本問題,難以被廣泛應用在城市領航中。2022年4月毫末率先提出“重感知”的城市領航方案后,這一技術(shù)路線已成行業(yè)共識,華為、蔚小理宣布的方案都是以無圖、脫圖為目標。
但要想離開高精地圖這個“拐棍”,就需要能夠自己“認識”紅綠燈,并能將其與車道線對應關系綁定,甚至能夠自己“畫出”地圖的感知算法。
2023年1月,毫末率先拿出了端到端的車端感知架構(gòu),將包括車道線、車輛、紅綠燈、通用障礙物識別、局部路網(wǎng)、行為預測等分散的多個下游任務集成到了一起,使自動駕駛系統(tǒng)能夠“自己認路”。
“實現(xiàn)了一個跨代升級,能夠更好地支持我們跨入自動駕駛的3.0時代”,顧維灝表示?!翱绱墶钡谋澈螅呛聊┳约阂呀?jīng)走過,其他玩家正在走的從方法論到工程化的實踐之路。
早在2021年6月,毫末在一次技術(shù)活動中展示了后來業(yè)內(nèi)耳熟能詳?shù)腡ransformer算法。
“Transformer 結(jié)構(gòu)由于其特性,在自動駕駛的各獨立傳感器中都獲得了應用,比如增強單相機全局感受野、時序融合中的運動物體位置偏移的自動對齊?!鳖櫨S灝在當時的分享中已經(jīng)對Transformer的應用前景有了頗為準確的判斷。
但從前景判斷到實現(xiàn)前景,是一系列的攻堅克難。
2021年12月,毫末亮相了與特斯拉“九頭蛇”類似的感知模型網(wǎng)絡。底層骨干網(wǎng)絡計算好基礎數(shù)據(jù)后,兩個分支網(wǎng)絡一個做路面特征識別,一個做可行駛空間和場景識別。其中路面特征識別包括8個小模型,分別計算車道線、停止線、道路邊界、分割、車輛、交通燈和道路弱勢使用者。
與之后一年大部分玩家拿出的,對視覺和激光雷達感知進行結(jié)果融合的方案不同。毫末的這一感知模型是對攝像頭和點云數(shù)據(jù)在骨干網(wǎng)絡中直接融合。并在提取一層特征后,利用RNN(循環(huán)神經(jīng)網(wǎng)絡)和光流SLAM(即時定位與地圖構(gòu)建)進行時空融合,得到時空一體的模型后,再進行多頭計算。
“我們最終的目標是把現(xiàn)實世界反映到我們的向量空間里。”顧維灝在當時就表示。
此后,毫末進一步就城市場景中的重點問題進行技術(shù)攻堅。
例如在2022年4月亮相的雙流模型:一路包含對紅綠燈燈箱的監(jiān)測、燈型分類、輸出顏色、形狀和朝向形信息;一路則負責紅綠燈綁路,輸出目標車道的紅綠燈燈組。并且利用空間注意力機制將兩者結(jié)合起來。
也是從這時,毫末開始探索利用Transformer中的Attention(注意力機制)結(jié)構(gòu),打造統(tǒng)一的融合框架,并且對Transformer算法的應用更為上手。
2022年9月,毫末拿出了時序BEV方案。
“我們用時序的Transformer模型在BEV空間上做了虛擬實時建圖,通過這種方式讓感知車道線的輸出更加準確和穩(wěn)定,在這個時空下對障礙物的判斷也更準確了些?!鳖櫨S灝在當時的演講中談到:“我們已經(jīng)可以解決部分的道路模糊、復雜路口、環(huán)島等問題,整個過程只需要普通導航地圖里面的相對可靠的拓撲信息即可,就像我們自己開車一樣。”
2023年上半年,華為、小鵬等頭部玩家開始量產(chǎn)上車時序BEV感知方案。
也是在2023年初,毫末亮相了用于通用障礙物識別的多模態(tài)互監(jiān)督大模型,以及用于構(gòu)建實時道路拓撲結(jié)構(gòu),并從而降低地圖依賴的動態(tài)環(huán)境大模型。
4月,毫末最新的感知大模型,已經(jīng)可以同時學習感知環(huán)境當中的三維空間結(jié)構(gòu)和圖像紋理信息,從而可以適配所有主流的視覺感知任務。
基于純視覺的感知能力,毫末目前已能夠?qū)⒋饲鞍才旁谥邱{系統(tǒng)外的魚眼相機引入BEV架構(gòu)中來進行近距離視覺測量任務,并實現(xiàn)15米內(nèi)30cm,2米內(nèi)高于10cm的測量精度。
“這樣的精度可以讓我們用視覺取代超聲波雷達,進一步降低整體方案的成本?!鳖櫨S灝表示。
至此,我們完整回顧了毫末在“重感知”路線的快速技術(shù)演變,從而也就理解了毫末能夠在這場高階智能駕駛產(chǎn)品落地競賽中拔得頭籌的根本原因。
DriveGPT雪湖·海若,像老司機一樣開車
與端到端的時序BEV感知架構(gòu)一同上車的,還有毫末的自動駕駛生成式大模型——DriveGPT雪湖·海若。
“DriveGPT使我們在一個統(tǒng)一的生成式框架下,將規(guī)劃、決策和推理等多個任務全部完成?!鳖櫨S灝表示:“DriveGPT在更大數(shù)據(jù)的支持下,還是會讓自動駕駛系統(tǒng)的決策能力有一個質(zhì)的提升。這一新技術(shù)范式即使放眼全球也是非常獨特和創(chuàng)新的?!?/p>
雪湖·海若可不是蹭GPT的“熱點”,而是毫末在自動駕駛認知領域技術(shù)探索和對Tranformer持續(xù)應用實踐的結(jié)果。
顧維灝將毫末的認知駕駛決策分為3個階段:
第一階段引入了個別場景的端到端模仿學習,直接擬合人駕行為。
2021年,毫末明確了安全、舒適、高效三大認知要素,通過在CSS安全模型中對安全目標、原則和實現(xiàn)方法進行約定。在此基礎上,從數(shù)據(jù)中學習舒適和高效的量化標準,以及這三要素之間的制約關系。
第二階段通過大模型,引入海量正常人駕數(shù)據(jù),通過Prompt(激勵)的方式實現(xiàn)認知決策。
在這一階段,毫末已經(jīng)開始探索預訓練類的認知模型。
但隨著測試的深入,數(shù)據(jù)的累積,毫末發(fā)現(xiàn)分場景微模型方法漸漸顯露弊端,會出現(xiàn)運動太機械,舒適感不足的情況。
此外,通過與10萬億參數(shù)的阿里巴巴M6大模型合作,毫末初步嘗試了基于Attention機制,利用大模型制作熱力圖,來解決駕駛決策一致性和可解釋性的問題,并開始認真考慮建立認知大模型,并為此開始構(gòu)建毫末的駕駛行為場景庫。
2022年底,毫末認知駕駛決策進入第三階段:引入真實接管數(shù)據(jù),同時進入RLHF(強化學習方法),構(gòu)建基于“舊策略、接管策略、人工label(標注)策略”的pairwise排序模型的自動駕駛決策reward model(獎勵機制模型),從而選出最優(yōu)決策。
這一方法將掉頭、環(huán)島等困難場景的通過率提升了30%以上,也為之后的雪湖·海若打下了基礎。
自動駕駛系統(tǒng)的決策主要分為預測、規(guī)劃、控制幾個環(huán)節(jié):基于感知結(jié)果,通過搜索等方法劃定出可行駛空間,再在其中根據(jù)自車和其他交通參與者可能的行動軌跡進行路線規(guī)劃,最終決定出一條行駛路線,并將行駛路線分解為車輛動作命令傳給執(zhí)行器。
相比目前業(yè)內(nèi)大部分采用的,分步驟的決策方式。云端參數(shù)高達1200億個雪湖·海若因為能夠做到全局思考,所以能夠基于感知結(jié)果,直接給出規(guī)劃控制結(jié)果和理由:
1、一次性生成多個未來可能發(fā)生的全局場景,并且按照可能發(fā)生的概率排序;2、生成自車未來的軌跡信息;3、直接給出決策邏輯鏈。
“除了城市NOH,我們判斷,雪湖·海若將在未來在更多場景上將帶來突破。比如:高速NOH,城市巡航、駕駛捷徑推薦、智能陪練、場景脫困等等,最終我們希望能夠抵達自動駕駛的終極場景:無人駕駛。”
顧維灝在演講中表示,“雪湖·海若的目標是實現(xiàn)端到端自動駕駛,現(xiàn)階段主要用于解決自動駕駛的認知決策問題,后續(xù)持續(xù)會將毫末多個大模型的能力整合到雪湖·海若?!?/p>
MANA雪湖+MANA OASIS綠洲:支撐毫末持續(xù)進化
如何將戰(zhàn)略和技術(shù)選擇的領先性延續(xù)到量產(chǎn)上車之后?毫末為此做了充分的準備。
毫末于2021年底提出更為具體的自動駕駛能力發(fā)展曲線:F=Z+M(X)。
其中F代表自動駕駛的產(chǎn)品力,Z代表基于技術(shù)推理得出的初代產(chǎn)品方案,M則是把數(shù)據(jù)轉(zhuǎn)化為知識的函數(shù),疊加X即行業(yè)生態(tài)的影響。
“M是復雜的,包括不同類型的數(shù)據(jù),也包括對數(shù)據(jù)的獲取、表達、存儲、傳輸、計算和驗證。我們思考、實踐和沉淀了很多,今天把毫末最核心的數(shù)據(jù)智能體系MANA(雪湖)拿出來與大家分享?!?022年年底,顧維灝正式將毫末的數(shù)據(jù)閉環(huán)體系雪湖架構(gòu)介紹給公眾。
“毫末的數(shù)據(jù)驅(qū)動體系,是基于毫末真實用戶行駛里程提取出的高價值智駕數(shù)據(jù),快速挖掘出用戶真實的駕駛痛點,持續(xù)精準提高智駕產(chǎn)品的用戶價值,從而進入產(chǎn)品越好用、用戶越愛用精準迭代的正向循環(huán)。毫末的數(shù)據(jù)驅(qū)動體系包含用戶需求閉環(huán)、研發(fā)效能閉環(huán)、數(shù)據(jù)積累閉環(huán)、數(shù)據(jù)價值閉環(huán)以及產(chǎn)品自完善閉環(huán)、業(yè)務工程化閉環(huán)六大部分?!苯衲昴瓿?,張凱再度對毫末的數(shù)據(jù)閉環(huán)體系進行了解讀。
數(shù)據(jù)閉環(huán)體系是自動駕駛研發(fā)的核心Know-how,鮮有企業(yè)會將其公之于眾。毫末此舉也為更多玩家構(gòu)建自己的閉環(huán)體系提供了經(jīng)過實踐驗證的參考經(jīng)驗。
雪湖由BASE、TARS、LUCAS、VENUS四個子系統(tǒng)組成。
BASE包括數(shù)據(jù)的獲取,傳輸,存儲,計算,以及新的數(shù)據(jù)分析和數(shù)據(jù)服務;
TARS是一些關于計算的核心算法原型,用于感知、認知、車端建圖和驗證的實踐;
LUCAS是對算法在應用場景上的實踐,包括高性能計算、診斷、驗證、轉(zhuǎn)化等核心能力;VENUS是數(shù)據(jù)可視化系統(tǒng),包括軟件和算法的執(zhí)行情況,對場景的還原,以及數(shù)據(jù)洞察等能力。
換而言之,BASE、LUCAS、VENUS三者通多對數(shù)據(jù)進行收集、標注、仿真、計算等多種方式,支持TARS中的核心算法原型不斷升級進化,最終轉(zhuǎn)化為車端的高階智能駕駛能力。
所以,算法不斷迭代的背后,也是毫末數(shù)據(jù)體系的不斷進化。
在數(shù)據(jù)標注方面,毫末最新打造的視覺自監(jiān)督大模型不僅能夠?qū)崿F(xiàn)對4D clips(多幀)形態(tài)數(shù)據(jù)的自動標注,而且能夠?qū)㈩A測環(huán)境的三維結(jié)構(gòu)、速度場和紋理分布融合到一個訓練目標中,強迫模型練好內(nèi)功。
目前,視覺自監(jiān)督大模型的數(shù)據(jù)集超過400萬Clips,感知性能提升20%。并使毫末能夠不依賴激光雷達,將回傳視頻轉(zhuǎn)化為可用于BEV模型訓練的帶3D標注的真值數(shù)據(jù)。
在仿真訓練方面,毫末最新的3D重建大模型將NeRF算法和生成對抗網(wǎng)絡GAN相結(jié)合,打造系統(tǒng)無法區(qū)分的仿真環(huán)境。不僅能夠隨意改變靜態(tài)環(huán)境的季節(jié)、天氣、具體紋理,而且還可構(gòu)建動態(tài)仿真目標,來創(chuàng)造各類極難收集的corner case。
基于3D重建大模型,毫末已將重建誤差縮小到10cm,重建效率提升5倍。其訓練的系統(tǒng)感知錯誤率降低30%以上,而且動態(tài)物體甚至用肉眼都難分差異。
而為進一步助推雪湖成長,以及對大模型應用前景的肯定,毫末于今年年初拿出了重金打造的雪湖·綠洲(MANA OASIS),成為國內(nèi)屈指可數(shù)擁有自有超算中心的自動駕駛玩家,以大算力支撐大模型和大數(shù)據(jù)的輪動迭代。
雪湖·綠洲的算力高達670PFLOPS算力,存儲帶寬達每秒2TB,通信帶寬達到每秒800GB,極大滿足大規(guī)模數(shù)據(jù)的訓練任務。
雪湖·綠洲還針對海若進行了針對性地升級改造。
一是建立全套訓練保障框架,避免因個別服務器異??赡軐е碌挠柧氈袛?;
二是升級彈性調(diào)度資源的能力,使訓練平臺能夠自適應每天回傳數(shù)據(jù)不同的大小規(guī)模;
三是吞吐效率的升級,通過算子融合端到端吞吐提升84%。
“我們認為各種傳感器數(shù)據(jù),包括不同類型、像素、角度對于大模型訓練都有非常大的價值;同時,對于不同的場景,包括不同的道路形態(tài)、交通流密度、自然環(huán)境,大模型都是非常有價值的?!?022年9月,顧維灝在演講中便表示。也是在當時,雪湖·綠洲已進入籌備期。
技術(shù)路徑、戰(zhàn)略選擇、算法、算力、數(shù)據(jù),這些決定自動駕駛玩家生死的關鍵要素,毫末每一步都踩在時代之先,并隨著即將量產(chǎn)的3.0產(chǎn)品,站在了AI爆發(fā)的前沿應用端。
正如顧維灝在一次演講中所預言:
從汽車發(fā)明后,汽車工業(yè)就一直嘗試著出行工具能夠?qū)崿F(xiàn)自動駕駛。但是真正具有里程碑意義的智能出行工具,仍然是以機器視覺和深度學習代表關鍵AI技術(shù)所引發(fā)自動駕駛車輛的出現(xiàn)。這一技術(shù)從二十一世紀初興起至今甚至不到二十年時間,就在全球汽車產(chǎn)業(yè)掀起一場真正意義的智能革命。
在這場智能革命中,中國的研究者和企業(yè)不僅沒有遲到,還始終和美國一起站在自動駕駛的前沿,從國家政策到行業(yè)標準,到技術(shù)研發(fā),再到商業(yè)規(guī)模,始終處在第一梯隊的位置。這是一場決定未來數(shù)十年技術(shù)潮流演進和出行物流形態(tài)升級的產(chǎn)業(yè)革命之戰(zhàn)。
毫末有幸處在這個時代,在自動駕駛浪潮中演繹毫末故事。
作者 | 朱世耘