作者 | 萬(wàn)博
顧維灝:特斯拉是唯一一個(gè)進(jìn)入自動(dòng)駕駛3.0時(shí)代的玩家,毫末智行要做下一個(gè)。
剛剛過(guò)去的毫末智行第六屆AI DAY,從董事長(zhǎng)張凱到CEO顧維灝,發(fā)言的關(guān)鍵詞有2個(gè):“量產(chǎn)”和“數(shù)據(jù)”。
在量產(chǎn)層面,毫末智行打造的城市NOH即將量產(chǎn)上市,今年年底將在10個(gè)城市落地,明年使用范圍計(jì)劃擴(kuò)大到100城。
末端物流賽道,自動(dòng)駕駛配送車小魔駝2.0訂單量已經(jīng)超過(guò)9萬(wàn)單。小魔駝2.0在今年4月份發(fā)布之后,現(xiàn)在已經(jīng)量產(chǎn)交付,這也是業(yè)內(nèi)首款面向商用市場(chǎng)的10萬(wàn)元級(jí)物流配送車。
而談到數(shù)據(jù),就涉及到毫末智行自動(dòng)駕駛量產(chǎn)路線的底層邏輯——大數(shù)據(jù)、大模型,和自動(dòng)駕駛漸進(jìn)式落地路線。
01、毫末智行最新進(jìn)展
自動(dòng)駕駛量產(chǎn)落地,毫末智行走在了行業(yè)前列。
張凱披露,截止到目前,用戶使用毫末智行開發(fā)的輔助駕駛系統(tǒng)所產(chǎn)生的輔助駕駛里程積累,已經(jīng)超過(guò)1700萬(wàn)公里。
海量里程數(shù)據(jù)之下,毫末智行數(shù)據(jù)智能體系MANA的學(xué)習(xí)時(shí)長(zhǎng)已經(jīng)超過(guò)31萬(wàn)小時(shí),虛擬駕齡達(dá)到4萬(wàn)年。
有了MANA的加持,毫末的智能駕駛產(chǎn)品開發(fā)和迭代速度大幅提升。兩年時(shí)間內(nèi),毫末HPilot智能駕駛系統(tǒng)已經(jīng)經(jīng)過(guò)了6次OTA升級(jí),迭代到3.0版本。截止到目前,毫末智行可以做到30個(gè)智能駕駛項(xiàng)目異步并行開發(fā)。
一套系統(tǒng)在新車型上的復(fù)用開發(fā),可以在4個(gè)月內(nèi)達(dá)到量產(chǎn)狀態(tài)。
也因此,毫末HPilot目前已經(jīng)在超過(guò)10款車型上量產(chǎn)搭載,這其中魏牌、坦克、哈弗等品牌已經(jīng)實(shí)現(xiàn)上車,歐拉、長(zhǎng)城炮等品牌車型,也正在陸續(xù)交付。
而這,也不過(guò)是個(gè)開始,毫末官方的目標(biāo)是,到今年年底,HPilot的要在30多款車型上量產(chǎn)上車,未來(lái)搭載HPilot的車要達(dá)到百萬(wàn)輛級(jí)別。
從數(shù)據(jù)積累到產(chǎn)品開發(fā)迭代,再到HPilot上車,最受關(guān)注的是,毫末智行即將大規(guī)模量產(chǎn)落地城市NOH。
張凱表示,即將量產(chǎn)上市的全新摩卡DHT-PHEV激光雷達(dá)版將搭載毫末HPilot 3.0智能駕駛系統(tǒng),而該系統(tǒng)的最大亮點(diǎn),就是高級(jí)別輔助駕駛第一次在國(guó)內(nèi)走下高速,開進(jìn)城市開放道路。
據(jù)了解,毫末城市NOH,前后開發(fā)周期歷時(shí)10個(gè)月,而在此之前,已經(jīng)在保定和北京兩地進(jìn)行了上路測(cè)試,多個(gè)城市開放道路中的典型場(chǎng)景測(cè)試視頻,一同在AI DAY上進(jìn)行了展現(xiàn)。
比如紅綠燈的智能識(shí)別和自動(dòng)啟停:
路口無(wú)保護(hù)轉(zhuǎn)彎:
還有十字路口常見的待轉(zhuǎn)區(qū)通行:
這些,只是毫末展示出來(lái)的一部分,從視頻的實(shí)際效果來(lái)看,確實(shí)已經(jīng)達(dá)到了產(chǎn)品階段的能力。據(jù)了解,毫末的計(jì)劃是,截止到今年年底,城市NOH落地10城,而到了明年,這個(gè)數(shù)字要增加9倍,也就是100個(gè)城市。
100個(gè)城市,一年多的時(shí)間,是目標(biāo),也是壓力,但毫末智行認(rèn)為,城市NOH在技術(shù)層面已經(jīng)具備了實(shí)現(xiàn)的條件。
02、城市場(chǎng)景自動(dòng)駕駛的六大挑戰(zhàn)
在顧維灝看來(lái),城市場(chǎng)景是自動(dòng)駕駛的核心突破點(diǎn),而城市開放道路的復(fù)雜性也遠(yuǎn)遠(yuǎn)超過(guò)此前的預(yù)期。比如城市道路養(yǎng)護(hù)頻繁、大型車輛密集、變道空間突然變窄、城市環(huán)境多樣等等。
而要解決這些難點(diǎn),需要面對(duì)的挑戰(zhàn)有6個(gè):
如何在自動(dòng)駕駛領(lǐng)域應(yīng)用大模型?
如何讓新數(shù)據(jù)發(fā)揮更大的價(jià)值?
如何使用重感知技術(shù)解決現(xiàn)實(shí)空間理解問(wèn)題?
如何使用人類世界的交互接口?
如何讓仿真更真?
如何讓自動(dòng)駕駛系統(tǒng)運(yùn)動(dòng)起來(lái)更像人?
而解決這些挑戰(zhàn),主要靠的是MANA在感知、數(shù)據(jù)使用效率等方面的能力進(jìn)化。
顧維灝認(rèn)為,在自動(dòng)駕駛領(lǐng)域應(yīng)用大模型,首先要解決的問(wèn)題是,如何能更高效地將數(shù)據(jù)規(guī)模轉(zhuǎn)化為模型效果。
這里涉及的一個(gè)關(guān)鍵節(jié)點(diǎn)是,數(shù)據(jù)標(biāo)注。
大模型意味同時(shí)也意味著大量的參數(shù)和數(shù)據(jù),在這種情況下,數(shù)以10億計(jì)的數(shù)據(jù)標(biāo)注需要大量的時(shí)間和成本。在此之下,就需要一種能夠直接使用大量無(wú)標(biāo)注數(shù)據(jù)的方法來(lái)解決問(wèn)題。
毫末選擇的方法是,自監(jiān)督學(xué)習(xí),也就是用大量的無(wú)標(biāo)注數(shù)據(jù)訓(xùn)練感知任務(wù)backbone(主干網(wǎng)絡(luò)),模型其他部分用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。通過(guò)這種方式,可以將訓(xùn)練效果提升3倍以上,同時(shí)精度有顯著提升。
關(guān)于第二個(gè)挑戰(zhàn),顧維灝提到一個(gè)現(xiàn)象:在數(shù)據(jù)量越來(lái)越大,達(dá)到一定量級(jí)的時(shí)候,頭部場(chǎng)景的數(shù)據(jù)樣本豐富,但(場(chǎng)景)占比少,大部分長(zhǎng)尾場(chǎng)景和類別的數(shù)據(jù)樣本匱乏。
比如在車輛識(shí)別中,乘用車樣本多,但一些異形車的數(shù)據(jù)就比較少,類似的情況還有帶有特殊圖文的交通燈、不同樣式的汽車尾燈等。
這種現(xiàn)象造成的結(jié)果是,訓(xùn)練出來(lái)的模型針對(duì)一些長(zhǎng)尾場(chǎng)景的處理效果不好,同時(shí)在加入新數(shù)據(jù)的時(shí)候,還會(huì)導(dǎo)致已有的訓(xùn)練效果迅速衰退。
為了解決這一難題,毫末為MANA構(gòu)造了一個(gè)增量式學(xué)習(xí)訓(xùn)練平臺(tái),平時(shí)在對(duì)模型進(jìn)行訓(xùn)練時(shí),放棄優(yōu)化所有參數(shù),而是有選擇的對(duì)一些特定參數(shù)進(jìn)行定點(diǎn)優(yōu)化,同時(shí)動(dòng)態(tài)觀察模型的擬合能力,適時(shí)擴(kuò)充模型的擬合能力。這樣就可以節(jié)省80%以上的算力,收斂時(shí)間提升6倍。
第三個(gè)挑戰(zhàn),如果將高精地圖數(shù)據(jù)接進(jìn)系統(tǒng)就不是挑戰(zhàn),這也目前大多數(shù)自動(dòng)駕駛玩家的玩法,但毫末偏偏走的是“重感知+輕地圖”的路線。因?yàn)樵陬櫨S灝看來(lái),高精地圖的迭代速度和成本問(wèn)題,都無(wú)法滿足自動(dòng)駕駛的需求。
但沒(méi)了高精地圖,傳感器之外的空間如何感知,自動(dòng)駕駛?cè)绾螛?gòu)建自己所處的3D空間?
毫末采取的方式,與特斯拉的方法有相似之處,那就是讓系統(tǒng)自己“腦補(bǔ)”。
具體來(lái)說(shuō),就是使用時(shí)序的Transformer模型在BEV空間做虛擬實(shí)時(shí)建圖,通過(guò)這種方式使感知車道線的輸出更加準(zhǔn)確和穩(wěn)定。
挑戰(zhàn)四,使用人類世界的交互接口。顧維灝表示,過(guò)去毫末主要是通過(guò)傳感器和算法對(duì)交通參與者的行為進(jìn)行預(yù)測(cè),以此來(lái)對(duì)車輛周圍的交通環(huán)境做出提前反應(yīng),但在復(fù)雜性更高的城市開放道路,單純靠“猜”的方式已經(jīng)不夠用了。
解決這個(gè)問(wèn)題的方法是,識(shí)別更多的人類交通語(yǔ)言,比如剎車燈、轉(zhuǎn)向燈,這樣算法就能更清楚的判斷周圍車輛的下一步行動(dòng),進(jìn)而做出決策。
第五個(gè)挑戰(zhàn),就是讓仿真訓(xùn)練的數(shù)據(jù)更接近真實(shí)場(chǎng)景,而在城市開放道路場(chǎng)景下,復(fù)雜性往往更高,尤其是應(yīng)對(duì)路口場(chǎng)景,時(shí)效性和微量交通流變化的構(gòu)建存在問(wèn)題。
為此,毫末與阿里以及浙江德清縣進(jìn)行合作,利用路端設(shè)備將路口的全天候真實(shí)交通流記錄下來(lái),建立自動(dòng)駕駛場(chǎng)景庫(kù)。這種采集方式,相比車輛采集數(shù)據(jù)更加豐富和真實(shí)。
至于最后一個(gè)挑戰(zhàn),實(shí)際上要解決的是自動(dòng)駕駛的舒適性問(wèn)題,例如自動(dòng)啟停的機(jī)械感和頓挫感。
在這個(gè)問(wèn)題上,顧維灝介紹,毫末主要是通過(guò)借鑒多模態(tài)大模型的方法來(lái)解決自動(dòng)駕駛的認(rèn)知問(wèn)題。通過(guò)對(duì)覆蓋全國(guó)的大量人類駕駛行為進(jìn)行深度理解,構(gòu)建 taskpromt,訓(xùn)練一個(gè)基于時(shí)空Attention的駕駛決策預(yù)訓(xùn)練大模型,使得自動(dòng)駕駛決策更像人類實(shí)際駕駛行為。
以上,就是毫末智行以自己的角度和方法論,對(duì)自動(dòng)駕駛的核心難題給出的解決方式,而透過(guò)這一套方法論,也能看到毫末智行大規(guī)模量產(chǎn)背后的關(guān)鍵詞:
大數(shù)據(jù)、大模型,和自動(dòng)駕駛漸進(jìn)式落地路線。
03、大數(shù)據(jù)、大模型的自動(dòng)駕駛3.0時(shí)代
顧維灝將自動(dòng)駕駛演進(jìn)分成了三個(gè)階段,三個(gè)階段的不同之處在于,驅(qū)動(dòng)因素不同。
硬件驅(qū)動(dòng)的1.0時(shí)代,最典型的特征是,感知能力主要靠激光雷達(dá),認(rèn)知方式依賴人工規(guī)則,整車成本高企,自動(dòng)駕駛里程數(shù)據(jù)在100萬(wàn)公里左右;
軟件驅(qū)動(dòng)的2.0時(shí)代,AI在車上廣泛應(yīng)用,但還是小模型和小數(shù)據(jù)訓(xùn)練的方式,傳感器的識(shí)別結(jié)果開始融合,但還是基于結(jié)果的后融合方式,認(rèn)知方式依然以人工規(guī)則為主,自動(dòng)駕駛里程數(shù)據(jù)在100萬(wàn)到1億公里之間;
數(shù)據(jù)驅(qū)動(dòng)的3.0時(shí)代,在顧維灝看來(lái)決然不同以往,數(shù)據(jù)可以自己訓(xùn)練自己,自動(dòng)駕駛玩家的側(cè)重點(diǎn),轉(zhuǎn)移到高效獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識(shí)上。
當(dāng)然,自動(dòng)駕駛3.0時(shí)代,被毫末智行看作更高層級(jí)的境界,在這個(gè)境界中,需要大模型和大數(shù)據(jù),大模型是工具,大數(shù)據(jù)是食糧。這個(gè)食糧需要多少?毫末說(shuō)1億公里以上。
關(guān)于大模型,目前業(yè)內(nèi)的主要認(rèn)知,也正是將大模型應(yīng)用于自動(dòng)駕駛,而毫末智行下手的更早,兩年前就開展了基于Attention機(jī)制的Transfomer大模型在自動(dòng)駕駛行業(yè)的落地研發(fā)。
同時(shí)顧維灝還提到,訓(xùn)練大模型需要消耗巨大的算力,舉個(gè)栗子:一個(gè)千億級(jí)別參數(shù),百萬(wàn)個(gè)clips大模型,需要上千卡的GPU訓(xùn)練幾個(gè)月時(shí)間,訓(xùn)練時(shí)間周期和成本高企。
所以毫末智行經(jīng)過(guò)幾個(gè)月的籌備,建設(shè)MANA超算中心,這個(gè)超算中心的目標(biāo)是,千億參數(shù)百萬(wàn)clips的大模型,整體訓(xùn)練成本降低200倍。
由此,毫末也成為第一個(gè)建設(shè)超算中心的自動(dòng)駕駛玩家。
所以最后的落點(diǎn),就落在了獲取數(shù)據(jù)層面,既要優(yōu)質(zhì),還要便宜,最后還能大規(guī)模獲取。
有沒(méi)有先例可循?
特斯拉是一個(gè)答案,恐怕也是唯一的答案。具體來(lái)講,特斯拉的FSD快速迭代的時(shí)間,和交付量爆發(fā)的時(shí)間可以說(shuō)基本同步。
業(yè)內(nèi)的廣泛認(rèn)知是,正是大量搭載輔助駕駛功能的特斯拉汽車進(jìn)入用戶手中,使得特斯拉可以在影子模式下短時(shí)間大規(guī)模收集自動(dòng)駕駛數(shù)據(jù),對(duì)FSD迅速進(jìn)行迭代。
毫末智行正在復(fù)刻這條道路,在短時(shí)間內(nèi)將輔助駕駛產(chǎn)品大量搭載上車,快速獲取數(shù)據(jù)。
而且相比于高級(jí)別自動(dòng)駕駛,輔助駕駛成本更低,也更容易大規(guī)模鋪開,成本和速度上都有優(yōu)勢(shì)。另外在數(shù)據(jù)的有效性方面,用戶真實(shí)使用的數(shù)據(jù)對(duì)于大模型來(lái)說(shuō),也算精品糧了。
不過(guò)相比特斯拉,毫末智行的優(yōu)勢(shì)是,站在巨人的肩膀上,長(zhǎng)城汽車提供了數(shù)據(jù)容器,毫末智行并不需要像特斯拉一樣生死掙扎數(shù)年才能迎來(lái)翻身。
所以張凱也說(shuō):輔助駕駛是自動(dòng)駕駛落地的必由之路,毫末堅(jiān)定的選擇漸進(jìn)式自動(dòng)駕駛落地路徑。
而相比之下,業(yè)內(nèi)爭(zhēng)論已久的另一條路線,那就是以Waymo、百度為代表的跨越派,一開始就將目光鎖定在L4級(jí)乃至以上的自動(dòng)駕駛上。
對(duì)錯(cuò)暫且不論,但在自動(dòng)駕駛落地的步伐上,毫末智行和特斯拉,確實(shí)走在前面。
但終局,似乎還沒(méi)有到來(lái),特斯拉的FSD被曝出問(wèn)題是常事,毫末智行的城市NOH,還有待市場(chǎng)驗(yàn)證。
所以漸進(jìn)派和跨越派,你站哪邊?