賈浩楠 發(fā)自 凹非寺
“對(duì)軟件有理想的人應(yīng)該做屬于自己的硬件”。喬布斯的信條開(kāi)創(chuàng)了時(shí)代,這樣的認(rèn)知,被馬斯克以自建超算自研平臺(tái)等方式在特斯拉踐行。
現(xiàn)在,同樣的劇本正在中國(guó)自動(dòng)駕駛行業(yè)上演。
毫末智行——被業(yè)內(nèi)以“自動(dòng)駕駛量產(chǎn)第一”認(rèn)知的創(chuàng)業(yè)公司——在 AI Day上最新發(fā)布:智算中心。
完全服務(wù)自動(dòng)駕駛研發(fā),而且是自建。
△?毫末智行CEO顧維灝(右)和火山引擎總裁譚待
這是中國(guó)首個(gè)由自動(dòng)駕駛公司建立的智算中心。
經(jīng)歷2022年行業(yè)競(jìng)速后,量產(chǎn)智能駕駛進(jìn)城爭(zhēng)奪戰(zhàn)已經(jīng)打響,而決定城市輔助駕駛落地、體驗(yàn)和發(fā)展速度的關(guān)鍵保障,就是智算中心。
特斯拉已經(jīng)為FSD準(zhǔn)備好了DOJO智算中心;國(guó)內(nèi),同樣以重感知輕地圖展現(xiàn)大規(guī)模落地的毫末智行,現(xiàn)在也把城市NOH背后的保駕重器推到了臺(tái)前。
所以毫末智行的智算中心,會(huì)如何發(fā)揮作用?
為什么是毫末,率先向“重”而行——成為首個(gè)建立智算中心的自動(dòng)駕駛公司?
首個(gè)自動(dòng)駕駛公司建立的智算中心?
毫末智行自建的智算中心,是與字節(jié)跳動(dòng)旗下火山引擎合作的,由自動(dòng)駕駛業(yè)務(wù)方“承包”相當(dāng)部分的算力資源,按照自動(dòng)駕駛開(kāi)發(fā)的特定要求,建成專門(mén)的算力集群。
所謂“智算中心”,并不是傳統(tǒng)意義上的超級(jí)計(jì)算機(jī)。
自動(dòng)駕駛、或者說(shuō)智能汽車(chē)上的核心功能,其實(shí)都是AI。具體說(shuō),是大規(guī)模的深度學(xué)習(xí)算法。
而無(wú)論是訓(xùn)練,還是測(cè)試這樣的模型,扮演主角的不再是傳統(tǒng)CPU的邏輯推理能力,而是以AI加速器為主的浮點(diǎn)計(jì)算能力,GPU則是當(dāng)前AI加速器的主流。
所以,智算中心的第一個(gè)特征,就是以大規(guī)模GPU算力作為AI模型迭代的基礎(chǔ)。
第二個(gè)特征,是與自動(dòng)駕駛業(yè)務(wù)深度結(jié)合,智算中心提供了針對(duì)自動(dòng)駕駛應(yīng)用特征的算力集群、性能加速工具和AI大數(shù)據(jù)平臺(tái),使得模型訓(xùn)練性能、GPU資源利用率和算法研發(fā)效能都大大提升。
毫末智算中心MANA OASIS算力0.67 EFLOPS?(每秒6.7*1017次浮點(diǎn)運(yùn)算)*。
毫末MANA OASIS的算力幾乎全部為自動(dòng)駕駛服務(wù)。其架構(gòu)也根據(jù)自動(dòng)駕駛的業(yè)務(wù)特征做了專門(mén)安排。
自動(dòng)駕駛?cè)蝿?wù)訓(xùn)練的特點(diǎn),是文件比較多較雜,而且多為視頻、圖像數(shù)據(jù)。自動(dòng)駕駛的用戶每一次接管,都會(huì)形成一個(gè)獨(dú)立的小文件。車(chē)多用戶多,就形成了自動(dòng)駕駛數(shù)量超過(guò)百億的數(shù)據(jù)集。
所以,第一個(gè)要求是高性能地訪問(wèn)和傳輸這些數(shù)據(jù),存儲(chǔ)帶寬需要達(dá)到每秒2T的能力。
此外,毫末智行的不同自動(dòng)駕駛模型搭載在不同的服務(wù)器上,而不同服務(wù)器的通信能力也很關(guān)鍵,MANA OASIS的帶寬設(shè)計(jì)實(shí)現(xiàn)了800G/秒。
計(jì)算、存儲(chǔ)和通信,是毫末MANA OASIS的基礎(chǔ)能力。
在AI模型訓(xùn)練的優(yōu)化上,火山引擎也提供了針對(duì)性的基礎(chǔ)優(yōu)化。
比如,AI不斷演進(jìn)發(fā)展,新的模型、網(wǎng)絡(luò)結(jié)構(gòu)層出不窮。前幾年在NLP領(lǐng)域興起的Transformer,現(xiàn)在成了自動(dòng)駕駛最被看好的技術(shù),也是毫末目前最主要“殺手锏”?;鹕揭鏋楹聊┐蛟斓闹撬阒行模梢灾С职═ransformer在內(nèi)的超過(guò)200組網(wǎng)絡(luò)結(jié)構(gòu)。
此外,超過(guò)500個(gè)高性能AI算子、高帶寬網(wǎng)絡(luò)通訊、專門(mén)服務(wù)超大模型任務(wù)的數(shù)據(jù)并行、流水并行和稀疏化并行等等,MANA OASIS都能支持。
根據(jù)毫末的介紹,目前千億參數(shù)的AI大模型的一個(gè)完整訓(xùn)練——收斂周期,只需要一周,效率提升了100倍。
毫末OASIS,也是字節(jié)跳動(dòng)首次在智算中心上的對(duì)外技術(shù)輸出?;炯軜?gòu)特征,和毫末之前一直展現(xiàn)出的技術(shù)路線完全吻合:以超大模型、超大數(shù)據(jù),快速迭代為基礎(chǔ)的自動(dòng)駕駛研發(fā)。
AI技術(shù)To C應(yīng)用最成功的公司,和量產(chǎn)自動(dòng)駕駛技術(shù)第一名聯(lián)手,毫末OASIS的架構(gòu)特征背后體現(xiàn)的是自動(dòng)駕駛發(fā)展趨勢(shì):
數(shù)據(jù)層面,以“幀”為基本單位的數(shù)據(jù)組織方式,正在向標(biāo)注效率、數(shù)據(jù)利用率更高的的Clip形式(一段包含多幀的連續(xù)視頻)轉(zhuǎn)變。
Cilp帶來(lái)了更大的數(shù)據(jù)量,需要更大規(guī)模的AI模型,以及更高的迭代效率。也就是說(shuō),對(duì)自動(dòng)駕駛的圖像視頻處理技術(shù)要求更高了。
而毫末的量產(chǎn)自動(dòng)駕駛落地路線,無(wú)論是重感知和大模型應(yīng)用,在智算中心里,有了更加廣闊的舞臺(tái)。
毫末智算中心能做什么?
OASIS的核任務(wù)只有一個(gè):加速大模型訓(xùn)練。
具體的說(shuō)是5方面大模型的訓(xùn)練,這是毫末城市NOH落地的技術(shù)保障,也是毫末NOH領(lǐng)先的力量之源。
視頻自監(jiān)督大模型
所解決的問(wèn)題是怎么樣能夠更高效地建設(shè)一個(gè)Clips的數(shù)據(jù)集。
過(guò)去的自動(dòng)駕駛訓(xùn)練數(shù)據(jù)都是按幀來(lái)組織的,frame by frame標(biāo)注出需要的目標(biāo),比如行人、乘用車(chē)等等。但每幀圖像只能標(biāo)注一種目標(biāo),浪費(fèi)了圖像包含的其他目標(biāo)價(jià)值。
Clips的目的就是利用標(biāo)注的數(shù)據(jù),把未標(biāo)注的數(shù)據(jù)自動(dòng)化地標(biāo)注出來(lái)。
視頻自監(jiān)督大模型首先使用大量未標(biāo)注的數(shù)據(jù)形成了這樣一個(gè)基礎(chǔ)大模型,然后再用少量已標(biāo)注的數(shù)據(jù)做啟發(fā)式的學(xué)習(xí)。通過(guò)一個(gè)自我編解碼的模型,完成那些90%未標(biāo)注數(shù)據(jù)自動(dòng)化的標(biāo)注。
標(biāo)注完了之后,一段視頻里面所有的障礙物都會(huì)連續(xù)在視頻里面標(biāo)注出來(lái)。之前沒(méi)有發(fā)現(xiàn)的數(shù)據(jù),能夠通過(guò)這樣的數(shù)據(jù)形態(tài)和新的標(biāo)注方法把它挖掘出來(lái)。
3D重建大模型
毫末智行介紹,字節(jié)跳動(dòng)其實(shí)已經(jīng)積累了很多電商AI應(yīng)用的經(jīng)驗(yàn),比如一個(gè)商品照幾張照片,就能夠切換視角,還原出3D模型。背后其實(shí)是NeRF,這個(gè)模型的主要功能就是3D建模和新視角的生成。
毫末智行也將這個(gè)技術(shù)應(yīng)用到自動(dòng)駕駛上。用NeRF模型對(duì)回傳Clip做一個(gè)重建。建出來(lái)之后,把它應(yīng)用在數(shù)據(jù)補(bǔ)充上。
3D重建大模型主要的作用是在3D場(chǎng)景下,通過(guò)不同視角的轉(zhuǎn)換,生成2D圖像中沒(méi)有的稀缺數(shù)據(jù)。
另外,也可以通過(guò)在3D場(chǎng)景中使用生成網(wǎng)絡(luò),改變場(chǎng)景的光線和紋理,生成新的數(shù)據(jù),降低感知模型的錯(cuò)誤率。
它的意義仍然是降低人工標(biāo)注成本,以及生成更多有價(jià)值的數(shù)據(jù)。
多模態(tài)互監(jiān)督大模型
自動(dòng)駕駛一直面臨一個(gè)挑戰(zhàn):真實(shí)的環(huán)境里面,會(huì)面臨很多未知的障礙物,不可能把所有的東西都標(biāo)注上,該怎么辦?
毫末的解決方式是用互監(jiān)督大模型。首先做通用物體的檢測(cè),物體的結(jié)構(gòu)識(shí)別出來(lái),來(lái)判定這個(gè)區(qū)域的可通行性。
這其中,多模態(tài)體現(xiàn)在首先用視覺(jué)模型做BEV特征的提取和通用結(jié)構(gòu)檢測(cè)。
此外還會(huì)用用激光雷達(dá)的點(diǎn)云圖做一次監(jiān)督校驗(yàn),持續(xù)地提升視覺(jué)檢測(cè)的結(jié)果。
動(dòng)態(tài)環(huán)境大模型
毫末智行的技術(shù)路線重感知、輕地圖。這也是目前絕大部分自動(dòng)駕駛玩家認(rèn)可的方向。
高精地圖盡管表面上看對(duì)自動(dòng)駕駛系統(tǒng)很關(guān)鍵,但背后有著政策監(jiān)管、法規(guī)準(zhǔn)入、數(shù)據(jù)采集、信息更新等等問(wèn)題。
尤其是在國(guó)內(nèi),基建更新速度飛快,高精地圖為及時(shí)準(zhǔn)確性付出的成本,難以估算。
但輕地圖技術(shù)層面挑戰(zhàn)很大,其中一個(gè)車(chē)道拓?fù)渥R(shí)別的問(wèn)題,就是在較為復(fù)雜的路口、匝道究竟走哪個(gè)車(chē)道的問(wèn)題。
毫末的動(dòng)態(tài)環(huán)境大模型,首先還是用BEV環(huán)視生成環(huán)境基礎(chǔ)特征,然后把現(xiàn)有基礎(chǔ)導(dǎo)航地圖的必要信息輸入Topology Attention網(wǎng)絡(luò)里面對(duì)不同的分岔點(diǎn)、合流點(diǎn)做預(yù)測(cè)和回溯,把合適的車(chē)道拓?fù)漕A(yù)測(cè)出來(lái),然后交給決策系統(tǒng)。
人駕自監(jiān)督認(rèn)知大模型
毫末智行的自動(dòng)駕駛研發(fā),會(huì)基于很多用戶真實(shí)的駕駛行為訓(xùn)練。
但問(wèn)題是老司機(jī)畢竟是少數(shù),如果針對(duì)這樣的大規(guī)模數(shù)據(jù)群體訓(xùn)練,很可能最終得到的是一個(gè)平均值。在打磨AI老司機(jī)的過(guò)程中,毫末借鑒了目前大火的ChatGPT的思路。
ChatGPT是在GPT3上面做的衍生,最后一代GPT3有1500億個(gè)參數(shù),在模型的認(rèn)知理解能力上通過(guò)量變達(dá)到了質(zhì)變。核心的方法其實(shí)就是用人類行為的反饋?zhàn)鰪?qiáng)化學(xué)習(xí)。
比如針對(duì)某個(gè)問(wèn)題,先通過(guò)人類的回答訓(xùn)練一個(gè)基礎(chǔ)的網(wǎng)絡(luò)。對(duì)于同類的問(wèn)題,將多個(gè)答案做一個(gè)排序,讓AI知道哪個(gè)答案更好。這樣就會(huì)訓(xùn)練出來(lái)一個(gè)價(jià)值模型。
有了價(jià)值模型后,AI就可以在生成的過(guò)程中做持續(xù)的訓(xùn)練,做持續(xù)的迭代,最后把最好的結(jié)果篩出來(lái),把不好的降下去。
對(duì)于自動(dòng)駕駛來(lái)講,毫末規(guī)劃了一套規(guī)則,用戶如果按照建議的方式駕駛,過(guò)程中不接管,就是一個(gè)Good Case。如果接管了,就是一個(gè)Bad Case。把Good Case和Bad Case訓(xùn)練的模型加入大模型里面,就能形成這種強(qiáng)化訓(xùn)練結(jié)構(gòu)的閉環(huán)。
毫末說(shuō),之前計(jì)算資源有限,對(duì)于以上5個(gè)大模型的迭代,總是不得不保守。
而現(xiàn)在借助于智算中心,計(jì)算資源充沛,可以把這五個(gè)大模型正式修煉出來(lái),朝著自動(dòng)駕駛“數(shù)據(jù)驅(qū)動(dòng)”的3.0時(shí)代邁進(jìn)。
而3.0時(shí)代的第一幕,就是毫末智行城市NOH的量產(chǎn)上車(chē)。
城市NOH本質(zhì)是城市道路領(lǐng)航輔助功能,意思是系統(tǒng)會(huì)在大部分情況下接管車(chē)輛,自主識(shí)別車(chē)道線、障礙物、紅綠燈、限速等等,并且結(jié)合導(dǎo)航信息,規(guī)劃行進(jìn)線路——真正“從P檔到P檔”的智能駕駛,極大程度減輕用戶駕駛負(fù)擔(dān),也是自動(dòng)駕駛技術(shù)誕生以來(lái),核心價(jià)值距離普通人感受最近的功能。
所以城市領(lǐng)航輔助量產(chǎn),也是今年各個(gè)自動(dòng)駕駛公司、車(chē)廠競(jìng)速爭(zhēng)奪、證明實(shí)力的目標(biāo)。
毫末NOH,很有可能在這場(chǎng)競(jìng)速中率先實(shí)現(xiàn)大規(guī)模量產(chǎn)。
核心原因,是包括上面5個(gè)大模型在內(nèi)的重感知技術(shù)路線。
比如視頻自監(jiān)督大模型,能自動(dòng)把一段視頻數(shù)據(jù)中90%目標(biāo)都標(biāo)注出來(lái),相當(dāng)于只標(biāo)注10幀,就可以生成100幀的數(shù)據(jù)。使人工標(biāo)準(zhǔn)成本和時(shí)間大大降低。
而3D重建大模型,又可以從有限數(shù)據(jù)中,自動(dòng)生成更多更多有價(jià)值的數(shù)據(jù)。
互監(jiān)督大模型、動(dòng)態(tài)環(huán)境大模型、人駕自監(jiān)督認(rèn)知大模型則分別在目標(biāo)識(shí)別準(zhǔn)確率、路徑預(yù)測(cè)規(guī)劃、整體乘坐體驗(yàn)上提升NOH的能力。
說(shuō)得再多,不如眼見(jiàn)為實(shí):
2022年的毫末智行,董事長(zhǎng)張凱總結(jié)成了“三大戰(zhàn)役”:
數(shù)據(jù)智能之戰(zhàn),體系建成,走向大模型、大算力、大數(shù)據(jù)的時(shí)代。
城市場(chǎng)景輔助駕駛之戰(zhàn),毫末NOH已達(dá)可交付狀態(tài)。
末端物流自動(dòng)配送之戰(zhàn),初步完成商業(yè)閉環(huán),交付超過(guò)1000臺(tái)。
2023年,毫末智行在“量產(chǎn)”上依然有領(lǐng)先的目標(biāo)。
首先是毫末城市NOH功能很快就會(huì)量產(chǎn)上市,首先搭載在長(zhǎng)城汽車(chē)旗下魏牌車(chē)型。
而2024年到來(lái)之時(shí),毫末城市NOH將會(huì)在國(guó)內(nèi)100個(gè)城市落地。最重要的是:
毫末NOH因?yàn)椴灰蕾嚫呔貓D,省去了建圖、合規(guī)的流程,量產(chǎn)速度會(huì)更快,而且能實(shí)現(xiàn)無(wú)差別覆蓋全國(guó)主要城市道路。
城市領(lǐng)航輔助駕駛落地競(jìng)速,毫末智行NOH無(wú)論量產(chǎn)的速度,還是規(guī)模,目前都是毫無(wú)爭(zhēng)議的第一。
為什么是毫末智行?
對(duì)于毫末智行,無(wú)論是關(guān)注智能汽車(chē)發(fā)展的普通用戶,還是從業(yè)者早已經(jīng)非常熟悉。
“無(wú)人車(chē)傳奇大牛帶隊(duì)”、“長(zhǎng)城汽車(chē)轉(zhuǎn)型殺手锏”、“自動(dòng)駕駛量產(chǎn)第一”……
這些都是僅僅成立3年的毫末智行身上的標(biāo)簽。
客觀上看,毫末智行的3年,是國(guó)內(nèi)智能駕駛量產(chǎn)最快的3年。毫末模式、毫末速度,在過(guò)去三年來(lái)屢屢被熱議。
但智算中心建立,再次引領(lǐng)——首家自動(dòng)駕駛公司建造智算中心。
為什么是毫末?
首先因?yàn)檫@是落地進(jìn)展的需要。
城市輔助駕駛大規(guī)模落地,帶來(lái)大規(guī)模數(shù)據(jù)訓(xùn)練的問(wèn)題,自建智算中心可以更加高效、更具成本、更可持續(xù)——真正進(jìn)入城市輔助駕駛大規(guī)模落地的玩家,都可能需要自建智算中心。
毫末執(zhí)行在量產(chǎn)上的進(jìn)展最快,所以率先開(kāi)建,成為自動(dòng)駕駛公司中的首家。
更深層次原因,則是毫末智行的技術(shù)路線:重感知輕地圖的路線,以及對(duì)大模型的運(yùn)用。這條路線對(duì)于數(shù)據(jù)規(guī)模和迭代,有著更加高的要求。
但最根本的原因,毫末智行CEO顧維灝給出的答案是“創(chuàng)業(yè)精神”:
毫末最為制勝的武器,是毫末同學(xué)們?cè)谝黄鸲纬傻挠y而上的創(chuàng)業(yè)精神,這種無(wú)敵的創(chuàng)業(yè)精神是我們面對(duì)挑戰(zhàn),取得領(lǐng)先,不斷向前的最大法寶。
業(yè)內(nèi)自動(dòng)駕駛公司,更多選擇“輕快靈”的技術(shù)系統(tǒng)打造方式,避免“重資產(chǎn)”的成本投入,所以之前即便有特斯拉這樣的公司打造智算中心,也是車(chē)廠維度出發(fā)的,輕重資產(chǎn)無(wú)所謂,重點(diǎn)還是成本和效能提升。
但毫末智行從第一性原理思考,看到了自動(dòng)駕駛要大規(guī)模落地,智算中心就避無(wú)可避,再難也要做,再重也要搞,看起來(lái)最難的路就是最正確的路。
實(shí)際上這也是毫末智行這種創(chuàng)業(yè)精神和技術(shù)底色的一以貫之。
智算中心之前,毫末智行率先引入Transformer等新技術(shù),在“高精度地圖”的迷信中可以反共識(shí)選擇重感知輕地圖技術(shù)路線,當(dāng)時(shí)并不是主流,但后來(lái)成為行業(yè)共識(shí),完全是獨(dú)立思考不跟隨,迎難而上創(chuàng)業(yè)精神和底色之下的必然選擇和結(jié)果。
有這樣的精神,毫末的自動(dòng)駕駛創(chuàng)新和推進(jìn),就有“1”,各種技術(shù)推進(jìn)和落地成果,都是不斷新增的“0”。
這些成果,在毫末智行的歷次AI Day上接連亮相,讓業(yè)內(nèi)驚嘆于毫末智行成果之多,進(jìn)展之快。
毫末AI Day已然形成一種類似阿里雙11的技術(shù)能力大考,而且是一個(gè)季度一次,已經(jīng)算得上“家喻戶曉“。
隨著歷屆毫末AI Day的深入,這個(gè)活動(dòng)本身從單一公司展示成果,演變成了行業(yè)內(nèi)備受關(guān)注期待的自動(dòng)駕駛前沿技術(shù)分享、商業(yè)落地前瞻的重要風(fēng)向之一。
在自動(dòng)駕駛行業(yè)歷經(jīng)2022年的競(jìng)速和洗牌之后,隨著毫末智行智算中心的推出,開(kāi)始有觀點(diǎn)認(rèn)為,接下來(lái)量產(chǎn)自動(dòng)駕駛的快慢標(biāo)準(zhǔn),除了看落地規(guī)模、上路能力體驗(yàn),也可以把智算中心作為競(jìng)爭(zhēng)力參考。
你怎么看?