作者 | 張萌宇
2023年1月5日,在第七屆HAOMO AI DAY上,毫末智行智算中心“雪湖·綠洲”(MANA OASIS)重磅發(fā)布。MANA OASIS由毫末智行與火山引擎聯(lián)合打造,每秒浮點(diǎn)運(yùn)算達(dá)到67億億次,存儲(chǔ)帶寬每秒2T,通信帶寬每秒800G。
基于火山引擎大數(shù)據(jù)積累和底層技術(shù),MANA OASIS實(shí)現(xiàn)的計(jì)算、存儲(chǔ)、通訊能力,讓數(shù)據(jù)更快速轉(zhuǎn)化成知識(shí),以實(shí)現(xiàn)降本增效的目的。
在MANA OASIS的加持下,毫末MANA五大模型——視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動(dòng)態(tài)環(huán)境大模型、人駕自監(jiān)督認(rèn)知大模型全新升級(jí)亮相。
這五大模型分別實(shí)現(xiàn)了什么功能呢?
接下來,我們將一一介紹。
視頻自監(jiān)督大模型
讓毫末在中國(guó)較早實(shí)現(xiàn)4D Clip的自動(dòng)標(biāo)注。
為了更低成本、更高效獲取更多高價(jià)值數(shù)據(jù),需要解決從離散幀自動(dòng)化擴(kuò)充到Clips形態(tài)的問題。毫末首先利用海量video clip,通過視頻自監(jiān)督方式,預(yù)訓(xùn)練出一個(gè)大模型,用少量人工標(biāo)注好的Clip數(shù)據(jù)進(jìn)行fine tune(微調(diào)),訓(xùn)練檢測(cè)跟蹤模型,使得模型具備自動(dòng)標(biāo)注的能力;然后,將已經(jīng)標(biāo)注好的千萬(wàn)級(jí)單幀數(shù)據(jù)所對(duì)應(yīng)的原始視頻提取出來組織成Clip,其中10%是標(biāo)注幀,90%是未標(biāo)注幀,再將這些Clip輸入到模型,完成對(duì)90%未標(biāo)注幀的自動(dòng)標(biāo)注,進(jìn)而實(shí)現(xiàn)單幀標(biāo)注向Clip標(biāo)注的轉(zhuǎn)化,同時(shí)降低Clip標(biāo)注成本。
3D重建大模型
助力毫末做數(shù)據(jù)生成,用更低成本解決數(shù)據(jù)分布問題。
面對(duì)“完全從真實(shí)數(shù)據(jù)中積累corner case困難且昂貴”的行業(yè)難題,毫末將三維重建NeRF技術(shù)應(yīng)用在自動(dòng)駕駛場(chǎng)景重建和數(shù)據(jù)生成中,它通過改變視角、光照、紋理材質(zhì)的方法,生成高真實(shí)感數(shù)據(jù),實(shí)現(xiàn)低成本獲取corner case的目標(biāo)。
多模態(tài)互監(jiān)督大模型
可以完成通用障礙物的識(shí)別。
針對(duì)城市多種異形障礙物的穩(wěn)定檢測(cè)問題,毫末引入了多模態(tài)互監(jiān)督大模型,此模型直接使用視頻數(shù)據(jù)來推理場(chǎng)景的通用結(jié)構(gòu)表達(dá)。通用結(jié)構(gòu)的檢測(cè),可以作為語(yǔ)義障礙物檢測(cè)的補(bǔ)充,提升自動(dòng)駕駛系統(tǒng)在城市復(fù)雜工況下的通過率。
動(dòng)態(tài)環(huán)境大模型
采用重感知技術(shù)路線,降低自動(dòng)駕駛系統(tǒng)對(duì)高精地圖的依賴。
毫末在BEV(鳥瞰圖)的feature map(特征圖)基礎(chǔ)上,以標(biāo)清地圖作為引導(dǎo)信息,使用自回歸編解碼網(wǎng)絡(luò),將BEV特征解碼為結(jié)構(gòu)化的拓?fù)潼c(diǎn)序列,實(shí)現(xiàn)車道拓?fù)漕A(yù)測(cè)。如此一來,毫末的感知系統(tǒng)能像人類一樣在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實(shí)現(xiàn)對(duì)道路拓?fù)浣Y(jié)構(gòu)的實(shí)時(shí)推斷,對(duì)高精地圖的依賴度顯著降低。
人駕自監(jiān)督認(rèn)知大模型
讓毫末的駕駛策略更加擬人化,安全及順暢。
在探索“使用大量人駕數(shù)據(jù),直接訓(xùn)練模型做出擬人化決策”方面,毫末為了讓模型能夠?qū)W習(xí)到高水平司機(jī)的優(yōu)秀開車方法,引入了用戶真實(shí)的接管數(shù)據(jù),同時(shí)用RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))思路先訓(xùn)練一個(gè)reward model(獎(jiǎng)勵(lì)模型)來挑選出更好的駕駛決策。通過這種方式,毫末的自動(dòng)駕駛系統(tǒng)在掉頭、環(huán)島等公認(rèn)的困難場(chǎng)景中的通過率顯著提升。
顧維灝表示,“在五大模型助力下,MANA最新的車端感知架構(gòu),從過去分散的多個(gè)下游任務(wù)集成到了一起,形成一個(gè)更加端到端的架構(gòu),包括通用障礙物識(shí)別、局部路網(wǎng)、行為預(yù)測(cè)等任務(wù),毫末車端感知架構(gòu)實(shí)現(xiàn)了跨代升級(jí)?!?/p>