作者 | 張萌宇
2023年1月5日,在第七屆HAOMO AI DAY上,毫末智行智算中心“雪湖·綠洲”(MANA OASIS)重磅發(fā)布。MANA OASIS由毫末智行與火山引擎聯(lián)合打造,每秒浮點運算達到67億億次,存儲帶寬每秒2T,通信帶寬每秒800G。
基于火山引擎大數(shù)據(jù)積累和底層技術,MANA OASIS實現(xiàn)的計算、存儲、通訊能力,讓數(shù)據(jù)更快速轉(zhuǎn)化成知識,以實現(xiàn)降本增效的目的。
在MANA OASIS的加持下,毫末MANA五大模型——視覺自監(jiān)督大模型、3D重建大模型、多模態(tài)互監(jiān)督大模型、動態(tài)環(huán)境大模型、人駕自監(jiān)督認知大模型全新升級亮相。
這五大模型分別實現(xiàn)了什么功能呢?
接下來,我們將一一介紹。
視頻自監(jiān)督大模型
讓毫末在中國較早實現(xiàn)4D Clip的自動標注。
為了更低成本、更高效獲取更多高價值數(shù)據(jù),需要解決從離散幀自動化擴充到Clips形態(tài)的問題。毫末首先利用海量video clip,通過視頻自監(jiān)督方式,預訓練出一個大模型,用少量人工標注好的Clip數(shù)據(jù)進行fine tune(微調(diào)),訓練檢測跟蹤模型,使得模型具備自動標注的能力;然后,將已經(jīng)標注好的千萬級單幀數(shù)據(jù)所對應的原始視頻提取出來組織成Clip,其中10%是標注幀,90%是未標注幀,再將這些Clip輸入到模型,完成對90%未標注幀的自動標注,進而實現(xiàn)單幀標注向Clip標注的轉(zhuǎn)化,同時降低Clip標注成本。
3D重建大模型
助力毫末做數(shù)據(jù)生成,用更低成本解決數(shù)據(jù)分布問題。
面對“完全從真實數(shù)據(jù)中積累corner case困難且昂貴”的行業(yè)難題,毫末將三維重建NeRF技術應用在自動駕駛場景重建和數(shù)據(jù)生成中,它通過改變視角、光照、紋理材質(zhì)的方法,生成高真實感數(shù)據(jù),實現(xiàn)低成本獲取corner case的目標。
多模態(tài)互監(jiān)督大模型
可以完成通用障礙物的識別。
針對城市多種異形障礙物的穩(wěn)定檢測問題,毫末引入了多模態(tài)互監(jiān)督大模型,此模型直接使用視頻數(shù)據(jù)來推理場景的通用結(jié)構表達。通用結(jié)構的檢測,可以作為語義障礙物檢測的補充,提升自動駕駛系統(tǒng)在城市復雜工況下的通過率。
動態(tài)環(huán)境大模型
采用重感知技術路線,降低自動駕駛系統(tǒng)對高精地圖的依賴。
毫末在BEV(鳥瞰圖)的feature map(特征圖)基礎上,以標清地圖作為引導信息,使用自回歸編解碼網(wǎng)絡,將BEV特征解碼為結(jié)構化的拓撲點序列,實現(xiàn)車道拓撲預測。如此一來,毫末的感知系統(tǒng)能像人類一樣在標準地圖的導航提示下就可以實現(xiàn)對道路拓撲結(jié)構的實時推斷,對高精地圖的依賴度顯著降低。
人駕自監(jiān)督認知大模型
讓毫末的駕駛策略更加擬人化,安全及順暢。
在探索“使用大量人駕數(shù)據(jù),直接訓練模型做出擬人化決策”方面,毫末為了讓模型能夠?qū)W習到高水平司機的優(yōu)秀開車方法,引入了用戶真實的接管數(shù)據(jù),同時用RLHF(從人類反饋中強化學習)思路先訓練一個reward model(獎勵模型)來挑選出更好的駕駛決策。通過這種方式,毫末的自動駕駛系統(tǒng)在掉頭、環(huán)島等公認的困難場景中的通過率顯著提升。
顧維灝表示,“在五大模型助力下,MANA最新的車端感知架構,從過去分散的多個下游任務集成到了一起,形成一個更加端到端的架構,包括通用障礙物識別、局部路網(wǎng)、行為預測等任務,毫末車端感知架構實現(xiàn)了跨代升級?!?/p>