賈浩楠 發(fā)自 副駕寺
智能車參考 | 公眾號 AI4Auto
智能汽車領域,一個AI行業(yè)的big name殺進場。交出了這樣的智能駕駛量產(chǎn)方案:
視覺為主,全棧算法自研,成本千元級別。
最驚奇的是,僅僅用現(xiàn)在主流方案1/6-1/5的算力,跑通BEV+Transformer的大規(guī)模感知模型。而這,正是目前競爭最激烈的城市、高速NOA功能實現(xiàn)的基礎。
而且已經(jīng)進入車企定點名單,明年上半年就能量產(chǎn)上車。
該團隊透露,智能車項目自啟動,不過做了2年多時間,卻追趕了行業(yè)平均5-6年的進度。
智能車賽道這位“亮相即交卷”的闖入者,是AI明星公司、全球計算機視覺最強玩家之一的——曠視科技。
成立十二年,計算機視覺算法能力已臻化境,并開拓了城市、消費、供應鏈等業(yè)務場景,還早已實現(xiàn)規(guī)模化營收。
但智能車業(yè)務,之前曠視低調十足,不為外人道。
為什么現(xiàn)在亮相?怎么做智能汽車?有什么獨特優(yōu)勢?最重要的,車企買帳嗎?
現(xiàn)在,一系列疑問都可以直接找曠視專門負責自動駕駛的業(yè)務高管談。
曠視拿出了什么樣的智能車方案
曠視拿出的方案不是技術演示,也不是“高舉高打”的高階自動駕駛降維技術體系,而是極其務實、強調量產(chǎn)和規(guī)?;妮o助駕駛方案。
根據(jù)傳感器配置、算力大小分為三個。
標準版方案,滿足基礎、高頻使用智能駕駛場景,功能包括L2全家桶。亮點之處在于它的上限:標配自主泊車、記憶泊車,以及高速高架NOP功能。
所謂NOP,就是行業(yè)內常說的領航輔助駕駛,通常叫法是NOA。NOA開啟時,用戶僅需作為安全員,車輛全部駕駛任務由系統(tǒng)完成,并且能根據(jù)地圖導航信息自行選擇路線、車道和行進策略。
標準版方案面向10-15萬元車型,這也是曠視智駕方案的第一個特征,就是將“入門版智駕”門檻拉的極高,15萬左右的經(jīng)濟性家用車,高速NOP起步,以及增添了記憶泊車功能。
專業(yè)版方案,在標準版上,增加城市NOP功能,以及跨車道安全停車。面向15-30萬車型。
最后還有一款面向30萬以上車型的旗艦版方案,官方描述為“更多的冗余”,實現(xiàn)“增強城市NOP”功能。
不出意外的話,更多冗余代表著更大的算力,比如英偉達Orin,以及激光雷達。
曠視高級副總裁,自動駕駛業(yè)務負責人劉偉透露,標準版和專業(yè)版是目前商業(yè)上主推的兩個方案,幾乎覆蓋乘用車銷售的絕大部分車型。
曠視的方案可以算是行業(yè)內首個實現(xiàn)“低算力、高功能”的。并且還有一個“行業(yè)首次”:入門即標配高速NOP。
按照以往的固有思路,要實現(xiàn)某一程度的智能駕駛功能,就必須有足夠多的傳感器冗余,以及足夠大的算力支撐。
比如L2+階段,至少需要數(shù)百TOPS算力,以及激光雷達+毫米波雷達+攝像頭的傳感器方案,L4則至少需要1000TOPS。
但也有一個現(xiàn)象是,堆到1000TOPS算力的量產(chǎn)車,其功能體驗也沒有超出L2范圍。
這是不是意味著,智能駕駛類似ChatGPT這樣“大力出奇跡”的轉折點仍未到來,現(xiàn)階段要實現(xiàn)智能駕駛的規(guī)?;占昂徒当荆八惴ㄉ暇氉?盡量榨干硬件潛力”才是更符合技術發(fā)展規(guī)律和商業(yè)邏輯的道路?
所以曠視智能駕駛方案走了一條極致性價比的道路,在智能駕駛套件中,把相同技術指標要求的硬件成本,降到前所未有的低。
橫向比較來看,曠視標準版方案,據(jù)官方介紹僅需主流英偉達Orin 1/5,甚至1/6的算力(大約40-50TOPS),就能實現(xiàn)高速NOP功能。
而目前大部分量產(chǎn)智駕方案,至少需要一整塊Orin(254TOPS)作為主系統(tǒng)和冗余的算力支持。
這樣一來,曠視在面向售價為10-15萬元的車型上,就能靈活搭配成本低得多的英偉達Orin N、地平線J5、黑芝麻A1000等等產(chǎn)品,車企完全能接受。
這屬于在底層計算平臺上降本。
還有一個特點就是“視覺為主,無激光雷達”。屬于在上層傳感器層面降低成本,而且降本的主力。
曠視科技的智駕方案在行業(yè)中至少降本20%。
如何實現(xiàn)低算力高功能
技術上來看,曠視實現(xiàn)“極致性價比”的核心原因在于算法、算力,以及工具鏈的積累。
原創(chuàng)算法,這是曠視的技術底座。以視覺為主,采取“BEV+前融合”的方案,砍掉激光雷達,減少對毫米波雷達的使用。但以視覺為主的技術路線,對感知識別算法要求極高。
曠視對BEV有兩個實現(xiàn)的算法模型,一個是BEVDepth系列,一個是PETR系列,都是曠視研究院提出的視覺3D感知模型。
PETR框架能同時進行3D目標檢測、BEV(Bird’s Eye View,鳥瞰圖)分割和3D車道線檢測等多項感知任務,引入3D position embeding(3維位置映射),實現(xiàn)不依賴于BEV特征的時序對齊并支持BEV分割,避免了BEV可能的信息損失。
BEVDepth是一種帶有顯式深度監(jiān)督的多視圖 3D 目標檢測新網(wǎng)絡,利用編碼的內在和外在參數(shù)獲得明確的深度監(jiān)督,并進一步引入了深度校正子網(wǎng)絡來抵消由投影引起的干擾。
如果有些芯片對于Transformer的算子支持不太好可以采用BEVDepth;如果對于Transformer的算子支持非常好,那采用PETR。
BEV+Transformer架構最早由特斯拉在2020年引入。不過不同于特斯拉占用網(wǎng)絡采用的稠密算法,曠視的PETR系列在輸出對周圍環(huán)境的各種感知表征時,采用的是稀疏算法。
用稀疏的方式來做Transformer,同樣能非常好地檢測到長尾場景中的障礙物,同時還對算力要求更低,低算力高功能的核心就是這項技術。
除了這兩個核心算法,曠視還有基于物體點解決漏標和多標等問題的半監(jiān)督檢測算法 PointDETR、一個錨點檢測多個物體,性能全面超越主流DETR目標檢測器AnchorDETR等等。
算力基礎設施,曠視到目前為止,已經(jīng)構建了一萬多張卡的計算集群,快速迭代能力同樣是大模型實力的基礎。
另一方面,為了降本,曠視還對“統(tǒng)一算法框架”做了大量工作。
一般而言,從旗艦車型到入門級車型,一家主機廠每種車型采用的配置方案都各不相同,供應商方案相當復雜,這導致車輛在推出量產(chǎn)時,無論是把握節(jié)奏、質量、成本,還是管理和維護不同供應商,都很難控制。
曠視在做的,把適配各種定位車型的智能駕駛系統(tǒng),都采用統(tǒng)一的BEV算法框架,做到算法平臺化、硬件平臺化。比如在適配高中低不同算力的芯片時,曠視采用Pin-to-Pin的系列芯片,即同一套域控可以直接適配不同芯片硬件,如果域控需要適配高算力芯片,就換高算力芯片,如果要適配低算力芯片,就換一個低算力的芯片。
做到這一點后,主機廠各個車型的量產(chǎn)速度將大大加快,質量更好的同時,成本也將大幅降低。
在硬件配置方面,曠視則堅持走以視覺為主的感知路徑,支持采用實時建圖的感知方式,只用導航地圖,不用高精地圖。
除此之外,曠視還能做到直接去掉RTK(實時差分定位,高精度測量方法)。去掉這兩項,每套套件又能節(jié)省數(shù)百元的費用。
總計一下,曠視智駕方案的技術特征或比較優(yōu)勢,有以下這些:
業(yè)內首個實現(xiàn)長達300米距離視覺感知。
業(yè)內首個將 [BEV+Transformer] 感知算法模型,運行在低算力芯片平臺。
業(yè)內首創(chuàng)魚眼BEV模型,感知范圍擴大三倍。基于BEV+Transformer] ,在泊車場景下車位的感知距離可達30米(傳統(tǒng)方案支持約8米左右),3D感知定位能力接近激光雷達。
支持3D地圖構建,不依賴于高精地圖便可實現(xiàn)高速和城區(qū)NOP去RTK定位算法,定位能力達到RTK方案水平。
端到端Transformer大模型進展迅速,已經(jīng)在Orin平臺實現(xiàn)感知、建圖、跟蹤、預測4合一模型。
除了智能駕駛,曠視在智能座艙領域也開始了布局。相關的技術,依托12年技術研發(fā),早已有積累。
目前的狀態(tài)是和主機廠協(xié)商,瞄準下一代智能座艙產(chǎn)品進行預研。
比如,曠視認為智能座艙會成為大模型落地的重要場景。這首先會帶來感知能力的進一步提升。但落到產(chǎn)品體驗層面,更重要的還是決策。
比如智能汽車的底盤、空氣懸掛、剎車系統(tǒng)、車窗、燈光氛圍,幾乎所有東西能被控制。但是,這么多東西都用觸摸屏、語音的方式進行交互嗎?顯然不可能。
曠視基于AI生產(chǎn)力平臺Brain++的能力,未來會聚焦于智能座艙的決策引擎。同時,結合在芯片、軟件算法方面的能力,形成覆蓋感-知-決的智能座艙產(chǎn)品體系。
而在基礎的在“感”和“知”上面,曠視目前已經(jīng)擁有相對成熟的產(chǎn)品積累。例如IMS雙光融合傳感器,以及在“知”上面的DMS/OMS SDK等。
曠視做智能汽車的邏輯
智能汽車賽道之所以火熱,是因為智能汽車本身就是AI能力的綜合載體,又是一個融合了汽車工業(yè)和科技產(chǎn)業(yè),“含金量”無法估量的大賽道。
這是不能錯過的商業(yè)前景。有實力的AI玩家,幾乎都時不我待的投身其中。
另一方面,無論智能駕駛和智能座艙,計算機視覺技術都是重要基座。
2006年Hinton提出深度學習。包括曠視在內的第一批AI創(chuàng)業(yè)公司,都敏銳地抓住了深度學習和計算機視覺技術結合帶來的機會,并為它們找到了合適的落地場景。
比如曠視的三大業(yè)務場景:消費、城市、供應鏈。這些業(yè)務成了曠視成為平臺型AI“巨頭”的支柱,計算機視覺技術也成為了曠視自身優(yōu)勢的來源。
所以,于時勢、于商業(yè)、于技術,曠視入局智能車,只是個早晚問題。
一直在等待的,是合適的時機和人選。
從早期的輔助駕駛技術開始,主流的技術路線一直是“雷達+視覺”。
而且因為早期深度學習算法還不成熟,彼時視覺數(shù)據(jù)只是作為輔助,智能駕駛絕大部分功能,依賴毫米波雷達。
但毫米波雷達本身存在局限:精度有限、缺失物體高度信息,以及最致命的,是對靜止物體感知不佳。
所以曠視認為,基于RV(雷達+視覺)的傳統(tǒng)算法,是不可能解決高階智能駕駛問題的,而自己的優(yōu)勢又集中在計算機視覺算法,因此一直選擇觀望,等待一個技術層面的突破。
直到2020年,特斯拉首次提出BEV算法,并且成功用8個攝像頭的數(shù)據(jù)實現(xiàn)了NOA功能的演示,純視覺路線的一扇窗突然被打開。
BEV+Transformer的技術路線,跟曠視長處完美結合,于是開始迅速跟進。并且明確以商業(yè)化落地為目標確定研發(fā)方向:
目前的智能汽車L2以下基本上是標配?,F(xiàn)在的重點,是在L2到L3之間。曠視判斷接下來兩三年的時間,高速NOP肯定會快速普及。
阻礙高階智駕方案落地的,首先是性能,第二是成本。曠視所有的技術研發(fā)都是基于這兩個方向展開的。而體驗好、成本低的高階智能駕駛產(chǎn)品,必須要有非常強的AI能力支撐。
同時為了支持智能車業(yè)務,曠視組建了一支數(shù)百人的團隊,其中超過2/3是研發(fā)人員。
帶領這支隊伍的關鍵人物劉偉,曾擔任SAP全球副總裁,微軟渠道事業(yè)部總經(jīng)理。有消費電子、車載AI方案、智能傳感器、計算芯片等領域豐富的落地經(jīng)驗。
這也符合曠視一直以來具體業(yè)務落地的風格——尋找一個有行業(yè)背景或商業(yè)化knowhow的高管。
所以曠視進軍智能車業(yè)務的邏輯,可以簡單總結為這樣的一句話:
這件事有前景,自身技術實力又有積累,現(xiàn)在產(chǎn)業(yè)鏈條件剛好又足以支撐“極致性價比”的產(chǎn)品策略。
智能車業(yè)務亮相,重估曠視
曠視智能車業(yè)務亮相,對于這個行業(yè)來說是一個明顯的轉折點。
從透露的智駕方案配置來說,曠視首次把高階智駕功能,標配給10-15萬入門車型。
這是全球智能汽車產(chǎn)業(yè)L2+功能普及的開端,也是汽車工業(yè)智能化革命更加深化的標志。
另外,曠視將高階智駕門檻降得前所未有的低,性價比做的前所未有的高,以及把這條賽道的技術天花板,拉的史無前例的高。
這意味著,一輪更加劇烈的行業(yè)內卷已經(jīng)開始。
有利于技術迭代推陳出新,有利于用戶消費體驗。
而對于曠視自身的發(fā)展來說,進軍智能車,也釋放了新的信號。
曠視在過去,一直聚焦在AIoT領域。在消費物聯(lián)網(wǎng)、城市物聯(lián)網(wǎng)和供應鏈物聯(lián)網(wǎng)三大場景展開落地。
這些業(yè)務場景,都以計算機視覺技術作為依托,這也是曠視創(chuàng)業(yè)的根基。
而在12年之間,曠視除了在算法層面深耕,更重要的的是積累了AI生產(chǎn)工具和“方法論”,實現(xiàn)快速生產(chǎn)、敏捷開發(fā)。
這是一種更廣義的AI技術“泛化”能力,即把相同的算法軟件框架,快速應用到不同的場景、行業(yè)和產(chǎn)品形態(tài)上。
不一定是簡單的核心算法通用,更重要的是算法生產(chǎn)工具,平臺工具鏈發(fā)揮作用。
所以理解曠視入局智能車,不能簡單的把它作為一個智能駕駛技術供應商,而應該縱向連接起它的歷史——
曠視一直是一個以算法為基礎,軟硬一體為核心的智能機器人公司。
智能汽車,是一個控制維度最少(橫縱兩向),目前產(chǎn)業(yè)化最成熟的“機器人”罷了。
事實上,曠視、大疆、商湯這類“平臺型”AI公司,業(yè)務順理成章延伸到智能汽車,也是某種意義上AGI的萌芽和開端。
曠視科技,毫無疑問是中國乃至全球最具價值的AI視覺公司之一。
而現(xiàn)在,加上自動駕駛場景,智能車業(yè)務……曠視,到了該被重估的時候。