為什么自動(dòng)駕駛需要的算力越來(lái)越大呢?
僅僅還在幾年之前,ADAS智能駕駛輔助的芯片AI算力才幾個(gè)TOPS,但轉(zhuǎn)眼間100TOPS已經(jīng)成為中高端自動(dòng)駕駛車型的標(biāo)配了。
為何自動(dòng)駕駛需要的算力越來(lái)越大呢?
第一個(gè)原因是傳感器的增多。一輛自動(dòng)駕駛車輛裝載的傳感器,一般包括前視、后視、環(huán)視攝像頭,再加上激光雷達(dá)、毫米波雷達(dá),未來(lái)車上的傳感器數(shù)量越來(lái)越多。傳感器數(shù)量的增多帶來(lái)的是傳感器數(shù)據(jù)量呈現(xiàn)幾何數(shù)量的增加。如果不對(duì)相關(guān)數(shù)據(jù)進(jìn)行壓縮或結(jié)構(gòu)化處理,一天能收集到幾百TB的數(shù)據(jù)。這就帶來(lái)一個(gè)需求,需要對(duì)這些本地?cái)?shù)據(jù)進(jìn)行分析、整理、壓縮,再上傳到云端。這要求在車端擁有強(qiáng)大的數(shù)據(jù)分析能力和計(jì)算能力。
第二個(gè)原因是大算力模型的突破。ChatGPT讓業(yè)內(nèi)看到了高計(jì)算量和大參數(shù)量模型的結(jié)合,對(duì)于算力提出了越來(lái)越高的要求。
在自動(dòng)駕駛的早期1.0時(shí)代,整套系統(tǒng)從感知到地圖融合再到規(guī)劃控制都是基于規(guī)則構(gòu)建的。輔助駕駛功能更強(qiáng)調(diào)決策控制,如橫向控制和縱向控制。然而,基于規(guī)則的系統(tǒng)與深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)不同,無(wú)法進(jìn)行端到端訓(xùn)練,導(dǎo)致大量規(guī)則調(diào)試。規(guī)則系統(tǒng)面臨的挑戰(zhàn)包括難以預(yù)期的延遲和響應(yīng)。盡管1.0時(shí)代部分模塊采用數(shù)據(jù)驅(qū)動(dòng)方法,但整個(gè)系統(tǒng)仍以人制訂的規(guī)則為主導(dǎo)。
進(jìn)入了自動(dòng)駕駛的2.0時(shí)代,由人制訂的規(guī)則開(kāi)始讓位于數(shù)據(jù)驅(qū)動(dòng),利用神經(jīng)網(wǎng)絡(luò)為代表的智能計(jì)算來(lái)取代邏輯計(jì)算。ChatGPT就是一個(gè)典型的智能計(jì)算的代表。以上圖為例,藍(lán)色部分是智能計(jì)算,可以用數(shù)據(jù)驅(qū)動(dòng)方式軟件2.0的方式來(lái)實(shí)現(xiàn)。天藍(lán)色部分則是邏輯計(jì)算,通過(guò)程序表達(dá)規(guī)則跑在CPU上,這可以理解為是兩代的計(jì)算架構(gòu)。事實(shí)上,智能計(jì)算對(duì)算力需求在7年間提升6倍,如圖像識(shí)別和自然語(yǔ)言處理任務(wù)性能持續(xù)提升,但背后算力需求也在快速增長(zhǎng)。
簡(jiǎn)單來(lái)說(shuō),傳統(tǒng)的計(jì)算架構(gòu)是通過(guò)程序?qū)Ω鞣N規(guī)則進(jìn)行描述。在自動(dòng)駕駛領(lǐng)域,就是通過(guò)很多的ECU來(lái)分別實(shí)現(xiàn)設(shè)置好的程序。以座艙域?yàn)槔撚蛑械腍MI功能對(duì)用戶了解自動(dòng)駕駛系統(tǒng)的狀態(tài)、性能、特點(diǎn)和功能非常重要,有助于建立人機(jī)互信。特別是L2+、L2++和L3級(jí)別的自動(dòng)駕駛中,沒(méi)有良好的HMI,用戶會(huì)擔(dān)憂自動(dòng)駕駛的狀態(tài)。而HMI則主要用到智能計(jì)算。因此,從大趨勢(shì)來(lái)講,整個(gè)芯片占比越來(lái)越高的一定是智能計(jì)算,而通用邏輯及規(guī)則計(jì)算的占比也會(huì)緩慢增長(zhǎng),但是增長(zhǎng)速度遠(yuǎn)遠(yuǎn)比不上智能計(jì)算。智能計(jì)算的比例提升才是算力需求增長(zhǎng)的關(guān)鍵。
第三個(gè)變化是汽車電子電氣架構(gòu)的變化。未來(lái)汽車電子電氣架構(gòu)將變得更加集中與高效。隨著汽車電氣架構(gòu)從分散的ECU到集中的DCU域控制器,再走向中央計(jì)算,各個(gè)車控底盤(pán)控制呈現(xiàn)中央高度集中式的高效計(jì)算和靈活快速計(jì)算。智能計(jì)算逐步取代邏輯計(jì)算,成為核心。類似人體神經(jīng)系統(tǒng),中央計(jì)算相當(dāng)于大腦,控制域則類似脊柱和神經(jīng)末梢,需要快速響應(yīng)但算力要求相對(duì)較低。高成本、高功耗的計(jì)算無(wú)法部署在車輛各處,仿生角度看也是合理的。
中央計(jì)算使汽車硬件升級(jí)更容易,如同服務(wù)器可插拔。以前,更換車載硬件或域控較困難,因?yàn)閷iT(mén)設(shè)計(jì)的硬件盒子涉及供電、散熱等定制設(shè)計(jì)。未來(lái)電子電氣架構(gòu)將實(shí)現(xiàn)高效計(jì)算與快速響應(yīng),為汽車智能化發(fā)展奠定基礎(chǔ)。
第四個(gè)變化是芯片計(jì)算架構(gòu)的變化。PC時(shí)代以CPU為王,智能手機(jī)時(shí)代CPU和GPU的重要性逐漸平衡,多媒體與圖形渲染需求增加。到了智能汽車時(shí)代,AI計(jì)算的需求大增,如果仍然用GPU來(lái)做AI運(yùn)算,成本太高,這就需要重新設(shè)計(jì)專用計(jì)算架構(gòu)。于是各種NPU、XPU應(yīng)運(yùn)而生。
高算力必然帶來(lái)更好的體驗(yàn)嗎?
既然算力需求在自動(dòng)駕駛中越來(lái)越大,那么是否高算力就會(huì)帶來(lái)好的用戶體驗(yàn)?zāi)兀克懔κ欠袷呛饬孔詣?dòng)駕駛芯片的唯一標(biāo)準(zhǔn)?
當(dāng)然不是,實(shí)際上在自動(dòng)駕駛領(lǐng)域,不少高端車型在量產(chǎn)時(shí)搭配了高算力,但實(shí)際體驗(yàn)并不出眾,與低算力的車型體驗(yàn)并沒(méi)有實(shí)際差別。而由于芯片受摩爾定律影響,有可能一年后同等算力的平臺(tái)價(jià)格會(huì)大幅度降低。
以特斯拉為例,發(fā)布HW3.0時(shí)部署了兩顆72TOPS算力芯片,總算力為144TOPS。與基于英偉達(dá)平臺(tái)的HW2.5相比,峰值算力提升僅幾倍,但圖像處理幀率提升了21倍。因此,雖然峰值算力提升有限,實(shí)際處理性能卻大幅增長(zhǎng)。
另一方面,物理算力越大帶來(lái)的成本也會(huì)越高,但不一定會(huì)帶來(lái)真實(shí)算力的提升。什么是真實(shí)的算力?不是每秒鐘能進(jìn)行多少次的計(jì)算,而是每秒鐘能處理多少幀的圖像。很多廠商宣傳的算力是CPU、GPU的頻率,NPU的TOPS,但用戶能體驗(yàn)到的則是FPS。TOPS和FPS之間差異大,因?yàn)樗惴焖傺葸M(jìn),計(jì)算架構(gòu)、軟硬件設(shè)計(jì)優(yōu)秀程度差異很大。
摩爾定律指出算力每18個(gè)月翻倍,但近十幾年速度減緩,半導(dǎo)體芯片性能提升接近飽和。在后摩爾定律時(shí)代,芯片優(yōu)化需先進(jìn)工藝制程、封裝架構(gòu),以及軟硬件架構(gòu)支撐高速成長(zhǎng)。傳統(tǒng)芯片廠商關(guān)注的是每瓦或每美金的峰值算力,給出的則是每秒計(jì)算次數(shù)的提升。但對(duì)于自動(dòng)駕駛廠商來(lái)說(shuō),他們需要的是真實(shí)計(jì)算效能和每秒處理幀率的提升。實(shí)際上過(guò)去9年中,圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理任務(wù)所需計(jì)算次數(shù)每9-14個(gè)月降低一半,這得益于算法的迅速提升??梢哉f(shuō),算法的提升已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律的發(fā)展。
從最新的神經(jīng)網(wǎng)絡(luò)算法的演進(jìn)趨勢(shì)來(lái)看,貝葉斯架構(gòu)高效支持Transformer,如Swin Transformer,獲2021年計(jì)算機(jī)視覺(jué)領(lǐng)域最高獎(jiǎng)馬爾獎(jiǎng),是目前效果最好的解決圖像識(shí)別、檢測(cè)、分割問(wèn)題的基礎(chǔ)架構(gòu)。
2017年發(fā)布自研的FSD芯片時(shí),特斯拉創(chuàng)始人馬斯克便以此前應(yīng)用的英偉達(dá)Drive PX2作比,從算力來(lái)看FSD是Drive PX2的3倍,但在執(zhí)行自動(dòng)駕駛?cè)蝿?wù)時(shí),其FPS是后者的21倍。GPU的看家本領(lǐng)便是圖像識(shí)別。為何GPU發(fā)明者英偉達(dá)的Orin會(huì)在測(cè)試中表現(xiàn)不及算力只有一半的地平線征程5?部分核心原因在于安培(Ampere)架構(gòu)和貝葉斯(Bayes)架構(gòu)設(shè)計(jì)出發(fā)點(diǎn)的差異。
地平線的征程5芯片于2021年發(fā)布,擁有128TOPS超強(qiáng)算力,是國(guó)內(nèi)首款百T算力芯片。目前征程5已用于10個(gè)車型,去年出貨10萬(wàn)+。與主要競(jìng)品(GPU架構(gòu),峰值算力2倍以上)對(duì)比,征程5在處理速度方面更快。性能達(dá)到1500+FPS,端到端處理延遲最快60毫秒,功耗不超30瓦。之所以能做到這一點(diǎn),得益于地平線的BPU架構(gòu)。
BPU是地平線自主設(shè)計(jì)研發(fā)的創(chuàng)新性智能計(jì)算架構(gòu),具有高性能、低功耗、低成本等優(yōu)勢(shì),可將算法集成在智能計(jì)算平臺(tái)上,提供設(shè)備端上軟硬結(jié)合的智能計(jì)算解決方案。貝葉斯是地平線推出的第三代智能計(jì)算架構(gòu),專為高等級(jí)智能駕駛應(yīng)用打造,具備高性能、低能耗、低延遲的特點(diǎn),凝聚了對(duì)深度學(xué)習(xí)和智能駕駛場(chǎng)景的深度洞察。此外,地平線智能計(jì)算開(kāi)發(fā)平臺(tái)基于征程5打造,包含芯片開(kāi)發(fā)套件、量產(chǎn)級(jí)硬件參考設(shè)計(jì)、軟件開(kāi)發(fā)平臺(tái)和參考算法等,生態(tài)伙伴能夠在地平線的芯片上快速部署智能駕駛算法應(yīng)用,開(kāi)發(fā)差異化產(chǎn)品方案,搶占市場(chǎng)先機(jī)。
地平線正在研發(fā)名為納什的下一代BPU架構(gòu),相對(duì)于征程5芯片的BPU有顯著改善。納什采用了更深層次的存儲(chǔ)架構(gòu)體系,同時(shí)提升了計(jì)算陣列規(guī)模,從而進(jìn)一步提升了峰值算力。此外,納什還增強(qiáng)了數(shù)據(jù)排布的轉(zhuǎn)換引擎和加入了高性能的浮點(diǎn)加速單元,從而使得算法的精度和可驗(yàn)證性都得到了很好的提升。另外,地平線科技的引擎兼數(shù)據(jù)流動(dòng)也考慮了能效和靈活性。數(shù)據(jù)排布的轉(zhuǎn)換引擎大幅增強(qiáng),能更好地應(yīng)對(duì)新形態(tài)算法,如以Transformer為代表的算法對(duì)于數(shù)據(jù)的data layout進(jìn)行更靈活、高效的轉(zhuǎn)換需求。這是非常重要的,因?yàn)樵谡麄€(gè)Transformer算法中有大量的數(shù)據(jù)操作,這可能會(huì)形成計(jì)算架構(gòu)的瓶頸。同時(shí),地平線還首次加入了一個(gè)高性能的浮點(diǎn)加速單元,使得算法的精度和可驗(yàn)證性都得到很好的提升。
點(diǎn)評(píng):不服跑個(gè)分,在自動(dòng)駕駛芯片領(lǐng)域行得通嗎?
最后,如何評(píng)價(jià)一款好的自動(dòng)駕駛芯片?對(duì)于剛剛接觸自動(dòng)駕駛汽車的消費(fèi)者來(lái)說(shuō),要快速的對(duì)不同廠商、不同品牌型號(hào)建立一個(gè)初步印象,參數(shù)對(duì)比是一個(gè)比較直接的方法。
自動(dòng)駕駛芯片主要競(jìng)爭(zhēng)者與產(chǎn)品對(duì)比,來(lái)源:光大證券研究所
在2022年之前,自動(dòng)駕駛芯片的市場(chǎng)宣傳主要還是按照AI算力、功耗、算力/功耗、制程等參數(shù)進(jìn)行對(duì)比,這種宣傳方式不能說(shuō)是錯(cuò)的。不過(guò)這種參數(shù)確實(shí)無(wú)法直接反應(yīng)用戶的真實(shí)體驗(yàn)。地平線聯(lián)合創(chuàng)始人兼CTO黃暢博士認(rèn)為,一款好的自動(dòng)駕駛芯片應(yīng)該是六邊形戰(zhàn)士,同時(shí)具備高能效比、算力、靈活性、適配性、安全認(rèn)證和開(kāi)發(fā)便捷性。也就是說(shuō),符合木桶原理,自動(dòng)駕駛芯片的最終用戶體驗(yàn)取決于最短的那一塊板。
不過(guò)到了2022年,似乎游戲規(guī)則發(fā)生了變化。英偉達(dá)(NVIDIA)推出的Thor芯片系統(tǒng)在自動(dòng)駕駛和智能座艙領(lǐng)域引發(fā)了巨大震動(dòng),直接將算力干到了2000TOPS。這就讓自動(dòng)駕駛領(lǐng)域的算法公司和準(zhǔn)備自研芯片的車企面臨壓力。過(guò)去受限于算力限制,迫使芯片和算法公司不斷研究新的算法和更高效的專用芯片,尋求在有限的算力下實(shí)現(xiàn)更高效、輕量化的解決方案。然而,英偉達(dá)推出Thor芯片,承諾兩年內(nèi)提供八倍算力,使得4000TOPS成為可能,這似乎使得算法優(yōu)化變得不再那么重要。
這讓人想起比爾蓋茨與喬布斯的邏輯:?jiǎn)滩妓棺非髮S谐绦?、專有硬件,精打?xì)算;而比爾蓋茨則依賴硬件廠商解決問(wèn)題。如今,英偉達(dá)正是采用這種方法,用算力暴力的解決算法精度問(wèn)題。如果這條路真的行得通,就算某些廠商的算法不夠好,但仍然可以通過(guò)超強(qiáng)的算力來(lái)彌補(bǔ)算法的不足。
所以分析了半天,最后似乎又回到了起點(diǎn):自動(dòng)駕駛芯片仍然是算力為王?
筆者認(rèn)為應(yīng)該分階段來(lái)看待這個(gè)事情?,F(xiàn)階段高算力必然帶來(lái)高成本,不是所有的車廠和消費(fèi)者會(huì)為高算力買單,這取決于他們自身的定位。未來(lái)自動(dòng)駕駛市場(chǎng)將在十年內(nèi)轉(zhuǎn)向低算力、中算力和高算力的全場(chǎng)景市場(chǎng)。硬件將隨著普及成本進(jìn)一步降低。到時(shí)候可能市場(chǎng)會(huì)自發(fā)的形成高中低三個(gè)不同的市場(chǎng),分別對(duì)應(yīng)高中低三種不同的算力。而這三種市場(chǎng)將隨著硬件成本的降低不斷轉(zhuǎn)移。比如目前50-100tops的算力范圍屬于中高端市場(chǎng),但未來(lái)有可能平民化,而2000tops的產(chǎn)品則將在一段時(shí)間成為高端旗艦車型標(biāo)配。
最終有一天,市場(chǎng)和消費(fèi)者都會(huì)對(duì)自動(dòng)駕駛芯片的算力回歸理性,選擇最適合自己的功能和需求。事實(shí)上,這種現(xiàn)象在手機(jī)市場(chǎng)已經(jīng)發(fā)生過(guò)一次了。曾幾何時(shí)新手機(jī)發(fā)布,廠商動(dòng)不動(dòng)“不服跑個(gè)分”,但到了今天消費(fèi)者顯然已經(jīng)不再把手機(jī)芯片跑分當(dāng)成唯一指標(biāo)。大家都意識(shí)到,合適的硬件算力和算法匹配才能發(fā)揮最佳智能化效果,綜合實(shí)力才是衡量智能芯片的最重要因素。
最后,筆者認(rèn)為,隨著算力提升的速度加快,以及硬件成本的下降,未來(lái)智能汽車領(lǐng)域?qū)⒊霈F(xiàn)一個(gè)新的硬件升級(jí)市場(chǎng):通過(guò)更換運(yùn)算模塊來(lái)進(jìn)行算力提升。這種現(xiàn)象在PC市場(chǎng)也已經(jīng)發(fā)話誰(shuí)能過(guò)一次了。