上周五我們在特斯拉的AI Day上看到的可能是人類至今為止最嘆為觀止的AI和工程上的能力,還有努力(試著以平淡的口吻說,但內(nèi)心深深被折服)。當(dāng)然不是因為Tesla Bot,是因為自動駕駛和一般現(xiàn)實世界的機器人感知或規(guī)劃任務(wù),比人們普遍認為的要難得多。而且解決這些問題所需的算法、數(shù)據(jù)標注、仿真、推理計算和訓(xùn)練計算等方面的投入程度是短期內(nèi)沒人能做到的。但特斯拉讓人們看到可能是有機會解決這個問題的。
包括神經(jīng)網(wǎng)絡(luò)架構(gòu)和pipeline、自動駕駛計算硬件、用于訓(xùn)練的Dojo計算硬件、數(shù)據(jù)和數(shù)據(jù)標注、罕見邊緣場景的仿真,上述所有內(nèi)容的普遍應(yīng)用超出了車輛自動駕駛的范圍,達到了類人的形式。
如果不是AI領(lǐng)域從業(yè)者,AI Day大部分內(nèi)容理解起來難度極大。讀了很多科技媒體文章,還是一知半解。其中Lex Fridman的解讀稍有些幫助。Lex Fridman是油管知名博主,也是AI領(lǐng)域的專家。也曾多次專訪過Elon Musk和特斯拉團隊的人,對特斯拉正在做的事有著深入的理解。以下是Lex Fridman對AI Day的一些亮點的總結(jié)。
神經(jīng)網(wǎng)絡(luò)
首先是神經(jīng)網(wǎng)絡(luò),每一個環(huán)節(jié)都是非常困難的。但特斯拉出色的設(shè)計理念是機器學(xué)習(xí)技術(shù)領(lǐng)域的一次飛躍。
首先是在矢量空間預(yù)測,而不是圖像空間。僅這一點就比計算機視覺的常規(guī)做法有很大的飛躍。計算機視覺通常在二維圖像的圖像空間中操作,但現(xiàn)實是三維的,在二維圖像的投影上進行所有的機器學(xué)習(xí)是沒有意義的。這似乎是理所當(dāng)然的想法,但實現(xiàn)起來卻極其困難。
其次是攝像頭數(shù)據(jù)在探測前的融合,探測由多任務(wù)神經(jīng)網(wǎng)絡(luò)的不同頭執(zhí)行。目前來說,融合是在多尺度特征層面上進行的。同樣,回過頭來看,在所有的傳感器上進行探測和機器學(xué)習(xí)是一個明顯但非常困難的工程步驟,而不是單獨進行并只結(jié)合決策。
第三是使用視頻數(shù)據(jù)對矢量空間且對時間進行建模。在每一幀連接位置編碼、多攝像頭特征和自我運動學(xué),使用一個特別酷的空間RNN(recurrent nueral network)架構(gòu),在車輛周圍形成一個二維網(wǎng)格,其中網(wǎng)格的每個單元作為一個RNN。
另一個很酷的地方是,你可以在RNN特征空間里建圖,也許還可以這個空間里做規(guī)劃,這是一個迷人的概念。Andrej Karpathy好像也提到了一些未來的改進計劃,在神經(jīng)網(wǎng)絡(luò)的早期進行融合。目前空間和時間的融合是在神經(jīng)網(wǎng)絡(luò)的后期,將融合提前可以進一步走向完整的端到端多模態(tài)駕駛,無縫融合整合多種來源的感知數(shù)據(jù)。
最后,根據(jù)AI Day的內(nèi)容,目前神經(jīng)網(wǎng)絡(luò)用的最少的地方可能是規(guī)劃。執(zhí)行空間的最優(yōu)規(guī)劃是很難實現(xiàn)的,所以你必須想出一堆啟發(fā)式的方法。你可以手動做,或者可以通過學(xué)習(xí)來做。因此,特斯拉提出的想法是使用神經(jīng)網(wǎng)絡(luò)作為啟發(fā)式方法。以類似于在MonteCarlo樹形搜索中使用神經(jīng)網(wǎng)絡(luò)作為啟發(fā)式方法,讓μ0和σ0玩不同的游戲,下圍棋、下象棋。這可以讓你在行動空間中大幅修剪搜索,獲得一個不會卡在局部最優(yōu)的計劃,相當(dāng)接近全局最優(yōu)。
也許在所有的技術(shù)細節(jié)中,我們很容易意識不到這里有多少創(chuàng)新。在矢量空間中進行預(yù)測是非常創(chuàng)新的,當(dāng)然你只有在擁有數(shù)據(jù)和標注的情況下才能做到這一點。但僅僅是邁出這一步,就已經(jīng)跳出了目前計算機視覺的常規(guī)框架。然后是許多攝像頭之間進行無縫融合,以一種與這些空間RNN可微的方式將時間整合到整個系統(tǒng)中。然后當(dāng)然是使用這些漂亮的混亂特征,無論是在單個圖像方面,還是在RNN方面,以神經(jīng)網(wǎng)絡(luò)架構(gòu)作為啟發(fā)式的規(guī)劃…… 所有這些都是不得了的。
數(shù)據(jù)&數(shù)據(jù)標注另一個關(guān)鍵部分是數(shù)據(jù)和數(shù)據(jù)標注。
首先是人工標注。為了使在矢量空間預(yù)測的神經(jīng)網(wǎng)絡(luò)發(fā)揮作用,你必須在矢量空間進行標注。因此,你必須創(chuàng)建內(nèi)部工具,特斯拉也確實采用了內(nèi)部標注團隊來使用這些工具,然后進行矢量空間的標注,然后將其投射到圖像空間。首先,這節(jié)省了大量的工作。其次,這意味著你直接在進行預(yù)測的空間里進行標注。
顯然,類似于自監(jiān)督學(xué)習(xí)(self-supervised learning)的情況,自動標注是關(guān)鍵。特斯拉提出的一點很有意思,就是使用包括視頻、IMU、GPU、odometry等在內(nèi)的數(shù)據(jù)片段,在同一地點和時間為多個車輛生成靜態(tài)世界和移動物體及其運動學(xué)的標簽。
這真的特別酷。這些小片段,就是這些來自不同車輛的數(shù)據(jù),而且它們某種程度下還互相標注。你把它們注冊在一起,然后結(jié)合一個對特定時間特定路段的固定標注。這很了不起,因為車隊越壯大,這種自動標注就越強大,你能通過這種方式捕捉更多的邊緣案例。
仿真
說到邊緣案例,這也是特斯拉使用仿真的原因,就是模擬罕見的邊緣案例。這些邊緣案例不會經(jīng)常出現(xiàn)在數(shù)據(jù)中,即使該數(shù)據(jù)集增長的速度和規(guī)模已經(jīng)很大。
此外,他們還用它來標注超復(fù)雜的場景。在這種情況下,對現(xiàn)實世界的數(shù)據(jù)進行精確的標注基本上是不可能的,比如一個有一百多個行人的場景。因此,神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)標注的創(chuàng)新真的是一個很大的飛躍。
Autopilot
然后是Autopilot計算方面的持續(xù)創(chuàng)新。
優(yōu)化延遲問題的神經(jīng)網(wǎng)絡(luò)編譯器,等等。
特斯拉展示了非常好的測試和調(diào)試工具,可以用于未來要部署的不同的候選神經(jīng)網(wǎng)絡(luò),你可以把不同的神經(jīng)網(wǎng)絡(luò)放在一起進行比較。這就像是開發(fā)者用來部署神經(jīng)網(wǎng)絡(luò)的工具。
據(jù)說,目前有近一萬個GPU用于不斷地對神經(jīng)網(wǎng)絡(luò)進行再訓(xùn)練。忘了具體數(shù)字是多少,大概每一周或每兩周,網(wǎng)絡(luò)端到端會進行一次全面的再訓(xùn)練。
Dojo
另一個真正大的創(chuàng)新就是用于訓(xùn)練的Dojo計算機,當(dāng)然它仍在開發(fā)階段,會在未來部署。
Autopilot計算機是在車輛上進行推理,而Dojo是在數(shù)據(jù)中心來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的。
有一個他們稱之為Training Tile的東西,算力為9PFLOPS。它是由特斯拉自研的D1芯片組成的。每個芯片都有超快的IO,每個Tile也都有超快的IO。所以無論是D1芯片還是Tile,基本上可以任意數(shù)量地連在一起,每個都有電源和冷卻裝置。
然后他們連接了上百萬個節(jié)點來建立一個計算中心,總算力為1.1 EFLOPS。
這是可以任意擴展的,好像是在爭當(dāng)全球最強大的神經(jīng)網(wǎng)絡(luò)訓(xùn)練計算機。
AI Day上展示的整個畫面都是驚人的。因為,不管你怎么稱呼它,特斯拉的AI機器可以任意改進,通過迭代的數(shù)據(jù)引擎過程,自動標注加手動標注的邊緣案例,加上數(shù)據(jù)收集、再訓(xùn)練、部署。然后你再回到數(shù)據(jù)收集、標注、再訓(xùn)練和部署。只要你想,可以通過這個循環(huán)任意地提高網(wǎng)絡(luò)的性能。大部分人都不太清楚自動駕駛問題有多難,這個循環(huán)可能也沒有上限,但這整個循環(huán)太不可思議了。
整個努力令人驚訝的第二個原因是,Dojo本質(zhì)上可以成為一種AI訓(xùn)練服務(wù)。因此,沒有理由要把它專門用于自動駕駛計算機。他們描述了PyTorch在這些節(jié)點上部署方式的簡單性,基本上可以把它用于任何類型的機器學(xué)習(xí)問題,特別是需要規(guī)模的問題。
Tesla Bot
最后,這一切令人驚訝的另一個原因是,神經(jīng)網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)引擎pipeline不僅適用于道路和駕駛。它還可以在家里、工廠里使用,基本上可用于任何形式的機器人,只要有攝像頭和驅(qū)動器,包括人形機器人。所以,Bingo,Tesla Bot。
這部分就不多說了,Elon實際介紹的內(nèi)容也很少,在這個層面上除了技術(shù)問題可能涉及到的領(lǐng)域非常復(fù)雜,而且可能是比較未來的事,更多是象征性的意義。
AI Day基本上是AI最前沿技術(shù)的一次洗禮,本人大受震驚,智力上也大受挑戰(zhàn)。愿這種技術(shù)和工程能力可以真正造福人類,而我們想不到的意外可能還在未來某個未知的地方,需要很多的努力。