上世紀(jì)70年代,日本早稻田大學(xué)研發(fā)全球首個(gè)全尺寸人形“智能”機(jī)器人—— WABOT-1。此后全球陸續(xù)推出不同品類、應(yīng)用在不同場景的人形機(jī)器人,除特斯拉外,波士頓動(dòng)力、豐田、本田、小米、優(yōu)必選等均有相關(guān)產(chǎn)品推出。但人形機(jī)器人產(chǎn)業(yè)化難度大,主要原因在于關(guān)鍵技術(shù)掣肘、成本仍高昂、應(yīng)用場景有限等,本田、軟銀等公司已宣布停產(chǎn)有關(guān)人形機(jī)器人產(chǎn)品。
2021年AI Day上,馬斯克發(fā)布了特斯拉的人形機(jī)器人計(jì)劃,當(dāng)時(shí)的Tesla Bot僅是概念。歷時(shí)1年,在2022年9月的AI Day上,人形機(jī)器人Optimus正式亮相。隨后2023年5月的股東大會(huì),Optimus已能夠?qū)崿F(xiàn)物品分類等更復(fù)雜的任務(wù)。2023年12月,Optimus Gen-2視頻發(fā)布,Gen-2實(shí)現(xiàn)了更為靈活的行走,能輕松拿捏雞蛋并實(shí)現(xiàn)左右手的轉(zhuǎn)移等更為精細(xì)化的動(dòng)作。在不到三年時(shí)間內(nèi)Optimus實(shí)現(xiàn)快速迭代發(fā)展,人形機(jī)器人產(chǎn)業(yè)化或?qū)⒊尸F(xiàn)由點(diǎn)到面、在某一階段快速滲透的趨勢。
表|特斯拉Optimus近2年迭代升級(jí)情況
來源:特斯拉發(fā)布會(huì)、與非網(wǎng)整理
接下來,筆者將帶領(lǐng)大家一起回顧和總結(jié)學(xué)習(xí)3年來,特斯拉人形機(jī)器人的發(fā)展歷程、主要成果及技術(shù)進(jìn)步等做以梳理和拆解。以便大家了解特斯拉人形機(jī)器人快速迭代升級(jí)的原因,未來如果售價(jià)不超過2萬美元,產(chǎn)業(yè)化核心痛點(diǎn)擊破后是否能將帶動(dòng)行業(yè)快速發(fā)展。
一、概念提出
1.1、Tesla Bot誕生
2021年8月20日的AI Day,特斯拉公布了純視覺方案FSD的進(jìn)展、神經(jīng)網(wǎng)絡(luò)自動(dòng)駕駛訓(xùn)練、D1芯片、Dojo超級(jí)計(jì)算機(jī)等重磅信息。最后,特斯拉首次展示了其人形機(jī)器人的概念, 名叫Tesla Bot。筆者以為,F(xiàn)SD、神經(jīng)網(wǎng)絡(luò)訓(xùn)練、超級(jí)計(jì)算機(jī)等看似為汽車行業(yè)做配套,實(shí)則是為人形機(jī)器人的采集訓(xùn)練所需要的各種模型參數(shù)和提供強(qiáng)大的算力基礎(chǔ)設(shè)施,為人形機(jī)器人做好了大量鋪墊。
圖|Tesla Bot
來源:特斯拉AI Day
Tesla Bot身高約1.72米,體重約56.7kg,集齊前述的FSD、車載計(jì)算機(jī)、Autopilot攝像頭和40個(gè)微型電機(jī)等所有技術(shù)與一身,可謂人工智能技術(shù)的最終極形態(tài)呈現(xiàn)。技術(shù)細(xì)節(jié)上,頭部被安裝用于導(dǎo)航的攝影機(jī),透過人工神經(jīng)網(wǎng)路(Artificial Neural Network)驅(qū)動(dòng),面部有一塊螢?zāi)?,用于展示與提供訊息,手部可以執(zhí)行宛如人類手部程度的動(dòng)作。
1.2、底層FSD技術(shù)
特斯拉的純視覺傳感器方案的實(shí)現(xiàn),離不開多任務(wù)學(xué)習(xí)HydraNets神經(jīng)網(wǎng)絡(luò)架構(gòu)。每輛特斯拉汽車擁有8個(gè)環(huán)繞車身、覆蓋周圍360°的攝像頭,來獲取交通信號(hào)燈、信號(hào)牌、匝道、路緣等周邊信息,為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)提供了絕佳條件。
特斯拉開發(fā)了“矢量空間”(Vector Space)技術(shù),同時(shí)兼具了非凸優(yōu)化算法(Non-convex)、高維度兩大優(yōu)勢。該技術(shù)可以通過8個(gè)攝像頭輸入的數(shù)據(jù)為基礎(chǔ)繪制3D鳥瞰視圖,形成4D的空間和時(shí)間標(biāo)簽的“路網(wǎng)”以呈現(xiàn)道路等信息,幫助車輛把握駕駛環(huán)境,更精準(zhǔn)的尋找最優(yōu)駕駛路徑。
來源:特斯拉AI Day
有了海量、精準(zhǔn)的視頻數(shù)據(jù),特斯拉還需要?jiǎng)?chuàng)造一個(gè)強(qiáng)大的神經(jīng)網(wǎng)絡(luò),并對(duì)網(wǎng)絡(luò)進(jìn)行特殊的布局,使這些數(shù)據(jù)能在一個(gè)總的主干網(wǎng)絡(luò)上進(jìn)行整合和重新分析。因此,特斯拉“高樓平地起”,自主研發(fā)了基于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式。
同時(shí),特斯拉還開發(fā)了“仿真場景技術(shù)”,可以模擬現(xiàn)實(shí)中不太常見的“邊緣場景”用于自動(dòng)駕駛培訓(xùn)。在仿真場景中,特斯拉工程師可以提供不同的環(huán)境以及其他參數(shù)(障礙物、碰撞、舒適度等),極大提升了訓(xùn)練效率。
來源:特斯拉AI Day
由此,特斯拉FSD系統(tǒng)已可以實(shí)現(xiàn)每1.5毫秒2500次搜索的超高效率,預(yù)測可能出現(xiàn)的各種情況,并在其中找到最安全、最舒適、最快速的自動(dòng)駕駛路徑。
1.3、Dojo超級(jí)計(jì)算機(jī)
隨著所需處理的數(shù)據(jù)開始指數(shù)級(jí)增長,特斯拉也在提高訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算力,因此,便有了特斯拉Dojo超級(jí)計(jì)算機(jī)。組成Dojo超級(jí)計(jì)算機(jī)的關(guān)鍵單元,是特斯拉自主研發(fā)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片。D1芯片采用分布式結(jié)構(gòu)和7納米工藝,搭載500億個(gè)晶體管、354個(gè)訓(xùn)練節(jié)點(diǎn),僅內(nèi)部的電路就長達(dá)17.7公里,實(shí)現(xiàn)了超強(qiáng)算力和超高帶寬。
Dojo超級(jí)計(jì)算機(jī)的單個(gè)訓(xùn)練模塊由25個(gè)D1芯片組成。由于每個(gè)D1芯片之間都是無縫連接在一起,相鄰芯片之間的延遲極低,訓(xùn)練模塊最大程度上實(shí)現(xiàn)了帶寬的保留,配合特斯拉自創(chuàng)的高帶寬、低延遲的連接器;在不到1立方英尺的體積下,算力高達(dá)9PFLOPs(9千萬億次),I/O帶寬高達(dá)36TB/s。
圖|特斯拉FSD芯片+D1芯片
來源:特斯拉AI Day
至此,特斯拉已經(jīng)為Tesla Bot量身打造了最底層的FSD技術(shù)和Dojo超級(jí)計(jì)算機(jī)平臺(tái),只等Optimus的誕生了。馬斯克還補(bǔ)充:“未來勞動(dòng)力不會(huì)短缺,但體力勞動(dòng)只是一種選擇。Tesla Bot可以執(zhí)行一些危險(xiǎn)性、重復(fù)性、枯燥的任務(wù)?!?/p>
二、Optimus Gen-1發(fā)布
2.1、原型機(jī)發(fā)布
時(shí)隔1年,即2022年9月30日,首款人形機(jī)器人原型機(jī)"擎天柱"(Optimus Gen-1)在AI Day上正式亮相。 現(xiàn)場演示為原型機(jī)行走打招呼,視頻演示為辦公室澆植、工廠拿取結(jié)構(gòu)件、識(shí)別周圍物體渲染圖等。
圖| Optimus原型機(jī)
圖|Optimus執(zhí)行動(dòng)作
來源:特斯拉AI Day
Optimus Gen-1搭載2.3kWh容量電池,并采用集成式的設(shè)計(jì),可提供52V電壓。全身有28個(gè)關(guān)節(jié),整個(gè)身體的自由度超過 200個(gè),手掌設(shè)計(jì)部分通過六個(gè)致動(dòng)器完成11個(gè)角度的自由動(dòng)作,并能夠舉起超過20磅的物體。針對(duì)每個(gè)關(guān)節(jié)所需的力量/扭矩進(jìn)行了仿真建模,并據(jù)此研發(fā)了6種專用電機(jī),采用與特斯拉汽車電機(jī)同源的滾珠電機(jī)技術(shù),可以實(shí)現(xiàn)各個(gè)關(guān)節(jié)的旋轉(zhuǎn)和直線運(yùn)動(dòng)控制。
圖| 執(zhí)行器技術(shù)
圖| 靈巧手
來源:特斯拉AI Day
Optimus Gen-1搭載了與特斯拉車輛相同的FSD技術(shù)以及Autopilot相關(guān)神經(jīng)網(wǎng)絡(luò)技術(shù),其大腦使用的是自研的AI訓(xùn)練 Dojo D1芯片和超級(jí)計(jì)算機(jī) Dojo,在經(jīng)過完全自動(dòng)駕駛能力系統(tǒng)的實(shí)際應(yīng)用驗(yàn)證后,特斯拉強(qiáng)大的FSD計(jì)算機(jī)視覺技術(shù)已可直接應(yīng)用于機(jī)器人。
圖| Networks 識(shí)別技術(shù)
來源:特斯拉AI Day
通過搭載視覺相機(jī),結(jié)合全身28關(guān)節(jié)執(zhí)行器,以及底層FSD視覺算法和Dojo超級(jí)計(jì)算機(jī)提供算力支撐,Optimus Gen-1終于誕生。
2.2、第一次迭代
2023年3月:歷時(shí)5個(gè)月開發(fā),視頻中顯示人形機(jī)器人可以實(shí)現(xiàn)獨(dú)立的直立行走,且 能在另一臺(tái)機(jī)器人上實(shí)現(xiàn)裝配任務(wù),手指關(guān)節(jié)可滿足抓取電動(dòng)工具、螺絲、覆蓋在相框上的布等任務(wù)要求。
圖| Optimus工業(yè)組裝
圖| Optimus物品分揀
圖| Optimus力反饋
來源:特斯拉股東大會(huì)
Optimus 電機(jī)扭矩控制、力度控制更加精確靈敏;環(huán)境感知和記憶能力提升,不僅可以看路,亦會(huì)記路;還可根據(jù)人類動(dòng)作范例,進(jìn)行端到端動(dòng)作操控。
2023年5月,F(xiàn)SD Beta已累計(jì)行駛接近2 億英里。FSD能夠應(yīng)用在人形機(jī)器人,本質(zhì)在于自動(dòng)駕駛的模擬過程與機(jī)器人相同,即“輸入-計(jì)算機(jī)平臺(tái)-輸出”。通過視覺系統(tǒng)識(shí)別周圍環(huán)境,將數(shù)據(jù)傳輸至計(jì)算平臺(tái),平臺(tái)將反饋傳輸給執(zhí)行器等環(huán)節(jié),產(chǎn)生動(dòng)作?;贔SD的技術(shù)和數(shù)據(jù)積淀,構(gòu)建核心競爭力,特斯拉 Optimus將擁有和其他機(jī)器人產(chǎn)品不同的智能化升級(jí)優(yōu)勢。
2.3、第二次迭代
圖|Optimus物品分揀
圖|Optimus平衡動(dòng)作
Optimus 擁有了自我校準(zhǔn)手臂和腿部的能力,僅使用視覺和關(guān)節(jié)位置編碼器,它就可以在空間中精準(zhǔn)定位自己的肢體。
視覺感知能力提升明顯,算法與模型不斷進(jìn)步。Optimus可通過視覺與關(guān)節(jié)位置編碼器,在空間中精確定位四肢,能夠自我校準(zhǔn)手臂和腿,同時(shí)可自主按照顏色對(duì)物品進(jìn)行篩選分類與排序,神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端訓(xùn)練學(xué)習(xí)??梢钥闯鎏厮估呀?jīng)打通了FSD和機(jī)器人的底層模型,依賴神經(jīng)網(wǎng)絡(luò)模型和視覺技術(shù),不斷優(yōu)化FSD算法,在感知環(huán)境與自主分析做出運(yùn)動(dòng)方面表現(xiàn)較好,同時(shí)特斯拉Dojo平臺(tái)有望進(jìn)一步增強(qiáng)機(jī)器人AI能力,特斯拉人形機(jī)器人量產(chǎn)有望加速。
手部抓取與全身平衡表現(xiàn)亮眼,運(yùn)動(dòng)控制能力逐步提升。機(jī)器人Optimus可通過手指靈活抓取物品并放置指定位置,同時(shí)可做出類人的全身伸展運(yùn)動(dòng),包括瑜伽單腿站立并保持平衡。
三、Optimus-Gen2發(fā)布
2023 年 12 月 13 日,特斯拉發(fā)布第二代人形機(jī)器人 Optimus-Gen2 演示視頻,對(duì)比一代機(jī)主要變化為:
1、整體性能提升:1)特斯拉采用自主設(shè)計(jì)的執(zhí)行器和傳感器,執(zhí)行器中集成了電子部件,走路速度提升了30%。2)在機(jī)器人整體性能不下降的情況下,重量相比上一代人形機(jī)器人減重10kg。3)全身協(xié)調(diào)性明顯提升,主要體現(xiàn)在做深蹲等動(dòng)作時(shí)的平衡能力提高。
2、結(jié)構(gòu)設(shè)計(jì):1)頸部:新增2個(gè)自由度,執(zhí)行器及傳感器數(shù)量增加;2)足部:仿真人足幾何學(xué)設(shè)計(jì),腳趾部分采用了鉸接式的連接方式,使用力/扭矩傳感器;3)手部:共11個(gè)自由度,手指搭配壓力式觸覺傳感器,可精準(zhǔn)抓握細(xì)小易碎品例如雞蛋等;手指活動(dòng)速度更快,并且能夠用拇指和食指兩根手指從左手傳遞到右手,并且精準(zhǔn)地拿起和放下雞蛋。
新增變化方面:1)新增了2自由度的能夠主動(dòng)控制的脖子關(guān)節(jié),使得頭部能夠活動(dòng)。2)腳部做了類似人體結(jié)構(gòu)的足弓設(shè)計(jì),新增了腳趾關(guān)節(jié),新增了腳部力/力矩感知功能。3)所有手指均具備了觸覺感知能力。
圖|Optimus-Gen2 獨(dú)立行走? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖|Optimus-Gen2下蹲動(dòng)作
來源:特斯拉發(fā)布視頻
全新靈巧手設(shè)計(jì),具備觸覺感知能力。本次最新的進(jìn)展視頻中展示了特斯拉全新設(shè)計(jì)的靈巧手,具備更快的響應(yīng)速度和11個(gè)自由度,手指上具備觸覺傳感器視頻中演示了其雙指將生雞蛋輕拿輕放的能力。
圖|Optimus-Gen2 輕松拿捏雞蛋
來源:特斯拉發(fā)布視頻
相比于第一代Optimus人形機(jī)器人,第二代Optimus在手指上新增了觸覺傳感器,觸覺傳感器可以賦予機(jī)器人更精細(xì)的力反饋能力,有望提升人形機(jī)器人的工作能力,使其能夠完成更多任務(wù),如精細(xì)的裝配、柔性物體操作等。在更多傳感器的加持下,機(jī)器人的應(yīng)用場景有望進(jìn)一步打開。
總結(jié)
Optimus人形機(jī)器人在硬件上實(shí)現(xiàn)升級(jí)換代,核心關(guān)節(jié)及零部件設(shè)計(jì)、整機(jī)協(xié)調(diào)控制等或均有大幅優(yōu)化,機(jī)器人的靈活性控制能力顯著提升。預(yù)計(jì)2024實(shí)現(xiàn)部分量產(chǎn),2025年大規(guī)模進(jìn)入工廠等場景使用。
特斯拉人形機(jī)器人將兼具工業(yè)和家庭用途,能夠執(zhí)行工業(yè)生產(chǎn)中的復(fù)雜任務(wù)和家庭服務(wù),最終實(shí)現(xiàn)勞動(dòng)力替代。據(jù)高工機(jī)器人產(chǎn)業(yè)研究所,2026年全球人形機(jī)器人在服務(wù)機(jī)器人中的滲透率有望達(dá)到3.5%,市場規(guī)模超20億美元,到 2030年,全球市場規(guī)模有望突破200億美元。隨人形機(jī)器人產(chǎn)品智能化程度不斷提升,遠(yuǎn)期市場空間更為廣闊。馬斯克認(rèn)為,人形機(jī)器人可能比電動(dòng)車業(yè)務(wù)做的更大,未來數(shù)量超過100億-200億臺(tái)。