《奧本海默》導(dǎo)演諾蘭,近期在一篇訪談中談到,他認(rèn)識(shí)的幾位ChatGPT核心工程師,就經(jīng)歷了一個(gè)“奧本海默時(shí)刻”。
有人調(diào)侃ChatGPT出現(xiàn)后,機(jī)器人負(fù)責(zé)作詩(shī)畫畫,人類仍舊洗碗搬磚,這種“本末倒置”預(yù)示著人們即將進(jìn)入為機(jī)器人打工的時(shí)代。也有一些人認(rèn)為,就像原子彈第一次試爆時(shí)刻,面臨著鏈?zhǔn)椒磻?yīng)失控的巨大風(fēng)險(xiǎn),人類其實(shí)并不完全了解越來(lái)越聰明的AI會(huì)開啟怎樣的未來(lái)。其實(shí),先不論種種潛在風(fēng)險(xiǎn),AI的變革意義堪比原子彈問世,特別是在機(jī)器人這個(gè)交叉領(lǐng)域。
機(jī)器人正迎來(lái)“奧本海默” 時(shí)刻?
如果說(shuō)智能手機(jī)加速了信息時(shí)代的黃金發(fā)展,那么下一個(gè)引領(lǐng)人類從信息時(shí)代進(jìn)階到智能時(shí)代的賽道或者現(xiàn)象級(jí)別品類會(huì)是什么?人形機(jī)器人是其中之一嗎?
人形機(jī)器人通常是指模仿人類物理形態(tài)以及具體行為的智能機(jī)器人,相比于傳統(tǒng)機(jī)器人,人形機(jī)器人的核心突破在于人機(jī)交互,即能夠聽懂人類語(yǔ)言指令并進(jìn)行分析推斷以及決策執(zhí)行。
隨著機(jī)器人產(chǎn)業(yè)的推進(jìn)、ChatGPT等AI技術(shù)的加速演進(jìn),人形機(jī)器人展現(xiàn)了極大的潛能。特斯拉是人形機(jī)器人熱潮的直接推動(dòng)者。從2021年8月首次公布人形機(jī)器人項(xiàng)目,到2022年9月展示原型機(jī),再到2023年5月發(fā)布Optimus,特斯拉的人形機(jī)器人已經(jīng)具備了自然行走、電機(jī)扭矩控制、力度控制、環(huán)境識(shí)別及記憶等功能,展現(xiàn)了極快的產(chǎn)品迭代能力。
馬斯克強(qiáng)調(diào),現(xiàn)在是推進(jìn)研發(fā)人形機(jī)器人的絕佳機(jī)會(huì),因?yàn)榭梢怨蚕泶罅?a class="article-link" target="_blank" href="/tag/%E8%87%AA%E5%8A%A8%E9%A9%BE%E9%A9%B6/">自動(dòng)駕駛領(lǐng)域的軟硬件技術(shù)成果,Optimus將使用與其電動(dòng)汽車相同的全自動(dòng)駕駛系統(tǒng)(FSD)。未來(lái),人形機(jī)器人將會(huì)是特斯拉長(zhǎng)期價(jià)值的重要來(lái)源。
國(guó)內(nèi)人形機(jī)器人方面,小米、優(yōu)必選等代表廠商相繼推出了最新產(chǎn)品。今年2月,華為天才少年稚暉君創(chuàng)立了智元機(jī)器人,短短半年就完成了多輪融資,并在8月推出了首款產(chǎn)品。
稚暉君認(rèn)為,人形雙足機(jī)器人是人類環(huán)境中最為通用的終極形態(tài)。物理世界中各種場(chǎng)景、設(shè)備、任務(wù)、工具,都是為人體形態(tài)量身打造的,只有機(jī)器人像人,具備類似的身體結(jié)構(gòu)和能力,才能夠幫助機(jī)器人更好地融入人類生活和工作環(huán)境。
疊加AI大模型、關(guān)鍵軟硬件突破,人形機(jī)器人很可能成為新的風(fēng)口,再度引爆全球。以下是對(duì)國(guó)內(nèi)外有代表性的人形機(jī)器人進(jìn)展和特點(diǎn)梳理:
圖:國(guó)內(nèi)外主要人形機(jī)器人進(jìn)展及特點(diǎn)(與非網(wǎng)據(jù)公開資料整理)
敲開“具身智能”時(shí)代大門
大模型到來(lái)之前,機(jī)器人都是“專用設(shè)備”,人形機(jī)器人則向通用機(jī)器人更近一步。業(yè)界甚至認(rèn)為人形機(jī)器人作為“具身智能”的理想載體,有望引領(lǐng)未來(lái)產(chǎn)業(yè)變革。
今年5月,英偉達(dá)創(chuàng)始人黃仁勛表示,下一波人工智能浪潮將是“具身人工智能(embodied AI)”,即能夠理解、推理、并與物理世界互動(dòng)的智能系統(tǒng)。
與過(guò)去通過(guò)“喂數(shù)據(jù)”指揮機(jī)器人行動(dòng)不同,具身智能的做法是讓機(jī)器人自己學(xué)習(xí)如何與環(huán)境交互。具身智能機(jī)器人與人類的交流將不再是機(jī)械式的查字典式問答,而是結(jié)合個(gè)性化溝通、任務(wù)理解、交互、規(guī)劃和實(shí)體執(zhí)行的新局面。有業(yè)界專家提出:以ChatGPT為代表的大語(yǔ)言模型并不是AI的最終形態(tài),比它更高級(jí)的是多模態(tài)的具身智能。
那么,為什么認(rèn)為人形機(jī)器人是具身智能的最佳載體?
一直以來(lái),傳統(tǒng)機(jī)器人發(fā)展的痛點(diǎn)在于不智能、不通用。不智能主要體現(xiàn)在傳統(tǒng)機(jī)器人不能像人一樣感知和思考,痛點(diǎn)在于關(guān)鍵算法尚未突破;不通用則體現(xiàn)在需求場(chǎng)景應(yīng)用受限,例如清潔機(jī)器人、物流機(jī)器人等概念具有明確的功能屬性和場(chǎng)景屬性。
而人形機(jī)器人具備三大因素,體現(xiàn)出了和傳統(tǒng)機(jī)器人的本質(zhì)區(qū)別:第一,像人一樣有“大腦”,能夠?qū)W習(xí)和交互;第二,像人一樣有完整的軀干;第三,大腦能對(duì)身上各部位各器官進(jìn)行控制。這三方面分別對(duì)應(yīng):AI 大模型(交互模塊)、視覺傳感及感應(yīng)器等(感知模塊)、電機(jī)執(zhí)行器(運(yùn)動(dòng)控制模塊)。
最重要的是,從軟硬件層面來(lái)看,人形機(jī)器人在迎來(lái)雙重契機(jī):軟件方面,得益于在計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、導(dǎo)航和路徑規(guī)劃、智能決策與行為規(guī)劃等方面的積累和突破,人形機(jī)器人的感知、理解、決策、互動(dòng)能力顯著增強(qiáng);硬件方面,由于與工業(yè)機(jī)器人、汽車等產(chǎn)業(yè)有重合的零部件產(chǎn)業(yè)鏈,因此有望更快實(shí)現(xiàn)降本提質(zhì)。
未來(lái),在機(jī)器人和AI的交叉領(lǐng)域,具身智能具有非常重要的意義,可以說(shuō)是未來(lái)發(fā)展的重要方向和關(guān)鍵節(jié)點(diǎn)。它能夠讓機(jī)器人更加靈活、自然地與人類交互和協(xié)作;更好地適應(yīng)復(fù)雜的環(huán)境,根據(jù)環(huán)境反饋和自身狀態(tài)進(jìn)行實(shí)時(shí)決策和調(diào)整;具身智能可以為AI的發(fā)展提供更加強(qiáng)大的感知和理解能力,進(jìn)一步提升AI的實(shí)際應(yīng)用能力。
潛在萬(wàn)億賽道,主要挑戰(zhàn)?
馬斯克今年在特斯拉股東大會(huì)表示,人形機(jī)器人和人的比例可能約為2:1,也就是說(shuō),未來(lái)對(duì)人形機(jī)器人的需求量可能是100億至200億臺(tái),距離2萬(wàn)美金售價(jià)目標(biāo)仍有大幅降價(jià)空間,未來(lái)將分階段迎來(lái)規(guī)模量產(chǎn)。
不過(guò),由于應(yīng)用場(chǎng)景不足,再加上高技術(shù)、高成本門檻,人形機(jī)器人仍處于早期階段。目前,人形機(jī)器人功能相對(duì)簡(jiǎn)單、僅實(shí)現(xiàn)了初步智能,在一些入門級(jí)應(yīng)用場(chǎng)景中,拼不過(guò)更加成熟且成本低廉的機(jī)器人。
目前,多數(shù)人形機(jī)器人都聚焦在“位控”和“力控”兩類控制模式上發(fā)展,還未和深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)深度結(jié)合,在商業(yè)應(yīng)用上還需攻克穩(wěn)定性問題。 此外,一個(gè)最大的瓶頸就是制造成本高昂,而這有賴于大規(guī)模生產(chǎn)的基礎(chǔ)及多方位的技術(shù)突破,這也進(jìn)一步導(dǎo)致人形機(jī)器人難以推廣。
就以正在沖擊“人形機(jī)器人第一股”的優(yōu)必選來(lái)說(shuō),它號(hào)稱是全球首家將雙足真人尺寸人形機(jī)器人的成本降低至10萬(wàn)美元以下的公司,實(shí)現(xiàn)了國(guó)內(nèi)首款大型人形機(jī)器人的商業(yè)化落地。
不過(guò),據(jù)優(yōu)必選招股書顯示,2021年優(yōu)必選僅售出1臺(tái)真人尺寸的人形機(jī)器人Walker-2用于教育,2022年前9個(gè)月售出2臺(tái)Walker-X用于通用商業(yè)目的。2020年至2022年,優(yōu)必選Walker系列收入分別為230萬(wàn)、1280萬(wàn)、5185萬(wàn),收入占比分別為0.3%、1.6%、5.1%。相形之下,消費(fèi)級(jí)機(jī)器人硬件及解決方案才是新的增長(zhǎng)點(diǎn),2020年至2022年,收入占比由8.0%提升至33.6%。
如何推動(dòng)人形機(jī)器人盡早成熟、走向大規(guī)模應(yīng)用?業(yè)內(nèi)認(rèn)為可以參考智能手機(jī)發(fā)展歷程,即前期主要由硬件技術(shù)進(jìn)步推動(dòng),而隨著設(shè)備性能提升和功能增加,給內(nèi)容和應(yīng)用創(chuàng)新帶來(lái)更多可能,從而步入生態(tài)壯大發(fā)展。
結(jié)合這一軌跡,核心硬件應(yīng)該是率先突破的領(lǐng)域。一方面,高性能零部件能實(shí)現(xiàn)更好的控制和交互能力;另一方面,有冗余空間的硬件方案才能實(shí)現(xiàn)高通用性和靈活性,有利于進(jìn)一步壯大開發(fā)和應(yīng)用生態(tài)。
目前看來(lái),人形機(jī)器人的核心零部件主要包括電機(jī)、減速器、傳感器等。
機(jī)器人關(guān)節(jié)處需多個(gè)電機(jī)驅(qū)動(dòng),電機(jī)驅(qū)動(dòng)系統(tǒng)是將電能轉(zhuǎn)化為動(dòng)能的物理系統(tǒng),主要由負(fù)載、控制裝置及電機(jī)等部分構(gòu)成,電機(jī)驅(qū)動(dòng)芯片是電機(jī)驅(qū)動(dòng)系統(tǒng)的大腦。在人形機(jī)器人中,電機(jī)需求廣泛分布。以特斯拉Optimus為例,其主體部分使用28個(gè)電機(jī)執(zhí)行器,用以完成抬手、屈膝等動(dòng)作。
傳感器主要負(fù)責(zé)內(nèi)外部環(huán)境信息的監(jiān)控交互,按信息來(lái)源可分為內(nèi)部傳感器與外部傳感器。內(nèi)部傳感器主要負(fù)責(zé)收集自身運(yùn)動(dòng)、位置信息(如關(guān)節(jié)的線位移、角位移等幾何量,速度、角速度、加速度等),從而實(shí)現(xiàn)更精確可靠的智能控制。相比其他機(jī)械設(shè)備,機(jī)器人與外部環(huán)境的交互性更強(qiáng),因此其需要利用外部傳感器實(shí)時(shí)監(jiān)測(cè)周圍環(huán)境參數(shù),輔助完成目標(biāo)識(shí)別、決策判斷等過(guò)程。
此外還有3D視覺、線束與連接器等等,形成人形機(jī)器人的眼睛、神經(jīng)與血管等。
預(yù)計(jì)人形機(jī)器人發(fā)展初期,首先需要大力發(fā)展智能芯片、伺服系統(tǒng)、減速器等為主的通用性硬件,而隨著需求量增大,才能進(jìn)一步形成高性能、低成本的標(biāo)準(zhǔn)方案。
此外,算法作為人形機(jī)器人的核心,需與硬件發(fā)展相匹配。當(dāng)前的核心問題在于算法對(duì)運(yùn)動(dòng)能力的控制,包括本體平衡、行走的步態(tài)、手部抓取等規(guī)劃與控制。由于人形機(jī)器人需完成各種類似人類的動(dòng)作,連續(xù)、復(fù)雜、需頻繁的物理交互且操作因果性多,算法難度甚至超過(guò)自動(dòng)駕駛。這就更需要成熟的感知系統(tǒng)基礎(chǔ)、強(qiáng)大的算法分解任務(wù)和規(guī)劃動(dòng)作、大模型的不斷仿真訓(xùn)練、以及超強(qiáng)的算力支撐,才能形成算法與硬件匹配的持續(xù)迭代。
寫在最后
盡管人形機(jī)器人的運(yùn)動(dòng)能力已經(jīng)大大提升,但是到了實(shí)際商用落地環(huán)節(jié),仍然舉步維艱。波士頓動(dòng)力幾次賣身易主,也側(cè)面證明了這一賽道商業(yè)化的艱難。
業(yè)界都期待一款可以實(shí)現(xiàn)巨大突破的機(jī)器人,像自動(dòng)駕駛一樣,有感知、分析判斷能力、人機(jī)交互能力、對(duì)于3D世界的實(shí)時(shí)理解能力,以及精準(zhǔn)的操作能力,而人形機(jī)器人有望擔(dān)此重任,也吸引了一批企業(yè)開始瞄準(zhǔn)這個(gè)方向發(fā)力。
人形機(jī)器人能否打破機(jī)器人產(chǎn)業(yè)的固有困境,引領(lǐng)機(jī)器人產(chǎn)業(yè)一舉跨入新智能時(shí)代?屬于機(jī)器人的 “奧本海默”時(shí)刻,會(huì)出現(xiàn)嗎?