加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、潮起深度強化學習
    • 02、開創(chuàng) AI + Robotics
    • 03、Robotics + AI
    • 04、具身智能創(chuàng)業(yè)
    • 05、結語
  • 相關推薦
  • 電子產業(yè)圖譜
申請入駐 產業(yè)圖譜

伯克利具身智能圖譜:深度強化學習浪尖上的中國 90 后們

11/05 10:40
1456
閱讀需 56 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?|?賴文昕,編輯 | 陳彩嫻

吳翼、高陽、許華哲、陳建宇、湯特、段巖、陳曦、張?zhí)旌?、羅劍嵐.....深度強化學習與機器人的相映交輝下,是一代英才輩出。

短短不到一年內,邊塞科技、星動紀元、星海圖和千尋智能接連成立,躋身國內明星創(chuàng)企之列;大洋彼岸,Covariant 和 Anyware Robotics 也正在灣區(qū)閃耀。六家具身智能公司,八位 90 后創(chuàng)始人,他們都成長于深度強化學習的搖籃。作為最早一批開啟新范式的人,他們探索 AI 和 Robotics 的故事要從踏入伯克利校園說起。

01、潮起深度強化學習

2016 年春,伯克利計算機系每學期都會變化的 frontier 課開始了。Frontier 課又稱臨時課,內容不定,老師多變,是為了探討學術前沿而設——這次,輪到了“深度強化學習”。

走進只有二三十人的教室,吳翼和高陽、段巖(Rocky Duan)、陳曦(Peter Chen)坐在了一起。講臺上,Pieter Abbeel 和 Sergey Levine 輪番上陣分享最新研究,系統(tǒng)性理論教學與進階內容并不多。此時鼎鼎大名的人工智能實驗室 BAIR 尚未成立,伯克利最火的教授還是做統(tǒng)計、貝葉斯機器學習的 Michael ?I. Jordan 和 Martin Wainwright 等人。當時 OpenAI 尚未提出近端策略優(yōu)化(PPO)算法,其前身 TRPO 算法(由 John Schulman 和兩位講者提出)、DeepMind 剛改進的 DQN(深度強化學習開山之作)以及強化學習經典的策略梯度(Policy Gradient)算法是這門臨時課的重點。

作為剛入門強化學習的“小白”,吳翼不懂就問,常抱段巖和陳曦的“大腿”,因后兩人正跟著導師 Pieter Abbeel 在 OpenAI 實習,研究強化學習算法的框架 RLLib,天天寫代碼。此時的吳翼剛結束了一個學期的焦慮與煎熬:博二的他在 Stuart Russell 組研究貝葉斯推理,繼續(xù)大三暑研就開始參與的概率編程語言項目。上課之余,他還在帶本科生參加 DARPA Challenge,項目重且每學季都有匯報。論文九投一中,新方向顆粒無收,反而是本科論文中了。但同年,和吳翼同屆的 Chelsea Finn 與 Sergey Levine、Pieter Abbeel 開發(fā)的算法第一次實現(xiàn)了用深度學習做機器人控制,讓機器人 BRETT 學會了將瓶蓋擰到瓶子上、將衣架放在架子上以及用錘子爪端拔出釘子等技能。

盡管圈內鮮有人認可,但伯克利 AI 方向的幾位教授已開始帶著學生試跑強化學習,比如 Trevor Darell 和其學生 Evan Shelhamer(現(xiàn) DeepMind 科學家)。他們踩了些坑后判斷這個方向可行,于是 2015 年夏天,Pieter Abbeel 開了個大組會,宣布整組轉向深度強化學習。目睹隔壁組的轉向,申博時就想做大規(guī)模機器學習系統(tǒng)的吳翼也對深度強化學習產生了興趣。

最初他選擇伯克利的原因之一,便是被 AMP Lab 孵化出來的 Databricks 及其開源大數(shù)據處理工具 Spark 吸引,覺得學術界能做出工業(yè)級別的系統(tǒng)很厲害。但導師 Stuart Russell 對此不太感冒,其研究偏好在貝葉斯推理、邏輯推理,喜歡優(yōu)雅的算法和 AI 理論,而非工程性較強的項目。吳翼和 Stuart 討論過一個問題:如何將邏輯推理系統(tǒng)擴展應用到大規(guī)模數(shù)據處理?吳翼認為由下至上(bottom up)的邏輯推理系統(tǒng)比較容易實現(xiàn),先從簡單情況開始,把整個邏輯系統(tǒng)中容易擴展(scale)的部分遷移到 Spark 上,以便先把算力利用起來實現(xiàn)一些應用進展,然后再慢慢向完整的推理系統(tǒng)和邏輯理論靠近。Stuart 則支持由上而下(top down),不能一開始就僅僅為了計算能力去盲目追求擴展性(scalability),應該從更高的起點出發(fā),先構建一個完整的推理系統(tǒng),再考慮如何使其可擴展。文無第一,師生二人的理念不同,雖然 Stuart 的觀點從做科學的角度看很有道理,但吳翼對自己的學術偏好也有自己的堅持。該研究導師感興趣的問題,還是做自己最想做的方向?在糾結中失眠半年后,吳翼想了一個解法:在做組里課題的同時,多加一個新方向的研究項目。這個想法也獲得了 Stuart 的支持。2015 年圣誕節(jié)假期結束回校,吳翼就去找了 Pieter Abbeel,自我介紹后就開門見山:“I want to do some deep reinforcement learning projects(我想做點深度強化學習的項目)”。Pieter 欣然同意,讓吳翼從三個項目中自選,吳翼沒多考慮就選了“Value Iteration Networks”這個項目——半年后,他就發(fā)表了第一篇深度學習論文,并獲得了 NIPS 2016 最佳論文獎。2016 年 7 月,吳翼去參加 IJCAI,偶遇剛讀博的 Jakob Foerster(現(xiàn)劍橋教授,多智能體領先者之一),與其聊到智能體之間如何通過交流推測帽子顏色,發(fā)現(xiàn)這和自己在清華姚班讀本科時接觸過的博弈論有異曲同工之妙。同年暑假,他受李磊邀請去字節(jié)今日頭條實習,接觸了自然語言處理(NLP),回伯克利后發(fā)現(xiàn)他的師兄 Jacob Andreas(現(xiàn) MIT 教授)開創(chuàng)性地將強化學習與 NLP 結合,能讓 AI 智能體實現(xiàn)指令跟從,在 2D 模擬環(huán)境中執(zhí)行從找到鐮刀、拿起鐮刀、移動到麥田、收割麥子等一系列動作。這兩項工作對吳翼的啟發(fā)很大,他也由此對多智能體學習產生了興趣,并轉向該方向的研究。后來博士畢業(yè)后,吳翼加入 OpenAI 也是從事大規(guī)模強化學習系統(tǒng)與多智能體的研究。此外,在伯克利讀博期間,吳翼還到 Facebook 實習,在田淵棟的指導下參與了視覺導航最早的工作之一 House3D。House 3D 是 Facebook 具身智能體研究平臺 Habitat 的重要組成部分,后來其“Habitat 挑戰(zhàn)賽”也成為了具身智能最熱門的挑戰(zhàn)賽之一。被吳翼抱大腿的段巖和陳曦,由于在 Pieter Abbeel 組,也最早經歷了伯克利深度強化學習浪潮的崛起。2011 年,段巖從深圳中學畢業(yè)后來到伯克利讀本科,和陳曦是計算機與統(tǒng)計雙專業(yè)的同班同學。此外,段巖還多修了數(shù)學專業(yè)。段巖人稱“Rocky Fast”,做事效率高、速度快,因為想創(chuàng)業(yè),和陳曦兩人用三年讀完本科后就創(chuàng)立了一家公司叫 Sellegit,專注于對移動電商平臺的開發(fā)與研究,比如以 9 分鐘極速閃拍模式爆火的時尚電商拍賣平臺 PEACH。

這段創(chuàng)業(yè)經歷也很快結束,只持續(xù)了一年左右。2015 年 8 月,兩人又回到伯克利,一起在 Pieter 組讀博。段巖與 Pieter 的緣分可以追溯到大三,他發(fā)表的第一篇論文就是 Pieter 帶領的鉸接式機器人工作,被機器人頂會 IROS 2013 接收。讀博后不久,兩人又跟著 Pieter 加入了當時團隊只有 10 人的 OpenAI,研究深度學習、強化學習和模仿學習??梢哉f,他們是最早接觸深度強化學習的中國青年。先行者們很快認識到深度強化學習的局限性:它依賴大量環(huán)境互動,且適應性差,一旦環(huán)境變化就需要重新訓練,成本高昂。

相比之下,人類和動物能夠利用豐富的先驗知識和經驗遷移,快速學習新技能。為了解決這個問題,段巖提出將元學習與深度強化學習結合,目標是讓模型學會如何快速學習,并在 2016 年末提出了 RL2算法,陳曦也參與其中。此時 Transformer 尚未誕生,太過領先的元強化學習還是一個難以理解的概念,不被學術圈看好,因此論文投稿一直沒中。為了支持學生,Pieter 干脆將自己演講 PPT 的第一頁換為論文介紹,只要有外出分享的機會,就會向在場觀眾介紹,“這是我們今年最重要的工作。”除了元強化學習開山之作 RL2算法外,在 OpenAI,陳曦還跟著生成對抗網絡(GAN)之父 Ian Goodfellow,參與了提高訓練 GAN 技術的工作,論文引用量超過了一萬。

02、開創(chuàng) AI + Robotics

Pieter Abbeel 的成名之作是在斯坦福吳恩達組讀博時用強化學習控制直升機倒飛。2008 年他到伯克利后,除了開拓深度強化學習,還最早將原本壁壘很大的深度學習與機器人領域結合,創(chuàng)立了機器人學習(Robot Learning)實驗室。機器人學習研究的主要內容,也是如今具身智能領域最核心的方向之一。

前文提到的 TRPO 算法是該方向的一大突破性貢獻,它讓機器人能學習一系列模擬的控制技能,其開源代碼與視頻教程也吸引了越來越多研究人員參與其中,使機器人能完成的任務越來越復雜。除了 TRPO,Pieter 團隊在該方向還發(fā)表了許多引領性的工作,例如 2015 年的泛化優(yōu)勢估計(GAE)首次實現(xiàn)了 3D 機器人運動學習,2018 年的柔性致動評價(soft-actor critic)能在數(shù)小時內教機器人解決真實世界的問題、引用量接近一萬,是迄今為止最流行的深度強化學習方法之一。2016 年陳曦和段巖的本科師弟張?zhí)旌萍尤?Pieter 組讀博時,Pieter 組內的研究重點也從強化學習轉向了機器人與 AI 算法的結合。

段巖與陳曦提出的 RL2 算法雖能讓機器人從自身經驗中快速學會一項技能,但機器人在實驗室學習的經驗是簡單和人為的,可學習的技能范圍也有限。那時候,陳曦和段巖常從伯克利校園自駕 15 分鐘,到奧克蘭唐人街的中餐廳吃飯。一次晚飯,二人聊起 RL2 算法,發(fā)現(xiàn)對機器人快速學會技能后具體的下一步是什么并不清楚。他們意識到,機器人該掌握哪些技能、應用在哪些具體場景、任務的實施對象、在多長周期內完成、所需硬件有哪些等等問題依舊懸而未決——學術領域的抽象追求和真實行業(yè)的實際需求差距太大。

于是他們就產生了一個想法:創(chuàng)業(yè)。

“Rocky Fast”再次用三年時間讀完博士,然后拉上還沒畢業(yè)的好友陳曦、師弟張?zhí)旌?,以及對他們無條件支持的導師 Pieter Abbeel,一起離開當時已經近百人規(guī)模的 OpenAI,2017 年 9 月成立了一家名為“Embodied Intelligence”的機器人創(chuàng)業(yè)公司。但很快,因為名字太直接、與“Embodied AI”的大研究方向幾乎重名,就像用 AGI 給大模型公司命名一樣不合時宜,他們又將公司名改為了“Covariant AI”。有了 Pieter 的加入,Covariant AI 在種子輪就融到了 700 萬美元,后續(xù)的投資人陣容更是眾星云集,包括 Geoffrey Hinton、Yann LeCun、李飛飛、Jeff Dean 等人工智能領域的大牛,連比爾·蓋茨也參與了去年的 C 輪融資。也是在 2017 年前后,伯克利計算機系的幾位大牛一起籌備成立了一個虛擬的組織——伯克利人工智能實驗室(BAIR)。

Jitendra Malik 和 Trevor Darrell 是 BAIR 最初的兩位發(fā)起人。他們認為,伯克利的 AI 雖強,但各自為戰(zhàn)、沒有形成群體的影響力,所以希望通過 BAIR 把計算機系的各個團隊聚集起來,整合資源做更大的事。這個想法獲得系內的一致認可。于是參與 BAIR 的各個組匯聚到同一個大平層里,寧可吵一點也要讓所有人每天都能交流,無論是老師之間、學生之間還是師生之間都能平等合作。Trevor 的兩位中國學生高陽、許華哲也是從這時開始,從視覺轉向,開始同 Pieter Abbeel、Sergey Levine 合作研究強化學習相關的課題。高陽是 2014 年到伯克利讀博,和吳翼同一屆。到伯克利之前,高陽在清華計算機系讀本科,期間曾加入朱軍團隊參與研究貝葉斯推理,以及在谷歌北京跟著原谷歌中國工程院副院長張智威和清華學長李方濤研究 NLP。

因喜愛機器學習,高陽在四大高校的offer中選擇了伯克利。進入伯克利后,高陽第一年上了許多包括 Michael Jordan 在內的教授的課,發(fā)現(xiàn)他們做的研究偏理論,涉及大量數(shù)學公式推導而非編程實踐,與自己的預期差距不小。高陽想做更有現(xiàn)實影響力的工作,于是就找到了 Trevor Darrell。彼時 Trevor 正在研究機器人跨模態(tài)的視覺和觸覺交互數(shù)據集,讓高陽也參與進來,算是對他的考察。項目完成后,Trevor 對高陽很滿意,高陽就成功進了 Trevor 的組讀博。機緣巧合下,后來視覺與觸覺也成為如今機器人最重要的兩個感知模態(tài)。

高陽的第一個工作也被 CVPR 2015 的“視覺領域數(shù)據集的未來” workshop 接收。Trevor 的風格是鼓勵學生自由探索自己感興趣的方向。他有一個特別知名的中國學生叫賈揚清,就是在這樣包容的研究氛圍中開發(fā)出了深度學習框架 Caffe。高陽進組后也先做了一個深度學習網絡結構的工作,并在頭兩年跟著 Trevor 深耕視覺。除了視覺的感知,Trevor 還鼓勵學生廣開思路,探索可動、可執(zhí)行的人工智能(Actionable AI),去做跟決策相關的研究。于是 2016 年博二下學期,高陽開始接觸自動駕駛,暑假還到 Waymo 實習,參與了自動駕駛的感知與決策研究。決策涉及強化學習的知識,但此時高陽只在 frontier 課里上過 Pieter 的課、沒上手做過項目,而這又跨出了 Trevor 擅長的研究范圍,高陽就同 Trevor 提議,跟大力鉆研 RL 的 Sergey 合作,Trevor 爽快同意,團隊便一起探索彼時仍少人涉足的模仿學習預訓練與強化學習微調相結合的算法。

項目最早的實驗針對人形機器人站立、跑動等控制問題展開,后期再轉移到自動駕駛領域?!氨举|上自動駕駛就是一個特殊的機器人控制問題,所以最開始研究的很多算法,在機器人和自動駕駛兩個領域都完全通用?!备哧柛嬖V雷峰網。從技術發(fā)展的先后順序看,自動駕駛當時恰好處于人臉識別等純視覺技術與機器人之間,技術未定型又不至于完全不成熟,需解決視覺感知和決策問題,正合高陽的意。到了博四,高陽參與了由 Trevor 領銜的 Deep Drive 項目。

作為北美最大的自動駕駛研究組織之一,此項目匯集了包括 Sergey、Pieter 在內的十余位教授,Toyota、Meta 和 Sony 等汽車制造商和上下游公司出資贊助科研,高陽也因此第一次接觸硬件。在 2017 年,高校里有一臺完整的自動駕駛汽車還是件新鮮事,因本??臻g有限,還得到里士滿灣校區(qū)做實驗。高陽負責開發(fā)核心算法并將其整合到汽車上驗證效果,以 Sim2Real 的方式測試端到端算法在現(xiàn)實世界中的表現(xiàn)。當看到自己單獨開發(fā)的算法能讓汽車通過簡單的訓練在測試場里連續(xù)行駛三四圈,高陽很驚喜,“當時從下至上把 ROS(機器人操作系統(tǒng))摸了一遍,深刻理解了硬件實際操作與純仿真環(huán)境的不同。”2016 年,許華哲也從清華畢業(yè)來到伯克利 Trevor 組讀博,首個項目便是與高陽合作的端到端自動駕駛課題,被 CVPR 2017 錄取為 Oral Paper 。他們發(fā)布了當時最全面、時長最長的自動駕駛數(shù)據集 BDDV。當時 Trevor 傳達的核心理念是,模型的質量取決于數(shù)據的質量?;谶@一理念,他們利用車載攝像頭收集了數(shù)萬小時的視頻數(shù)據,幾乎覆蓋了舊金山所有街道,再通過位置、速度、加速度等信息預測車輛動作,同后來模仿學習的范式非常一致。

在伯克利,許華哲與高陽、吳翼的關系最好。他們都來自清華,又都對 AI + Robotics 感興趣,三個人有一個微信小群,經常約著一起吃飯。許華哲剛進 Trevor 組時,團隊主攻域遷移與視覺-語言兩大方向,Trevor 建議許華哲和高陽去“開荒”彼時熱度飆升的自動駕駛。但做了幾個自動駕駛的項目后,許華哲認為視覺技術的本質是識別或生成,而他更希望創(chuàng)造出能做決策、與世界互動并對世界產生影響的智能體——也就是機器人。所以博一下學期,得益于 BAIR 對跨組合作的鼓勵,許華哲開始跟 Sergey 合作,研究重點也從單純的視覺轉向了強化學習、視覺與機器人結合的方向。2017 年 6 月,BAIR 博客正式開張,許華哲還成為了首屆編輯部的五位成員之一。

因早期機器人非常昂貴,他們的研究主要以模擬器和游戲為主。許華哲和 Sergey 合作過 2.5 個項目,是關于賽車游戲、超級馬里奧和仿真機器人;還和同樣喜歡打星際爭霸的師兄唐浩然(曾任 Covariant 研究科學家)一起,同 Pieter 合作了一個打星際爭霸的項目。

轉方向后,許華哲最大的感受是個人的研究樂趣提高了,“因為成果很直觀,比如(強化學習)能讓游戲打得更好,當然代碼難度也更大。純視覺更多是對神經網絡的調參能力要求較高,強化學習的神經網絡結構相對簡單,但要處理一大堆模擬器等底層的東西?!?018 年 2 月,許華哲到 Facebook 人工智能研究院(FAIR)實習,和田淵棟、馬騰宇合作。當時馬騰宇剛拿到斯坦福教職 offer,想在 gap year 探索些不同的理論,許華哲就與他合作了機器人的相關內容。

隨著機器人成本逐漸下降,許華哲在 2019 年第二次入職 FAIR 時開始逐漸上手碰真機,真正地從 Actionable AI 轉到具身智能。當時 Facebook 跟伯克利有個“FAIR BAIR Triangle”項目,雙方合作,學生可以在兩地各有一位導師,許華哲在 Facebook 的導師是 Roberto Calandra(今德累斯頓工業(yè)大學教授),在他和 Trevor 的指導下做機器人觸覺相關項目,完成了觸覺數(shù)據庫 Pytouch 與讓機械手彈鋼琴的工作。在觸覺靈巧手項目中,許華哲意識到,真機與仿真間的gap很大:觸覺模擬器不好用。和只需要按下重啟即可做下一次實驗的模擬器不同,真機的某零件損壞就得修理或重買,是個“臟活”,“2020 年疫情自己在家里拿杯子采數(shù)據,觸覺傳感器突然壞了,得等網購的東西到才能修好,節(jié)奏馬上就慢了下來?!?/p>

03、Robotics + AI

如果說計算機系作為深度強化學習搖籃研究的是 AI + Robotics,那么隔壁的機械工程系則是在盟友的影響下,加速了對 Robotics + AI 的探索。具體而言,計算機系是從上層感知技術向底層逐步滲透,從 AI 出發(fā),在遇到 AI 的局限(例如可解釋性不足)時,再整合控制理論等元素;機械工程系則從底層起步向上拓展,側重于模型基礎研究和工業(yè)應用,在遇到傳統(tǒng)技術局限時,引入 AI 技術進行增強。也是從 2017 年起,兩大專業(yè)的交叉內容越來越多。

隨著伯克利 CS 系的 frontier 課逐漸系統(tǒng)化,加入了理論推導和更多細節(jié),其最終在 2017 年正式成為全球首個深度強化學習(DRL)課程。此時 DRL 在業(yè)界才剛火起來,基本停留在研讀論文的階段,由 Sergey Levine 授課的 CS285 自此成為該領域的“圣經”。

第一次正式開課,伯克利機械工程系的陳建宇、湯特也來了。兩人在機械系統(tǒng)控制實驗室(MSC Lab)讀博,師從模型預測控制(MPC)的奠基人、美國工程院院士 Masayoshi Tomizuka。Sergey 備課極認真,深入淺出地從基礎知識到最前沿技術,串起深度強化學習,配上編程作業(yè)和仿真器教學,學生們得以兼修理論和實踐。當時還在讀博的 Chelsea Finn 偶爾也來做嘉賓講座,分享自己的第一手研究。

在最后的開放式大作業(yè)中,陳建宇開發(fā)了一種分層強化學習框架,并首創(chuàng)了一個無人車仿真器進行訓練,填補了當時該領域的空白。2011 年,陳建宇被保送到清華精密儀器系(國內最早從事雙足人形機器人研究的單位之一),前兩年接觸機器人硬件,后兩年關注機器人算法,大三暑研就來到了 MSC Lab 做步態(tài)檢測,以類似遙操作的方式提取人腿數(shù)據分析雙足步態(tài)行走,并在畢設項目設計機器人步態(tài)規(guī)劃算法,在仿真里做雙足機器人。讀博期間,陳建宇主要參與無人駕駛項目。他的導師 Masayoshi 自 1980 年代起便對無人駕駛技術充滿熱情,曾在加州高速公路上開展無人駕駛車隊列項目,希望通過緊密編隊提高運輸效率。但由于成本過高和技術限制,該項目最終被擱置。直到 2015 年深度學習技術興起,無人駕駛車輛的感知能力顯著提高,Masayoshi 認為無人駕駛發(fā)展前景光明,于是重啟了相關研究。在此背景下,陳建宇成為了組內最早做無人車的 PhD 之一。

在研究無人車的同時,陳建宇密切關注著隔壁 CS 系將強化學習與深度學習相結合的研究,特別是在機器人領域的應用。他認為深度強化學習與控制領域緊密相關,且其解決問題的表示形式與 MPC 在本質上相似。在觀察到這些技術的潛力后,他決定轉向強化學習領域進行深入研究。博三起,陳建宇在無人駕駛領域進行了端到端的探索,他堅信端到端學習是未來發(fā)展的趨勢,并在仿真環(huán)境中進行了強化學習和模仿學習的研究,初步嘗試將世界模型的概念融入算法中,盡管受數(shù)據和技術所限未能在實車上應用。即使主要課題和獎學金都來自無人車項目,在驗證學習算法時,陳建宇也使用了其他形態(tài)的機器人,如機械臂等,以展示具身智能的普適性。在他看來,無人車也是一種機器人形態(tài),“而且無論是 MPC 還是強化學習,都是適用于不同形態(tài)機器人的通用方法?!?/p>

盡管在論文層面沒有直接合作,陳建宇同 CS 系在方法和創(chuàng)意的交流十分頻繁,特別是向 Sergey 請教。比陳建宇大兩屆的湯特則和 Pieter Abbeel 交流更多,還邀請了 Pieter 加入自己的博士委員會提供指導。讀博期間,湯特的研究主要圍繞模仿學習而展開。工業(yè)機器人巨頭發(fā)那科和 MSC Lab 合作緊密,因此湯特在 2013 年從上海交大畢業(yè)來到伯克利后,便一直與發(fā)那科深度合作,甚至每年暑假都去極少對外界開放的發(fā)那科研發(fā)總部實習。他讀博的首個課題,便是解決業(yè)內公認難題:讓工業(yè)機器人根據觸覺反饋,靈活地進行裝配。“裝配過程很難用精確的數(shù)學建模來解析。但人類有一種直覺,在感受到阻力時調整裝配的方向和移動速度,而機器人在需要柔順性的任務上表現(xiàn)不佳,其核心問題在于不具備此直覺,”湯特解釋道,“模仿學習能將這種直覺轉移到機器人身上,且即使在數(shù)據匱乏的情況下,也能高效地學習到高維度的信息?!?/p>

在剛體裝配有所突破后,接下來的兩年半時間里,湯特進一步挑戰(zhàn)更復雜的柔性體裝配。像汽車生產的四大環(huán)節(jié)中,沖壓、焊接、涂裝都已高度自動化,但總裝環(huán)節(jié)仍然勞動力密集。一個重要原因就是以線束為代表的柔性體很難被自動化裝配,涉及實時3D追蹤和運動規(guī)劃的問題。湯特使用模仿學習的策略,通過較小樣本量的人類演示,教會機器人完成復雜的柔性體操作任務,比如在不同的初始狀態(tài)下給繩子打結、折疊衣服,控制人形機器人雙手協(xié)作安裝線束。通過這兩個項目,湯特深刻理解了感知與決策的關系:3D 視覺是第一步,用于獲取物體三維信息并進行初步處理。但關鍵挑戰(zhàn)在于將識別結果與機器人動作決策相結合,而模仿學習通過將視覺信息轉化為運動指令來填補這一空白。

2018 年湯特畢業(yè),正遇上灣區(qū)機器人創(chuàng)業(yè)的浪潮,陳曦和段巖想開拓物流倉儲場景,需要擅長工業(yè)機器人的伙伴互補,便通過 Pieter 聯(lián)系湯特,想讓他加入 Covariant 一起合作。湯特考慮再三,覺得自己對工業(yè)場景和客戶需求的理解還不夠深刻,決定先到工業(yè)界歷練幾年,便婉拒了邀請,來到發(fā)那科參與組建先端研究所 (Advanced Research Lab),成為其首位成員。除了 MSC Lab 的二人外,在機械工程系讀博士的羅劍嵐也在探索 Robotics + AI,同時在 Pieter 指導下攻讀計算機系的碩士,最后 Pieter 也成為了他博士論文的 co-chair。羅劍嵐最關注的是如何讓強化學習在真實世界可行。同年來到伯克利的羅劍嵐和陳建宇志趣相投,前者做強化學習和真機機器人,后者做強化學習和自動駕駛,兩人常一起約飯,討論強化學習的應用。2017 年暑假,羅劍嵐參與西門子伯克利分部的項目,和 Pieter、Sergey 開始合作,把深度強化學習應用到工業(yè)生產中,學習策略以解決傳統(tǒng)機器人解決不了的問題,比如高精度裝配。這也是羅劍嵐在強化學習領域的起點,所設計的算法不僅要能進行規(guī)劃,還要能實時響應外部變化,并制定策略成功完成裝配。那時,在 MuJoCo 模擬環(huán)境中進行強化學習實驗、刷榜、發(fā)論文是常規(guī)操作,但羅劍嵐卻認為,當時的強化學習算法性能榜單與現(xiàn)實世界機器人控制問題脫節(jié),并沒有解決實際問題。

幾篇論文下來,強化學習效果有限,羅劍嵐卻決心“一條路走到黑”。2020 年,羅劍嵐畢業(yè),Pieter 兩次邀請他加入 Covariant,但他覺得時機不是特別成熟便婉拒了,想先去谷歌積累經驗。加入谷歌后,他先后在 DeepMind、Everyday Robot 和 Google X 工作,跟隨 Stefan Schaal。Stefan Schaal 是諾獎?chuàng)u籃馬普所的創(chuàng)始所長以及機器人強化學習、控制的泰斗人物 ,聯(lián)結整個歐洲機器人圈子。羅劍嵐讀著 Stefan 的論文成長,全面掌握了機器人系統(tǒng)的各個層面,包括從底層動力學到上層控制的所有知識。

他在谷歌參與的項目孵化為工業(yè)機器人創(chuàng)企 Intrinsic 后,羅劍嵐決定重返學術界,想在回國找教職前先兼職讀一年博士后,便去詢問了在 Google X 期間合作較多的 Sergey。先前合作時,Sergey 訓練機器人幾十個小時以完成簡單任務,而羅劍嵐做插拔等工業(yè)精密任務的成功率高達 100%,這讓 Sergey 深刻意識到團隊里需要有人既懂機器人系統(tǒng)又懂 learning,才能將二者結合。Sergey 熱情表示,二人能力互補,提議他全職兩年,羅劍嵐便在 2022 年回到了伯克利。強化學習應用門檻高,流程易出錯且不穩(wěn)定,用其解決實際任務一直是 AI 社區(qū)想攻克的難點。因此,在 2023 年 ?6 月,羅劍嵐萌生了提供一個開源的端到端解決方案的想法,包括強化學習環(huán)境和機器人控制器,以便用戶能夠輕松下載并使用,就像使用仿真器訓練機器狗一樣簡單?;谶@一愿景,羅劍嵐主導與斯坦福、華盛頓大學、谷歌等機構合作,將自己谷歌時期的項目成果在伯克利進一步發(fā)展完善,在有視覺信息的情況下,能夠在 20 分鐘內學會一個 100% 成功率的復雜操控策略,效果顯著。

在有視覺輸入的情況下,真機強化學習訓練操控策略基本上已被放棄,但在此工作后,大量的企業(yè)和高校又重新?lián)炱饋磉@個幾乎被放棄的方案,比如 Toyota 研究所、波士頓動力、北大、斯坦福等等。一次徒步時,羅劍嵐和 Sergey 聊起仿真,說如果有 100 億美元,是去建世界上最大最好的仿真器,還是去收集世界最大的數(shù)據集?兩人同時脫口而出:數(shù)據集?!胺抡鎸σ苿樱╨ocomotion)很有效,但不是魔法,相對于基于模型的控制,是更好的計算工具。而且移動的模型很簡單,狗是桌子模型、雙足是倒立擺模型,外界的不確定性也有限?!绷_劍嵐認為,高性能的操作必須建立在真實數(shù)據上,“操作的難點在真實世界連續(xù)多樣的變化,以及各種難以計算的復雜物理,比如物理接觸,柔性物體,尤其是在涉及視覺輸入的情況下,因此重點是設計出具有高樣本效率的算法,且與硬件和控制器對接無誤?!?/p>

04、具身智能創(chuàng)業(yè)

伯克利的具身智能人才似乎天然具有創(chuàng)業(yè)的基因:國內,邊塞科技、星動紀元、星海圖和千尋智能在一年內陸續(xù)誕生;國外,除了 2017 年的 Covariant,湯特等人于 2023 年 1 月創(chuàng)立的 Anyware Robotics 也早早入局。湯特在婉拒 Covariant 的邀請后,在發(fā)那科先端研究所鍛煉了四年,作為創(chuàng)始成員領導 AI Vision 項目從無到有并實現(xiàn)商業(yè)化。

隨著對機器人在工業(yè)領域的商業(yè)化落地的認識加深,湯特覺得自己的研究基礎加上對工業(yè)領域的理解已成熟,是時候出來創(chuàng)業(yè)了。兩位 MSC Lab 的同門師弟范永祥、周亦揚也有創(chuàng)業(yè)的想法,三人能力互補、一拍即合:湯特擅長模仿學習與 3D 視覺;范永祥擅長運動規(guī)劃;周亦揚則專注于自動駕駛。三方面結合起來,就構成了他們機器人最核心的要素——一套移動機械臂需要自動駕駛的能力來移動底盤,運動規(guī)劃的能力來進行手臂抓取,同時還要有視覺和學習的能力來進行引導。Anyware Robotics 希望打造重型通用機器人, 應用于物流、生產場景。湯特認為,未來將有兩種主要的通用機器人形態(tài)互為補充,“一種是靈活的人形機器人,擅長輕任務;另一種則是體型更大、更強壯的輪式機械臂,擅長執(zhí)行重體力任務。我們在打造的是后一種通用機器人?!?/p>

作為“伯克利歸國四子”,吳翼、高陽、許華哲、陳建宇的路徑出奇的一致,都是“清華—伯克利—清華叉院”。同在 BAIR 的吳翼、高陽、許華哲座位挨得很近,當時 Stuart 組里只有吳翼一個中國學生,他便總和 Trevor 組里同為零字班的高陽聊天,許華哲來到伯克利后又變成了三人小隊。陳建宇則和許華哲在學生會干活,時不時一起組織中國留學生的燒烤局。BAIR 三人常在名為“葫蘆娃”的小群里約著干活后一起去實驗室門口的 food court 吃飯,臨近畢業(yè)時也開始討論對于求職的迷茫與焦慮。作為首批回清華叉院任教的“青椒”,吳翼是最早做出決定的。

從 2016 年暑假首次來到北京的字節(jié) AI Lab 到博士畢業(yè),除了 2017 年在 Facebook 外,吳翼每逢放假都會回國到字節(jié)實習,還在 2018 年暑假轉到了核心的搜推組。早期的字節(jié)讓吳翼看到了 2012 年的 Facebook:員工三千,管理扁平,CEO 愛辦 All Hands(全員溝通大會),每周講 all in 短視頻。國內互聯(lián)網的朝氣蓬勃讓吳翼決定回國,那就留在字節(jié)嗎?2018 年的字節(jié)處在從傳統(tǒng)系統(tǒng)轉向深度學習的階段,用大規(guī)模神經網絡做搜推是個不錯的機會。但經歷過 2016 年 3000 人的字節(jié),面對 2018 年的字節(jié),吳翼覺得自己有很多想做的技術探索,尤其是強化學習方向,似乎在當時看來很難在一個大廠里實現(xiàn),而直接創(chuàng)業(yè)又沒有特別好的時機。琢磨一周后,吳翼人生中第一次冒出當老師的念頭,想在自己的課題組做強化學習。9 月,吳翼聯(lián)系了自己本科畢設老師徐葳,詢問是否有職位空缺,徐葳回復說有,并囑咐他盡快回國。10 月,吳翼從美國飛回北京參加面試,在飛機上趕完了最后一版 PPT。面試結束后,他進到姚期智院士的辦公室,一拿到合同就問簽字的位置,姚先生笑著告訴他,應該由自己先簽字。

就這樣,吳翼成了第一個在姚先生辦公室里就即刻簽約入職的“青椒”,也是第一個回姚班教書的姚班畢業(yè)生。吳翼認為,自己在學生時代的特點是涉獵比較廣泛,而強化學習又是一個很通用并且能把很多不同方向整合起立的框架,因此希望作為教師組建團隊后,同時推進語言注入、多智能體強化學習算法、機器人,最后實現(xiàn)一個完整的人機交互系統(tǒng)。“我的目標不是做一個機器人硬件,而是一個需要承載在硬件上做交互的大腦。”簽約清華后,吳翼跟姚先生提出在美國業(yè)界多待一年半再入職,姚先生爽快答應了。起初吳翼想去在學術界聲譽好且發(fā)表論文多的 Google Brain,面試后谷歌對吳翼也很滿意,不過由于吳翼坦誠只能干一年,headcount 緊張的谷歌需要花時間走內部流程。

與此同時,曾與吳翼合作過的 Bob McGrew 給他打電話,邀請他下周入職 OpenAI,吳翼希望多等谷歌一個月,Bob 也同意稍后再溝通。2018 年平安夜前一天,Bob 再次聯(lián)系吳翼,問他考慮得如何。吳翼便決定不等谷歌,去 OpenAI,就這樣成為了多智能體研究組的一員。在 OpenAI,吳翼加入了智能體玩捉迷藏的項目,讓智能體分成紅藍兩隊進行游戲。研究顯示,只用簡單的+1/-1獎勵機制和大規(guī)模的強化學習,智能體也能自行進化,掌握工具使用,并發(fā)展出六種不同的策略和對策。為了衡量智能體行為的復雜度,團隊還設計了五種測試,所有通過強化學習訓練的智能體在測試中都達到了最高分。這意味著,多智能體強化學習加上復雜的模擬環(huán)境可以產生類似人類的智能行為。此工作一經發(fā)布便獲得了大量關注,其官方視頻至今仍是 OpenAI 在 YouTube 播放量的榜首。

2019 年,吳翼一邊在 OpenAI 工作,一邊開始招首批博士生。一人做語言注入,強化學習加語言;一人做強化學習+機器人+控制;還有一人是電子系汪玉老師的博士生,和吳翼聯(lián)合指導,做多智能體學習。年末,Bob 在內部評審會時建議吳翼多待兩年,給他升職發(fā)股權,畢竟他入職時 OpenAI 還是個沒有股份的 NGO。吳翼卻覺得發(fā)股權對自己意義不大,還是得回清華當老師。

回到清華開始自己做機器人后,吳翼深刻體會到硬件之難,“以前伯克利路線是較 AI 驅動而非傳統(tǒng)硬件驅動,剛開始上真機踩了不少坑。”彼時吳翼的高中與伯克利師兄、時任字節(jié) AI Lab 總監(jiān)的李磊也想做 AI 機器人,和吳翼一拍即合,決定一起學習、踩坑。吳翼帶著學生李云飛和字節(jié)合作,從頭開始搭建了機械臂、足式機器人等軟硬件設施。經吳翼推薦,李云飛還到 Covariant 實習,讓段巖幫忙培訓培訓。最早回國的吳翼也是最早開始商業(yè)化嘗試的。2020 年在上海期智研究院成為項目負責人后,吳翼有了更大的探索空間,在姚先生的大力支持下,吳翼根據自己在 OpenAI 的經驗和自己的認知,想做全棧且和工程結合的研究,于是 2021 年在上海期智研究院組建了專注于大規(guī)模強化學習技術研究的科研團隊。

一次和網易的合作,吳翼發(fā)現(xiàn)團隊已具備充足的能力,就決定用商業(yè)化公司的方式最大化強化學習技術的商業(yè)影響力,恰好碰上疫情爆發(fā),封控結束后就遇上了大模型的浪潮?!斑€是很幸運吧,回顧以往,做的選擇都很隨機?!?023 年 5 月,吳翼團隊孵化成立了邊塞科技,目標是用強化學習為更多人創(chuàng)造更好的智能體驗在一眾伯克利博士+清華叉院教職的創(chuàng)業(yè)者里,邊塞科技是唯一不涉及機器人硬件的?!八惴?、應用、多模態(tài)融合以及硬件都很重要,”吳翼拆解自己的宏觀愿景,“但是人不能追求高而全,還是要先去最好自己擅長的事情,硬件的環(huán)節(jié)我不是專家,算法、成本、供應鏈都有很多要學習和探索的部分,因此就不在公司里面商業(yè)化運營了,機器人就研究院做技術研究?!钡诙€確定入職清華的是高陽。

2018 年,姚期智院士到伯克利招聘,和高陽簡單交流后熱情邀請他回國面試。此前高陽主要在美國面試公司,沒考慮過回國當老師,但既然有面試機會,便決定試一試。12 月 31 日,高陽在清華進行了兩場學術報告后的當晚,就收到了叉院 offer?;鹚俚绞值?offer 出乎了高陽的預料,經過 2 個月的深思熟慮,他決定拒絕 Waymo、Nuro、Aurora 等多家自動駕駛公司的 offer,回國教書。此時已是高陽博士生活的最后一年,自動駕駛在學術界能做的探索已基本完結,去到清華能做什么呢?回到伯克利,高陽參加了 Jitendra Malik 和 Alexei Efros 等多位視覺教授的組會,聊起人的智能如何進化而來的哲學問題。大家認為,五指靈巧手能進行復雜物理操作,為智能的發(fā)展提供了基礎,因此猴比貓狗智能;而貓狗之間,狗的群居特性促進了溝通的發(fā)展,使得狗與人社交時強于貓——因此,智能產生的本源,是和現(xiàn)實物理世界產生交互(與環(huán)境、與人類、與機器人本身)??吹骄呱碇悄茏鳛榇笥锌蔀榍疑刑幊跫夒A段,很自然地,高陽想到把自己做自動駕駛的技能轉到通用機器人上。

除了鉆研已久的感知外,為了繼續(xù)提高對決策的了解,高陽向 Pieter Abbeel 提出自己將去清華任教,計劃做機器人的研究,想先到他的組里做一年博士后,還分享了很多想做的題目。Pieter 也想把更高級的視覺技術引入強化學習里,便爽快答應了。在機器人領域,傳統(tǒng)的輸入并非基于純視覺信息/場景圖像,而是基于對物理世界的低維表征,例如物體的 XY 坐標。高陽與 Pieter 的合作便是針對從高維度的視覺數(shù)據中提取對決策有用的信息這項極具挑戰(zhàn)的工作,其中最知名的 Efficient Zero 項目更是將這一研究方向推向了極致,并提高強化學習的樣本效率。與喜歡在半小時內高強度輸出的 Sergey 不同,Pieter 則更關注宏觀層面,不討論具體技術細節(jié),而根據自己的經驗給出方向是否有前景的反饋。

適應了一陣后,高陽逐漸領悟到宏觀指導實際上是優(yōu)秀導師的理想狀態(tài),科研的品味與獨立性也得到了提升。2020 年 8 月,高陽入職清華叉院任助理教授,聚焦計算機視覺與機器人結合領域,探索強化學習在機器人領域的應用,讓機器人通過 “看” 操縱周圍事物。強化學習應用于現(xiàn)實世界需解決數(shù)據匱乏和缺少監(jiān)督信號兩大難題,高陽團隊也基于此開展了一系列工作,比如從2D人類視頻中學習機器人動作策略的 ATM、具身大模型框架 ViLa 和 CoPa 等。高陽想實現(xiàn)的終極場景是,在物理實體上實現(xiàn)科學研究中的算法,建立一個可以“用眼睛看”并服務于家庭場景的機器人,如告訴機器人“做一杯咖啡”,它就會走到咖啡機前,進行磨豆子、拉花等一系列操作。去年年中,在看到大模型和具身智能領域的變革后,高陽決定創(chuàng)業(yè)。他清楚具身智能產品必須是軟硬件結合的解決方案,自己雖有多年 AI 軟件經驗,但缺乏硬件和商業(yè)化背景,就開始尋找既懂硬件也懂機器人落地瓶頸的合伙人。在共友的牽線下,高陽結識了前珞石機器人 CTO 韓峰濤,后者有十余年機器人行業(yè)經驗,不僅很懂硬件,還做過 1000 多個落地場景,對于各場景的卡點到底在軟件還是硬件非常清楚。而韓峰濤也有創(chuàng)業(yè)打算,在找 AI 人才,兩人能力互補、一拍即合,便決定一起創(chuàng)業(yè)。

今年 2 月,千尋智能成立,做具身智能基座大模型,是國內少數(shù)選擇端到端技術路線的具身智能創(chuàng)企,選擇輪式+雙臂的方案。入局創(chuàng)業(yè)后,高陽對技術路徑與團隊協(xié)作也有了新的認識,在最近的兩次美國之行中,高陽還分別和 Deepak 與 Sergey 交流了 Skild AI 和 Physical Intelligence 的發(fā)展情況,還聊到了具身大模型的未來,包括其構建方法、面臨的挑戰(zhàn)以及所需的數(shù)據量等關鍵話題。

至于比吳翼、高陽小兩屆的許華哲,也在 2022 年夏天回到了清華。一年前,許華哲從伯克利畢業(yè),來到斯坦福的吳佳俊小組讀博士后。吳佳俊也對機器人很感興趣,彼時組里正在進行讓機器人捏橡皮泥、學會彈塑性物體操作任務的項目。過年期間,許華哲和好友包餃子慶祝春節(jié),突然意識到如果讓機器人學會餃子的世界模型,就能使一個機械臂獨立完成包餃子的步驟。于是,幾人搭好工具庫和廚房后,讓機器人隨機選擇工具與面團任意互動以采集數(shù)據。加上訓練的工具分類網絡、機器人策略網絡以及視覺反饋作為新的感知信息輸入,機器人能在有干擾的情況下使用工具包餃子,文章也被機器人學頂會 RSS 2022 所接收。

在斯坦福時,許華哲就拿到了叉院的 offer。剛回國時,許華哲發(fā)現(xiàn)具身智能的概念在國內很少人買賬,清華里研究機器人的依舊是以傳統(tǒng) MPC 等方法為主的自動化系。許華哲希望做出可以決策的機器人或智能體,便成立了自己的實驗室,在次年正式命名為具身智能實驗室,以包含視觸覺的機器人泛化靈巧操作和控制為長,也探索 DRL 在實際機器人復雜任務中的應用。許華哲支持學生們去嘗試各種奇思妙想,上課很有熱情,課堂教學評價常排在前 5%,被吳翼稱之為“經典的伯克利 Style”和“當老師的料”。他選擇加入星海圖的那天,恰逢十一假首日,正帶著組里的博士生去郊游。許華哲合流星海圖其實是個巧合:他看到具身智能的機會后想自己創(chuàng)業(yè),聽聞趙行已開始,便來咨詢心路歷程和時間節(jié)點。而星海圖在籌建期,趙行就拉上許華哲和高繼揚一起吃飯,大家聊得投機,想法高度契合,許華哲絲滑加入,負責帶領操作團隊,同樣采取輪式+雙臂的構型方案。

除了“葫蘆娃”三人外,MSC Lab 的陳建宇則在 2020 年末入職叉院。此時正值疫情爆發(fā),陳建宇在暑假的面試還得線上進行?;貒蟮那皟赡昀?,陳建宇除了延續(xù)無人駕駛的工作外,也開拓了包括機械臂、輪式、四足等多形態(tài)的機器人方向,并在 2022 年的春夏之交開始自己做人形,研究更通用的具身智能?!盁o人車的技術和產業(yè)格局已初步成型,所以想轉新的大方向?!睂﹃惤ㄓ疃裕谛骂I域做開創(chuàng)性工作吸引力太大,“我本科做過雙足,一直關注人形的動態(tài),當有了自己的課題組和研究資源,并花時間琢磨技術架構后,發(fā)現(xiàn)是可行的。”在實驗室研究雙足人形的陳建宇逐漸發(fā)現(xiàn)其具有能改變世界的產業(yè)價值,可改變世界不能僅靠在實驗室做 demo ,得借助更多商業(yè)化、產品化手段,而公司能吸納社會資本,招聘、股份激勵等更寬松。隨著小米、特斯拉等產業(yè)界代表的入局與 ChatGPT 的誕生,陳建宇意識到是時候了——2023 年 8 月,星動紀元創(chuàng)立。

涉獵過包括無人車等多種形態(tài)的機器人后,陳建宇認為,不同形態(tài)之間沒有本質上的區(qū)別,很多原理是相通的,但若想實現(xiàn)智能,必須一開始就做最終極的人形(雙手和雙腿),“可以在過程中輻射其他形態(tài),但不能從開始就降低天花板?!痹谟布矫?,業(yè)界對于如何制造高爆發(fā)力雙腿和靈巧手尚無統(tǒng)一的解決方案。陳建宇團隊就先從腿部開始,從前兩代的 MPC 逐步升級到 2023 年以強化學習為核心的步態(tài)行走網絡,讓機器人能在雪地、長城、戈壁灘等復雜路面上穩(wěn)定快速行走。至于手部設計,陳建宇選擇了一條與眾不同的路徑:縮小腿部關節(jié)應用在手部上,以實現(xiàn)更精細的操作和更高的靈活性。因此,他們的靈巧手為全驅動,擁有超過十個主動自由度,而特斯拉的手部僅有六個。

05、結語

回到 2017 年伯克利的深度強化學習課堂上,對于幾位中國 90 后而言,熱點方向緊密發(fā)生在身邊,可第一時間和作者們面對面交流切磋甚至參與其中,無疑是興奮與享受的。

彼時具身智能(Embodied Intelligence)還不是熱詞,機器人學習(Robot Learning)隨著深度學習范式的興起開啟了新的一頁,在感知有所突破后,AI 和 Robotics 開始雙向奔赴。他們隱隱感覺到:下個十年的機會來了。段巖、陳曦、張?zhí)旌啤且?、高陽、許華哲、陳建宇、湯特、羅劍嵐......從深度強化學習出發(fā)的伯克利一派,以先驅者之勢火速突破上層感知,讓機器人真正開始具備類人的學習能力。

更重要的是,在得益于 AI 之強勢時,他們也清楚地意識到硬件和底層控制的價值,無論是計算機系還是機械工程系,都在往交叉點靠攏,追求全棧式覆蓋。最合適沖浪的波浪周期為 8-16 秒,對于伯克利派系而言,深度強化學習的浪從十年前開始,站在浪尖上的他們,此刻正踏著具身智能的波峰,再望向下一朵浪。

關于具身智能領域的更多精彩群像故事,歡迎添加作者微信 anna042023 交流。

相關推薦

電子產業(yè)圖譜