男女拍拍免费视频60分钟,最新看片国产精品免费在线

作者 | 陳鷺伊，編輯 | 岑? ?峰

“強化學習讓大模型具有了思考能力，大模型為強化學習提供了更開闊的思路。”?

在當今大模型推動的新一波人工智能的快速發(fā)展浪潮中，大模型和強化學習技術(shù)的結(jié)合成為研究和產(chǎn)業(yè)界的焦點。尤其最近OpenAI最新模型o1的發(fā)布，強化學習成為o1的靈魂，更是印證了強化學習的潛力。

大模型憑借其強大的數(shù)據(jù)處理能力，為強化學習提供了豐富的知識。這種結(jié)合不僅極大地擴展了人工智能在處理復雜問題上的能力，也為強化學習帶來了更深層次的洞察力和更高效的決策過程。

強化學習，作為優(yōu)化決策的一種方法，能夠通過與環(huán)境的交互學習最佳行為策略。而大模型則為這一過程提供了必要的背景知識和先驗信息，使得強化學習算法能夠更快地收斂，更有效地處理未見過的新情況。然而，新技術(shù)的發(fā)展同樣帶來了挑戰(zhàn)。例如，如何利用大模型的知識拓展強化學習的泛化能力，提升強化學習在復雜決策場景中的策略性能，以及如何保證模型的可解釋性。近期，南洋理工大學安波教授團隊的一篇論文《TWOSOME: An Efficient Online Framework to Align LLMs with Embodied Environments via Reinforcement Learning》上線期刊《International Journal of Artificial Intelligence and Robotics Research》（IJAIRR）。

該論文提出了一個名為TWOSOME的框架，旨在通過強化學習（RL）將大型語言模型（LLMs）與具身環(huán)境（embodied environments）對齊，以解決決策任務(wù)。

圍繞該論文所討論的強化學習與大語言模型、具身環(huán)境相結(jié)合的研究，雷峰網(wǎng)舉辦的「大模型時代的強化學習」線上研討會，匯集了南洋理工大學安波、南京大學俞揚、華為諾亞方舟實驗室/天津大學郝建業(yè)、清華大學許華哲等行業(yè)專家。他們的見解覆蓋了從基礎(chǔ)理論研究到產(chǎn)業(yè)應(yīng)用實踐，為我們提供了一個全面而深入的視角，以洞察這一領(lǐng)域的最新發(fā)展和未來趨勢。

在本次研討會中，安波教授深入分析了大模型對于強化學習的意義，并對這一技術(shù)的未來發(fā)展進行了展望；分享了他對大模型時代強化學習的看法，包括大模型給強化學習帶來的機遇和挑戰(zhàn)，并主持了整個討論。

俞揚教授基于給定的問題進行了深入拓展，特別強調(diào)了世界模型的重要性，他認為構(gòu)建準確的世界模型是實現(xiàn)真正智能決策的關(guān)鍵。他強調(diào)了強化學習在實際應(yīng)用中的重要性和挑戰(zhàn)，并通過在工業(yè)界應(yīng)用強化學習的實際案例，討論了如何利用強化學習優(yōu)化復雜的決策過程。

郝建業(yè)教授指出了大模型中強化學習的作用，包括安全對齊和人類價值觀對齊，并分享了強化學習技術(shù)在推薦系統(tǒng)、游戲AI、工業(yè)軟件優(yōu)化以及自動駕駛等領(lǐng)域的應(yīng)用，以及大模型技術(shù)如何幫助強化學習解決一些傳統(tǒng)優(yōu)化問題等。

許華哲教授，以他在具身智能領(lǐng)域的前沿研究為基礎(chǔ)，展示了強化學習如何使機器人更加智能化，分享了他在具身智能領(lǐng)域的研究，特別是強化學習在機器人步態(tài)優(yōu)化和Minecraft等環(huán)境中的創(chuàng)新應(yīng)用。

以下為本次圓桌對話全文，限于篇幅，雷峰網(wǎng)-AI科技評論進行了不改原意的編輯：

安波：AI 科技評論以及雷峰網(wǎng)線上的朋友們，大家晚上好，歡迎參加今天晚上我們這個網(wǎng)絡(luò)研討會。今天我們這個題目叫大模型時代的這個強化學習，我叫安波，來自南洋理工大學，我將主持今天晚上的研討會。關(guān)于這個題目我稍微說兩句。強化學習這個方向最近十多年尤其在Alphago 之后是一個比較火的方向，差不多我們可以看到 Deepmind 的整個公司，估計早期 100% 都在干這個東西，這些年來每年都有很多非常轟動的成果。無論是Alphago，還有 AlphaFold ，最近的應(yīng)用于大模型的RLHF，都是跟強化學習相關(guān)的。當然我們也不可避免地存在很多挑戰(zhàn)，尤其是之前有人一直在抱怨，好像（強化學習）很多都是以打游戲這樣的場景為主，真正的在現(xiàn)實工業(yè)的落地場景還不夠多。我們今天晚上另一個話題是大模型，大家都知道這是這兩年最火的方向。最近也出現(xiàn)了很多工作來結(jié)合這兩個方向，這也是我們今晚討論的話題。今天晚上我們很榮幸地邀請到了三位嘉賓。南大的俞揚老師，是強化學習方面有很多有影響力的成果，他同時也在做強化學習落地的一些研究和應(yīng)用。還有郝建業(yè)老師，來自天津大學，同時他又是華為諾亞決策智能實驗室的主任。華為諾亞這幾年做了很多強化的一些研究，都是在郝老師的領(lǐng)導下進行。最后是清華大學許華哲老師，許老師更多的做具身智能的研究。這三位老師既在一線做前沿研究，同時也深入技術(shù)應(yīng)用與落地。就接下來我會邀請三位老師分別做一個簡短的自我介紹。然后接下來我們會問各位老師我們提前準備好的幾個問題，然后最后我們會進入與觀眾的互動環(huán)節(jié)，現(xiàn)在請俞老師、郝老師和許老師分別做個自我介紹。

俞揚：大家好，感謝安老師的邀請。我是來自南京大學的俞揚，大概在13、14年前我博士畢業(yè)后，就一直在研究強化學習。近幾年主要在做離線強化學習，就是強化學習怎么樣能夠更好用一些。

郝建業(yè)：大家好，感謝安老師邀請，我的主要研究方向是強化學習和多智能體系統(tǒng)。過去幾年主要圍繞強化學習以及學習優(yōu)化技術(shù)如何在產(chǎn)業(yè)界落地，做了不少的嘗試。過去兩年也比較關(guān)注大模型，包括強化學習如何助力大模型和基于大模型的具身智能方向。

許華哲：大家好，我是許華哲，目前是清華大學交叉信息研究院的助理教授，今天也是特別榮幸受到安老師的邀請。我的研究方向主要是具身智能，這是一個很大的概念，會使用各種學習的研究工具，而強化學習是里面我覺得是未來最廣闊，或者是未來最有前途的方法之一。我在強化學習方面的工作主要分兩個部分，一個部分就是仍然持續(xù)地提升強化學習的sample efficiency樣本效率。我們希望它做得足夠高效，讓它可以在真實世界去實施。第二件事，就是說在這個基礎(chǔ)上，我希望讓機器人可以在不僅在仿真，而且還可以在現(xiàn)實世界去做強化學習，從而讓強化學習真正落地到這個機器人這個領(lǐng)域，或者具身智能這個領(lǐng)域。

01、強化學習：成功應(yīng)用與關(guān)鍵作用

安波：我首先想請教各位老師一個問題，各位老師都在一線從事強化學習的研究以及落地，有哪些強化學習的成功案例讓您感到激動？并請談?wù)勊鼈冊诟髯灶I(lǐng)域的推動作用。從俞揚老師開始。

俞揚：我覺得關(guān)于強化學習的成功應(yīng)用，首先需要明確我們?nèi)绾味x"成功"。自AlphaGo戰(zhàn)勝人類以來，強化學習領(lǐng)域受到了廣泛關(guān)注。實際上，強化學習的應(yīng)用非常廣泛，包括工業(yè)界的一些案例。比如說我們和這個美團合作的項目，現(xiàn)在應(yīng)該已經(jīng)是在全國能夠鋪開。那么我們在美團每下一個訂單，每點一次外賣，都由我們強化學習的模型在做出決策。這對我們來說是一個重要的應(yīng)用案例，它展示了強化學習的實際應(yīng)用。但是在社會層面上，這種應(yīng)用可能沒有引起太大的宣傳效應(yīng)，或者說我們說給強化學習的研究生們創(chuàng)造飯碗的這個效應(yīng)可能沒有那么強。

如果從能夠產(chǎn)生很多工作崗位的這個角度來說，我覺得這個可能最典型的成功案例就是用在大模型的RLHF，我們也做了一些工作?？赡苡型瑢W了解， RLHF 還有其他路線的競爭，包括這個監(jiān)督學習的路線的競爭。但是我們的研究表明，監(jiān)督學習的方法得到的結(jié)果比強化學習的要差一些。包括我們自己的一些畢業(yè)生，也有去做大模型的 RLHF 的這個崗位。我觀察到，強化學習現(xiàn)在變得更加的成熟，逐漸地在越來越多的場景里面能夠更多的能夠用起來，至于它用起來產(chǎn)生的社會效益是否轟動可能還不太好去評價。

郝建業(yè)：剛剛俞老師提到強化學習在推薦領(lǐng)域的應(yīng)用，我覺得可能是深度強化學習出現(xiàn)之后最火的應(yīng)用場景之一。另外一個就是游戲， Game AI ，很多游戲公司包括網(wǎng)易、騰訊其實有很多應(yīng)用，包括現(xiàn)在游戲背后的NPC，很多都是強化學習訓練的結(jié)果。此外我想舉兩個可能不太常見的例子，一是工業(yè)界的軟件優(yōu)化，比如說 EDA 的芯片設(shè)計這塊，它本身有很多非常復雜的多目標時序優(yōu)化問題，過去幾年，我們嘗試把強化學習應(yīng)用在這個領(lǐng)域，當然不僅僅是強化學習，還包含一些其他的優(yōu)化技術(shù)的組合，但強化學習在里面發(fā)揮一個比較關(guān)鍵的作用，實現(xiàn)比較復雜約束和搜索空間非常大的情況下的優(yōu)化問題。

另一個例子是自動駕駛。比如在自動駕駛的關(guān)鍵博弈場景中嘗試應(yīng)用強化學習，實現(xiàn)類人的博弈策略，提升自動駕駛車輛在復雜路況下的通行效率。大模型方面剛剛俞老師也提到了，我們過往經(jīng)驗發(fā)現(xiàn)，強化學習不僅僅像最開始OpenAI提出，用 RLHF 來做安全的對齊，它還可以在大模型的全鏈或者全棧的基礎(chǔ)能力提升中發(fā)揮關(guān)鍵的作用。

從理論上看，PPO、DPO等算法的優(yōu)化的這個范式和標準的SFT 是不一樣的，可以發(fā)揮一些 SFT 無法實現(xiàn)的能力，可以幫助我們在這個預訓練到 SFT之后的后訓練階段發(fā)揮更加關(guān)鍵的作用。此外，具身智能也是一個值得關(guān)注的領(lǐng)域。目前，這一領(lǐng)域正處于一個百花齊放的發(fā)展階段，但我覺得，未來無論是在線的還是離線的強化學習，在整個具身智能能力構(gòu)建的全階段，無論從數(shù)據(jù)的獲取到預訓練，再到跟環(huán)境交互的 RLHF，都可以發(fā)揮非常關(guān)鍵的作用?？偟膩碚f，強化學習作為一種通用優(yōu)化工具，是一套非常有效的方法，可以幫助我們在各種復雜決策場景中提升策略性能。

安波：謝謝郝老師，有請許老師分享一下。

許華哲：我的觀察主要在我做得比較多的機器人領(lǐng)域，特別是強化學習用在機器人里面的 Local Motion，就是步腿式機器人或叫足式機器人的步態(tài)優(yōu)化上面。自2019年ETH的機械狗使用強化學習方法成功爬山和越過障礙物以來，這一技術(shù)已經(jīng)衍生出許多創(chuàng)新，包括CMU和清華大學在機械狗跑酷方面的研究。后面催生出來的雙足機器人也通過強化學習來進行步態(tài)控制。我覺得這是強化學習在具身智能和機器人領(lǐng)域的一個巨大的應(yīng)用。這件事的重要性在于，強化學習基本上從研究上確定了SIM to Real 這件事，在步態(tài)控制這件這個方向上面是可以落地的，是可以真正用在現(xiàn)實中的商用的機器人上面。

從商業(yè)的角度，這樣一個技術(shù)創(chuàng)造了大量的工作崗位，現(xiàn)在那么多的機器人創(chuàng)業(yè)公司，幾乎每一個公司都有一個強化學習小組專門研究控制機器人的下肢。此外，我還注意到了lyft用強化學習去優(yōu)化出租車和網(wǎng)約車調(diào)度的情況，這可能也適用于國內(nèi)的滴滴或者美團。剛才郝老師說，強化學習作為一個非常強的優(yōu)化器，甚至有的時候叫Superhuman，超過人類的優(yōu)化器，能夠在我們認為已經(jīng)達到極限的地方進一步優(yōu)化，為公司節(jié)省大量成本。盡管這種應(yīng)用還沒有廣泛鋪開，但已經(jīng)展示了強化學習在未來發(fā)展中的潛力。

02、大模型與強化學習的結(jié)合：技術(shù)突破與應(yīng)用前景

安波：謝謝各位老師的精彩分享。從早期的推薦系統(tǒng)到最近的大模型結(jié)合強化學習（RLHF），可能是這幾年就說強化學習跟大模型結(jié)合比較成功的一個地方。俞老師和我之前與滴滴有過主要基于強化學習的合作，這些應(yīng)用今天仍然非常有價值。郝老師提到了EDA，這可能與華為的一些項目落地有關(guān)。具身智能也是一個重要領(lǐng)域。接下來我們進入今晚的核心議題：大模型與強化學習的融合。大模型基于大量的數(shù)據(jù)進行訓練，具備了通才的能力，許多人開始利用大模型作為系統(tǒng)的"大腦"，完成以前無法實現(xiàn)的任務(wù)。在大模型與強化學習的結(jié)合方面，也有很多工作，例如解決強化學習中的一些問題。我的第二個問題是，請各位老師分享一下，在大模型加持下，強化學習解決了哪些問題，以及近年來這個領(lǐng)域有哪些重大進展，尤其是在過去一年多里，大模型的加入給強化學習帶來了哪些顯著成果。我們稍微改變一下順序，先請許老師開始分享。

許華哲：雖然我不是做大模型的，對大模型相對來說了解不是那么深入，但我也聽說了很多強化學習與大模型結(jié)合帶來的好處，比如說大家都知道最典型的 RLHF （強化學習中的人類偏好反饋），通過讓人類評估的偏好指標來指導大模型的輸出，用強化學習使得它輸出的東西不僅正確、通暢的，而且還是人類喜歡和期待看到的。

我們看到大模型有兩個特點：第一，它總是（基于自己的知識）很客觀積極地回答問題；第二，它傾向于分點闡述，如1、2、3、4。這在一定程度上反映了RL的作用，即分點闡述的重要性。大家平時聽別人匯報工作還是給別人匯報工作，都可以感受到分點是非常重要的，很顯然標注員也是這樣的偏好，RL成功地找到了優(yōu)化方式，使大模型能夠像人類一樣給出答案。此外，我認為大模型跟強化學習還有更深層次的結(jié)合潛力。以我們自己的一個項目為例，RLHF不僅可以作為一個通用的優(yōu)化器，還可以 learning from others，還可以通過學習其他大模型來提升自身能力。這在某種程度上是一種知識蒸餾的過程，除了通過監(jiān)督學習進行蒸餾外，還可以通過RL來蒸餾其他模型，從而補全和增強大模型的能力。

安波：我再稍微深入問一下，許老師在 Minecraft （游戲：我的世界）上做了很多工作，能否分享一下大模型在解決Minecraft中的復雜問題方面帶來的變化？

許華哲：大模型展現(xiàn)了優(yōu)秀的規(guī)劃能力，例如，在Minecraft中，當你問它如何獲取一個鉆石時，它能夠提供詳細的步驟。它通過閱讀網(wǎng)上的攻略，觀看網(wǎng)上的視頻和學習網(wǎng)上各種文字論述，它會告訴你你要先有一個鋤頭，然后挖掘一種特定的黑色礦石，再把這個礦石通過什么方式升級成鉆石等等。這里最常用的一種方法是，利用大模型做頂層的 Planner （規(guī)劃器），然后底層的執(zhí)行可能由強化學習或者其他的Controller（控制器）完成。另一種方式是大模型以VLA（視覺語言代理），直接輸出底層動作來完成任務(wù)。這方面還在一個研究的初始階段，并沒有一個特別成熟的方案。介于這兩者之間的方法是，大模型輸出中間表征或中間狀態(tài)，這種中間狀態(tài)不是簡單的指令，而是具體的指導，如在地圖上標記一個框，指導玩家前往并挖掘。這種中間表征能有效解決 Long Horizon 長距離的任務(wù)，這是傳統(tǒng)強化學習難以處理的問題。

安波：謝謝許老師，郝老師請分享

郝建業(yè)：談到大模型對強化學習的幫助，我們可能先從以前做強化學習包括深度強化目前面臨的問題來談起。傳統(tǒng)強化學習主要在特定環(huán)境下使用，挑戰(zhàn)在于如何快速地以Online 的方式學習到適應(yīng)當前任務(wù)的策略。這通常需要事先對問題進行一個很好的任務(wù)定義，包括MDP（馬爾可夫決策過程）的構(gòu)建，包括狀態(tài)和獎勵函數(shù)怎么定義。獎勵函數(shù)的設(shè)計對于訓練結(jié)果至關(guān)重要，需要大量的人工的介入，這是以前強化學習的一大挑戰(zhàn)。大模型的出現(xiàn)為這些問題提供了解決方案。

首先，大模型可以自動化評估獎勵函數(shù)，這是目前一些研究工作的重點。包括在具身領(lǐng)域，例如Eureka項目，利用大模型來自動化地提供一個比較好的獎勵函數(shù)，使強化算法在任意的環(huán)境下更加高效和自動化地和環(huán)境交互，學習到好的策略。這是大模型在獎勵函數(shù)設(shè)計方面提供的新手段。其次在表征方面，以前需要精細設(shè)計以提升策略的泛化性，包括去學習到一個比較好的表征來去提升策略的泛化性?；趖ransformer的大模型架構(gòu)，給我們提供了一個新的思路，我們可以借鑒語言大模型的思路，如果有大量不同決策任務(wù)的數(shù)據(jù)，可以訓練出具有強泛化性的決策函數(shù)（policy/task extended value function）。這對于強化學習來說，是一個新的思路。

如果我們有海量的不同決策場景的高質(zhì)量數(shù)據(jù)，那我們是否可以類似于大模型一樣預訓練一個從SFT，到RLHF、RLEF（RL From Environment Feedback）的全鏈條的、面向決策領(lǐng)的通用決策大模型？大模型對于強化學習的一個啟示是可能會顛覆我們現(xiàn)在對決策領(lǐng)域的認知，可以借鑒語言大模型的思路去實現(xiàn)決策領(lǐng)域的通用大模型，這可能是未來探索的重要方向。最后一點剛剛其實俞老師也提到，大模型本身具備對世界的良好認知，所以它可以幫助我們做一些比較復雜的上層任務(wù)的拆解，然后底層配合基于強化學習的控制，去實現(xiàn)一些更加復雜的物理開放環(huán)境下的決策能力。

安波：請俞老師分享。

俞揚：我們討論的問題是語言模型對強化學習的幫助。首先我想闡明的一點是，強化學習它是一個任務(wù)，它不是一個具體的技術(shù)方法。我們要解決的是一類多步?jīng)Q策的問題，這一類問題我們把它做強化學習的問題，也就是說我們首先面對的是一個決策問題，可能采用多種不同的決策的技術(shù)，如運籌規(guī)劃。這種多步的和環(huán)境交互的這種決策可以歸到強化學習這一類任務(wù)，它不是通過數(shù)學定義的一個式子，而是要和環(huán)境進行交互從樣本中學習，它并不是說某一種很具體的算法所代表的技術(shù)。強化學習面臨的挑戰(zhàn)在于，就是我們今天看到的所有強化學習成功的案例，都是非常特別的應(yīng)用案例，非常專注解決一個很具體的一個問題，如下圍棋。一旦下圍棋的模型訓練出來后，這個模型本身是不能去解決其他問題，這顯示了強化學習的通用性不足。我們希望強化學習能解決多種問題尤其是多步?jīng)Q策的問題，主要面臨兩個方面的挑戰(zhàn)，首先，技術(shù)門檻較高，對強化學習概念和算法的理解要求高，可能比其他領(lǐng)域更高。其次，在應(yīng)用水平上也有更高要求。這些要求之所以高，是因為強化學習處理的是決策問題。如果觀察其他決策任務(wù)，如運籌規(guī)劃，會發(fā)現(xiàn)應(yīng)用常局限于特定行業(yè)。

例如，我們設(shè)計了很多運籌規(guī)劃的算法，但從企業(yè)層面，這種應(yīng)用經(jīng)常往往固定在某些領(lǐng)域，如特定行業(yè)的排班排產(chǎn)。這在一定程度上是由決策本身的性質(zhì)造成的，決策結(jié)果的要求通常非常高，與預測類問題不同，大模型這個語言輸出錯了還可以再改一下，但是決策類的問題，質(zhì)量的輸出的要求會很高，因為決策錯誤的代價可能很大。因此在實際應(yīng)用中，需要結(jié)合領(lǐng)域知識和專業(yè)背景，達到一定水平才能有效應(yīng)用。我們發(fā)現(xiàn)，要滿足決策應(yīng)用，強化學習的通用性通常不足。大語言模型火了一年多、快要接近兩年，它帶來的幫助主要體現(xiàn)在其學習了大量數(shù)據(jù)，展現(xiàn)出較好的通用性。這種通用性有潛力彌補強化學習在通用性方面的不足。

這里的“潛質(zhì)”意味著大語言模型有可能幫助強化學習擴展其通用性，盡管面臨的挑戰(zhàn)依然很大。首先我們看到語言模型本身正朝著智能體（agent）方向發(fā)展。在智能體領(lǐng)域，大多數(shù)任務(wù)都是決策類的，因此也會面臨決策任務(wù)的挑戰(zhàn)。決策任務(wù)與語言生成任務(wù)是兩個完全不同的任務(wù)，只不過我們是希望語言模型能夠再往前走一步，去執(zhí)行決策任務(wù)。

目前，智能體的應(yīng)用還未達到理想的效果，因為它涉及到?jīng)Q策任務(wù)。一旦涉及到?jīng)Q策任務(wù)以后，由于它天然的這種對于決策準確度的這個要求，對決策準確度的要求自然提高。語言模型之所以受歡迎，一方面是因為它在應(yīng)用上的要求較少，主要作為人的輸出輔助，將語言輸出給人，再由人進行加工。這種輔助性行為在人不懂的地方表現(xiàn)得非常好。但當我們真正需要解決決策問題時，面臨的挑戰(zhàn)是人的專業(yè)性，通常需要專家來做出決策。智能體需要至少達到專家的水平，很多時候我們甚至要求它比專家做得更好，才能在實際中得到應(yīng)用。這種在任務(wù)性質(zhì)上存在的天然的差別，讓我對今天的語言大模型是不是真的能夠幫助強化學習拓展它的通用性持一定的懷疑態(tài)度。

例如，在Minecraft中表現(xiàn)出色的示例，我們?nèi)グl(fā)展一個技術(shù)，希望它有一定的智能的能力，那么我們一定是希望能夠控制他的這個能力，我們要知道這個能力從哪來，這個能力是怎么形成的？如果他不具有一個能力的話，我們怎么能夠讓他加強？如果他這個能力超出我們的這個希望他能做的這個范圍，以后我們怎么去控制他？

目前的語言模型似乎難以控制，換句話說我們不清楚它究竟能解決什么問題。以 Minecraft 為例，我們認為它表現(xiàn)好可能是因為網(wǎng)絡(luò)上有相關(guān)攻略。能夠通過語言模型來引入知識。但如果面對沒有見過的問題，沒有知識儲備的問題，例如NP是否等于P，模型如何應(yīng)對？這個東西是沒有答案的，那么他怎么來做？我們?nèi)绻Ｍ哂凶鲞@做一個新的任務(wù)的知識的時候，我們該怎么組織一些語料給他？目前，這些問題還沒有系統(tǒng)性的答案。這導致我們在解決問題時缺乏一套方法論?，F(xiàn)在的方法似乎是，如果語言模型表現(xiàn)好，問題就能解決；如果模型表現(xiàn)不佳，我們就束手無策。我認為這不是一種科學的解決問題的方式。我認為目前的方案尚未形成一個完整的體系。

進一步討論涉及到所謂的智能核心是什么。一些人可能認為智能以語言模型為核心，但從生物學角度來看，只有人類具備完整的語言能力，但并非只有人類擁有智能；或者一些失去語言能力的人仍然具有智能。大腦結(jié)構(gòu)中，語言所占的部分非常小。所以語言模型它是不是智能的核心呢？當然目前還沒有結(jié)論。我們也在探索強化學習，特別是決策相關(guān)的模型?？赡懿粌H僅是強化學習策略模型，還包括世界模型。我們還在探索其他類型的模型，在探索這些以其他模型為核心的時候，我們希望強化學習的語言模型能幫助提取其通用背景知識能力。目前，我們正嘗試從大型語言模型，甚至多模態(tài)模型中提取知識，將其融入我們的策略模型或世界模型中，使我們的行動模型真正具備更好的通用解決問題的能力。

03、未來展望：潛在突破與當前瓶頸

安波：謝謝俞老師，他進一步提出了大語言模型是否通向通用人工智能道路等更開放的問題。從剛才各位老師的分析來看，大家都基本認同大語言模型至少在某些任務(wù)上提升了強化學習的能力。例如，之前無法用強化學習或其他方法完成的任務(wù)，現(xiàn)在借助大語言模型廣泛的基礎(chǔ)知識，提高了效率，解決了之前無法完成的工作，等等。當然，還有很多基礎(chǔ)問題，比如大語言模型是否是實現(xiàn)智能的正確道路，以及強化學習的方向，一直存在爭議。有人質(zhì)疑語言模型的正確性，對強化學習也有不同看法。盡管存在爭議，但大模型的引入無疑解決了之前無法解決的問題。我個人認為，重要的是解決問題，而不是爭論哪個是最終解決方案。我們應(yīng)該避免只有批評沒有建設(shè)性建議的情況。這也是Yann Lecun攻擊Gary Marcus的時候的觀點。

接下來，我們按計劃討論第三個問題。

假設(shè)大語言模型或基礎(chǔ)模型對未來的強化學習有幫助，您認為未來一到兩年可能在哪些領(lǐng)域出現(xiàn)突破性進展？目前的瓶頸在哪里，我們能做些什么實現(xiàn)巨大突破？關(guān)于大模型與強化學習結(jié)合前景的展望，哪些問題值得大家研究？我們還是按照剛才的順序，請許老師先開始。

許華哲：關(guān)于未來的展望，我覺得剛剛郝老師聊到的一個方向還遠遠沒有做透，即如何利用大模型提供監(jiān)督信號或引導來輔助強化學習。我們在實踐中遇到許多問題，比如大模型反饋速度慢，最快可能只有三赫茲，而強化學習通常需要密集的獎勵信號，可能我需要這個每一步都有一個Reward，在這種情況下，如何讓大模型提供足夠的反饋以支持強化學習，實現(xiàn)無需人工設(shè)計獎勵函數(shù)的訓練？因為強化學習被這個批評的一個點就是人工設(shè)計的部分很多，我要抓一個小物塊，那我也需要把距離，然后把這種各種懲罰都寫到獎勵函數(shù)里，那這套東西能不能真的完全的高頻的靠大模型給出？這是一個非常有意思的課題。另外因為我也做一些跟機器人相關(guān)的工作，我認為使用強化學習微調(diào)大模型，使其能夠執(zhí)行動作，也是一個有趣的點。

目前，視覺語言代理（VLA）是一個熱門話題，它能夠?qū)D像和語言輸入并直接輸出動作。VLA 展示出的泛化能力特別好，遇到新的具身，它可能只需要少量數(shù)據(jù)甚至零樣本就能遷移過去。但我們發(fā)現(xiàn)VLA在簡單任務(wù)上表現(xiàn)良好，而在更復雜的任務(wù)上往往失敗。VLA蘊含大量知識，能否用強化學習像調(diào)整Lora一樣調(diào)整VLA，使其自動輸出正確的動作，將大模型作為強化學習的一個基礎(chǔ)，這也是我認為很有意思的一個方向。在決策方面，我們之前也嘗試用大模型與強化學習聯(lián)合解決一些有趣的問題，如旅行商問題或在三維空間拼圖，這些都是NP-hard問題。單靠 RL 可能復雜度非常高，然后單靠大模型可能只能給出一個近似正確或者直覺的一個解，我們嘗試讓大模型提供直覺，然后讓強化學習在直覺附近進行優(yōu)化，我們已經(jīng)做了一些初步的嘗試。

安波：謝謝許老師，許老師剛剛更多的講的是其他的 RL 與大模型結(jié)合，用 RL 來Finetune大模型，或者大模型來幫助 RL 訓練，比如我們之前看到幾個月前伯克利的Digit RL 之類的工作，應(yīng)該是屬于這個思路。下一位是郝老師。

郝建業(yè)：首要任務(wù)是利用強化學習（RL）提升大模型的技術(shù)能力。許老師剛才也提到，根據(jù)我們自己的經(jīng)驗和業(yè)界公開信息來看，在整個后訓練階段，除了監(jiān)督式微調(diào)（SFT）之外，RLHF（強化學習中的人類偏好反饋）可以發(fā)揮更關(guān)鍵的作用。特別是，RLHF可以與SFT深度融合，通過多輪迭代，在后訓練階段全方位提升大模型的基礎(chǔ)能力。我們認為，RL技術(shù)在這方面可以發(fā)揮越來越重要的作用，具有SFT不可替代的優(yōu)勢。

另外，大模型與RL的結(jié)合面向未來廣義智能體（Agent）的應(yīng)用場景，無論是虛擬的智能體，如App智能體、Web智能體，包括數(shù)據(jù)科學智能體（Data Science Agent），甚至未來可能出現(xiàn)的操作系統(tǒng)級智能體，幫助人類操控APP，實現(xiàn)與虛擬世界的復雜交互需求。還有面向具身場景的，如何讓機器人在與物理世界的交互中持續(xù)自我演進，RL在這里可以發(fā)揮非常關(guān)鍵的作用。如何讓智能體具有持續(xù)自我演進的能力，RL技術(shù)在未來廣義的智能體技術(shù)演進中將發(fā)揮非常關(guān)鍵的作用。

安波：俞老師怎么看？

俞揚：關(guān)于強化學習與大語言模型結(jié)合的未來和可能的突破，我們目前觀察到無論是語言模型還是多模態(tài)模型，它們通常缺少一個關(guān)鍵元素，即行動（action）。我們的決策并不包含在輸入中，因為文字就是文字，圖像和文字經(jīng)過編碼后混合在一起。如果行動的輸入被納入模型，我們更愿意稱其為世界模型，即通過每一步的不同決策引導模型朝不同方向發(fā)展。其實世界模型是一個老話題，但今年Sora的出現(xiàn)，因為它自稱為世界模擬器（World Simulator），使得世界模型這個詞變得非常熱門。

然而，我們還沒有看到一個完整的技術(shù)路線來構(gòu)建世界模型，因為它與現(xiàn)有的語言模型和多模態(tài)模型不同，當我們的決策也要輸入到模型中時，帶來了一個非常大的變量。決策是一個自由變量，可以任意變化，我們的模型需要能夠預知任意變化的決策會帶來什么樣的未來，這是一個極具挑戰(zhàn)的任務(wù)。Yann LeCun也一直強調(diào)這一點，他從ChatGPT剛出現(xiàn)時就開始批評它無法做決策，因為現(xiàn)有的預測器結(jié)構(gòu)無法構(gòu)建事件模型，因為它沒有行動，沒有決策。如果我們想象我們能夠構(gòu)建一個模型，對任何給定的決策都能準確預知未來，那么我們所謂的全L5級全自動自動駕駛可能就能實現(xiàn)，能夠執(zhí)行各種服務(wù)任務(wù)的服務(wù)機器人、人形機器人也可能成真。所以至少我個人覺得，世界模型是我們追求的東西，在技術(shù)體系中是一個非常缺失的環(huán)節(jié)。技術(shù)上，如何將決策加入模型，對各種不同決策，甚至是數(shù)據(jù)中未見過的決策，能夠給出準確的響應(yīng)，是一個值得我們深入研究的問題。

在前沿研究中，專門解決行動輸入問題的研究并不多。目前的嘗試與大語言模型技術(shù)類似，主要是針對數(shù)據(jù)進行訓練。DeepMind在嘗試構(gòu)建世界模型時發(fā)現(xiàn)，僅憑高質(zhì)量的數(shù)據(jù)訓練是不夠的，因為數(shù)據(jù)只能展示一種決策，或者是相似的一些決策能夠帶來什么樣的結(jié)果。對于不同的決策，尤其是數(shù)據(jù)中未出現(xiàn)的決策，其結(jié)果無從得知，這就造成了決策維度的數(shù)據(jù)缺乏。而這種數(shù)據(jù)的缺乏，用當前構(gòu)建和收集大數(shù)據(jù)的技術(shù)手段可能無法解決。以下圍棋為例，圍棋每一步的走法都是一個決策，如果都要收集，光圍棋這一件事情，那么產(chǎn)生的數(shù)據(jù)量將遠超現(xiàn)有數(shù)據(jù)。

因此，在缺乏數(shù)據(jù)的情況下，如何提高模型的泛化能力，使其能夠預測不同決策的后果，是一個需要進一步研究的重要方向，也是我們正在探索的方向。另外，Yann LeCun最近討論了強化學習與MPC（模型預測控制）的對比。他所指的強化學習是非常狹義的，即只能通過與環(huán)境的交互來學習。而他所說的MPC，廣義上講，就是世界模型。實際上，我們所做的大部分強化學習都可以歸為MPC類別。因此，他們在Twitter上的爭論，關(guān)于經(jīng)典強化學習是否必須通過試錯來學習，對于我們這些強化學習研究者來說，并不是一個需要爭論的問題。

04、探索強化學習的邊界：開放性問題與挑戰(zhàn)

安波：感謝各位老師的深入討論。俞老師最后提到了從語言模態(tài)出發(fā)是否能解決所有問題，以及數(shù)據(jù)空間的問題。我個人認為，我們需要世界模型，但由于數(shù)據(jù)缺乏，我們無法獲得。但強化學習的探索能力，我們可以與環(huán)境交互,基于當前的感知，似乎是解決數(shù)據(jù)缺乏問題的一種方式。我們將進入最后一個更開放的話題，我希望我們可以更開放地展望強化學習的未來前景，大家可以更自由地發(fā)表意見。

比如可以質(zhì)疑強化學習是否是正確的范式。如果是，未來將面臨哪些挑戰(zhàn)？有哪些未解決的問題？哪些方向值得我們關(guān)注？或者存在哪些瓶頸？我們還是從許老師開始。

許華哲：首先我一直認為，雖然強化學習的方法可能不一定完全正確，但問題定義本身無疑是正確的，我們正在解決的問題肯定是在正確的軌道上。我目前最關(guān)心的是真實世界的強化學習，即我們是否能找到一系列機器人任務(wù)，使其能在真實世界中進行交互，就像我們學習打網(wǎng)球或者做飯一樣，無論是通過給 Demonstration 的方式，還是從模擬器里面去學的方式，但最終在真實世界部署后還能繼續(xù)提升自身。這當然是許多研究者和觀眾朋友所關(guān)注的，他們可能認為強化學習在真實世界中的樣本效率太低，幾乎是天方夜譚。但事實上，我們?nèi)栽谂μ剿鬟@一領(lǐng)域。

其次，我非常感興趣的是，能否通過強化學習優(yōu)化出一些更有趣的，類似于生物進化的效果。大模型在某種意義上是直接跳過了所有的發(fā)展規(guī)律，將人類的數(shù)據(jù)堆砌給機器，讓機器去擬合這些數(shù)據(jù)。而強化學習則更像是允許機器去試錯和發(fā)展，在這個過程中，它可能會發(fā)展出一套與傳統(tǒng)大模型學到的不同的、更適合機器的智能。我覺得這是一個非常有趣的方向。例如，如果我們想讓機器人跑得更快，如果我們只是讓它學習人類數(shù)據(jù)，它可能最多只能達到博爾特的水平。但如果我們讓它通過強化學習自行探索，它可能發(fā)展出某種神奇的跑法，跑得比人類更快。如果我們有一個足夠精確的模擬器來模擬世界的一部分，那么它很可能可以衍生出一套屬于機器自己的智能，這也是一個值得探索的有趣領(lǐng)域。

安波：謝謝許老師，有請郝老師。

郝建業(yè)：如果我們單獨看待強化學習，它其實就是一種比較通用的優(yōu)化工具或技術(shù)。但我們希望通過不同優(yōu)化手段的組合，針對特定領(lǐng)域的實際問題，形成一套通用的優(yōu)化解決方案，這是我們的最終目標。所以我覺得無論是強化學習，還是傳統(tǒng)演化學習、貝葉斯優(yōu)化等其他優(yōu)化方法，它們之間具有很強的互補性。我們可以將這些方法有機組合，實現(xiàn)優(yōu)勢互補，幫助解決復雜優(yōu)化問題，無論是生成高質(zhì)量數(shù)據(jù)還是提供在線快速自我學習和演進的能力，都能發(fā)揮非常關(guān)鍵的作用。

因此，大模型和強化學習是互補的。大模型提供了更開闊的思路，我們借助高效的優(yōu)化方法組合，針對特定問題實現(xiàn)解決復雜通用優(yōu)化問題的能力。這個領(lǐng)域未來的發(fā)展空間非常大。另外，關(guān)于強化學習效率低的問題，我們可以類比人的成長過程。嬰兒通過與周圍人的交流進行預訓練，類似于大語言模型的預訓練，以及通過觀察周圍事物進行多模態(tài)預訓練。更重要的是，嬰兒從出生開始就通過手和腳去認識世界，如果大家有小孩就會注意到，他們喜歡抓各種物體，撕各種東西，通過自我學習的反饋，經(jīng)過多年的學習，才形成了成人非常靈活的抓取能力。成人之后，進行復雜精細的操作也需要持續(xù)的交互學習。和人類相比，目前算法的樣本效率是比較低的，我們可以利用強大的算力和仿真技術(shù)來彌補這一問題。通過類似于分身的概念，智能體可以并行地與虛擬環(huán)境交互，讓智能體快速復制經(jīng)驗，并通過強化學習手段快速提升能力。隨著大模型技術(shù)、算力和仿真技術(shù)的進步，仿真的真實度越來越高，未來有望實現(xiàn)面向特定領(lǐng)域的通用決策模型。

安波：感謝郝老師的分享。郝老師探討了多種技術(shù)的融合，克服了訓練效率等問題，您能否分享一些關(guān)鍵領(lǐng)域，以及如何利用強化學習作為核心技術(shù)？能否透露一兩個方向，比如現(xiàn)在正在探索的一些問題？

郝建業(yè)：舉個例子，我們做 EDA 的一些優(yōu)化問題和一些智能體的場景，包括具身的場景，現(xiàn)在其實最重要的或者對性能影響最大因素是高質(zhì)量數(shù)據(jù)。高質(zhì)量數(shù)據(jù)的來源有幾個方面：一是歷史上人類或?qū)＜依鄯e的大量數(shù)據(jù)；二是通過仿真合成數(shù)據(jù)。有了數(shù)據(jù)后，通過離線方式訓練出具有一定泛化能力的預訓練模型。然后通過在線交互接觸更多的corner case，實現(xiàn)持續(xù)的自我演進。無論是自動駕駛、企業(yè)工業(yè)軟件優(yōu)化，還是智能體，這都是一套具有通用性的優(yōu)化范式，可以沿著這個方向不斷推進，提升能力邊界。

安波：謝謝郝老師，談到這個數(shù)據(jù)的問題，也請俞老師展望一下未來的挑戰(zhàn)或者前景。

俞揚：我認為強化學習本質(zhì)上是一個解決問題的工具，包括強化學習、運籌規(guī)劃等技術(shù)已經(jīng)發(fā)展了很長時間，并且已經(jīng)相當成熟。成熟到何種程度呢？如果我們面對的是一個非常明確的封閉問題，例如中等規(guī)模的游戲，那十有八九人類是打不過強化學習訓練出的智能體的。我們面臨的挑戰(zhàn)是開放世界的挑戰(zhàn)，即我們面對的是一個未知的世界，這個世界中有太多不確定性。在這樣的環(huán)境下，我認為核心挑戰(zhàn)在于如何定義我們在開放世界中要完成的任務(wù)。

這個定義不能由人來完成，因為一旦定義，它就變成一個封閉的任務(wù)。那么我們就可以使用現(xiàn)有的求解器，包括強化學習和其他技術(shù)來求解。所以，我認為關(guān)鍵在于如何定義問題。未來在自動駕駛、具身智能等領(lǐng)域，我們面對任務(wù)后能否迅速將當前環(huán)境和任務(wù)定義為一個封閉場景，然后用現(xiàn)有技術(shù)解決，這是我們正在努力的方向。前面提到的世界模型，就是希望它能夠做到這一點。至于數(shù)據(jù)，我始終認為數(shù)據(jù)越多越好，在同等技術(shù)條件下，我們能夠?qū)崿F(xiàn)的效果肯定是越好的。但從智能的根本上講，智能不應(yīng)該僅僅通過大量數(shù)據(jù)堆砌形成，我們應(yīng)該探索如何提升算法和模型的“智商”，而不僅僅是大量喂食數(shù)據(jù)。當然，這是一個實現(xiàn)途徑，在同等智商條件下，題目越多越好。但能否用少量數(shù)據(jù)就能獲得高智商的智能體，就像人類一樣，雖然一生中接觸的數(shù)據(jù)有限，但都能具有相當高的智力，這是我們希望長期能夠接近的目標。

安波：俞老師今天晚上多次提到世界模型，我想問一下你們最近在這方面有什么新進展嗎？比如在特定領(lǐng)域，你們正在開發(fā)的模擬器等。

俞揚：我們目前在南棲仙策主要聚焦于工業(yè)環(huán)境。我們開發(fā)了一些技術(shù)，能夠從較少的數(shù)據(jù)中還原世界模型。一旦世界模型被還原，決策就不再是問題。因為它不需要與真實場景交互，不需要試錯。我之前提到的與美團合作的項目，能夠在全國推廣，也是基于世界模型的思路。因為在決策維度上，我們面對的數(shù)據(jù)永遠是不足的。一旦能夠構(gòu)建出優(yōu)秀的世界模型，就能幫助我們找到更好的決策路徑。我認為這條路線非常重要。盡管現(xiàn)在大家的注意力都被大模型技術(shù)所吸引，都在關(guān)注如何擴展（scaling），但我們還是希望模型能變得更智能，不必消耗太多資源就能解決問題。

安波：感謝俞老師的分享。今晚的討論讓我們觸及了許多核心問題，包括語言模型的邊界、強化學習的邊界，以及究竟哪條路線是正確的。這些問題沒有完全探討透徹，現(xiàn)在可能現(xiàn)在很難得到明確的答案，但有一點可以肯定，隨著技術(shù)的積累和進步，我們正逐步解決一些過去無法解決的問題，我們也欣喜地看到，在工業(yè)和許多場景中，這些技術(shù)已經(jīng)被證明是可行和有用的，越來越多的人認識到這些技術(shù)的潛力，并且正在積極參與其中。

有觀眾提出了一個問題，是否可以通過多智能體強化學習與大模型的結(jié)合來提升大語言模型處理復雜決策任務(wù)的能力，如果可以，可能從哪些角度進行結(jié)合？目前看來，這種結(jié)合可能主要還是與單個智能體強化學習相關(guān)。前幾年，多智能體強化學習是一個非常熱門的領(lǐng)域，但自從大語言模型興起后，這一領(lǐng)域的熱度明顯下降，大家的注意力轉(zhuǎn)移到了大語言模型上。目前，我們還沒有看到多智能體強化學習與大模型的結(jié)合的成功例子。就像許老師剛才提到的，RL與大模型的結(jié)合還有很長的路要走，目前更多的是利用大模型的規(guī)劃能力和知識。至于用RL微調(diào)或訓練大模型，這方面的工作似乎也不是特別多。不知道各位老師是否有補充，或者是否有碰到這樣的應(yīng)用案例？郝老師，您是否有想要分享的經(jīng)驗？

郝建業(yè)：我想補充一點，過去半年到一年，我們安排了一些學生專門研究多智能體建模技術(shù)是否能夠提升大模型的技術(shù)能力，比如推理能力。我們看到一些比較火的技術(shù)，如XOT，都是基于樹或圖搜索的方法，探索多智能體方法是否能在其中發(fā)揮獨特作用。目前我們的階段性發(fā)現(xiàn)是，這種作用可能并不大。無論是通過談判、促進或賦予不同角色的方式，嘗試通過組裝來提升大模型的通用能力，雖然確實有一些增益，但并不明顯，可能還會帶來額外的計算成本。我們也有博士生在面向特定領(lǐng)域的特定問題上進行研究，比如基于現(xiàn)有的大模型能力，是否可以通過多智能體建模方法，賦予不同角色處理復雜問題，從各自角色角度進行推理，然后將推理結(jié)果進行聚合分析，希望能形成一個更好的結(jié)論。這樣的思路目前看會有一些增益，但增益并不顯著。這肯定不是一個最終結(jié)論，我們還在持續(xù)探索更好的多智能體建模方法與大模型結(jié)合的方式，以提升大模型的技術(shù)能力或在特定領(lǐng)域的表現(xiàn)。這仍是一個值得持續(xù)探索的方向。

安波：感謝各位今晚的參與。隨著今晚的在線網(wǎng)絡(luò)研討會接近尾聲，我有一種感覺，我們還有很多話題沒有深入探討。這可能因為時間的限制，但隨著技術(shù)的發(fā)展和更多的實際應(yīng)用，我們會對這些問題有更清晰的認識。

，我想插播一則消息。對于我們今天晚上未能充分討論的話題，我們誠摯邀請大家在今年12月來新加坡繼續(xù)我們的探討。12月，我們將在新加坡舉辦下一屆分布式人工智能會議，這將是一個高水平的交流平臺。我們的Keynote Speaker包括著名的Richard Sutton，他很少出國，但今年將會親臨新加坡。此外，我們還有Sergey Levine等其他杰出的演講者，他是強化學習領(lǐng)域非?；钴S的研究者。雖然他沒有時間來新加坡，但他會進行線上演講分享他的見解。我們還邀請了顏水成老師等其他著名科學家，并將舉辦AI agent day。今晚在座的三位老師屆時也將來新加坡來與大家深入交流。今晚的交流就到這里，我相信未來我們還有更多機會深入討論這些話題。有一點非常明確，那就是強化學習無疑是實現(xiàn)未來人工智能的重要途徑之一。我們不討論它是否唯一，但它絕對是一個重要方向，越來越多的人正在參與其中。在過去幾年人工智能取得的重要進展中，包括最近的RHLF，我們都看到了強化學習的貢獻。

今晚的網(wǎng)絡(luò)分享會到此結(jié)束。期待未來有機會再次與各位交流。感謝各位的參與，也感謝三位老師的分享，以及AI科技評論和雷峰網(wǎng)的組織和支持。謝謝大家。