作者|薛良Neil,郵箱|neilshen@pingwest.com
隨著大模型熱潮洶涌進(jìn)入一個(gè)新階段,有關(guān) AI Agent 的討論逐漸多了起來(lái)。簡(jiǎn)單來(lái)說(shuō),AI Agent 可以翻譯成智能體或者代理,研究者和科學(xué)家們?cè)O(shè)想,AI Agent 可以代替人處理更復(fù)雜的任務(wù),甚至摒棄掉 prompt 和基于大模型多重復(fù)雜的指令。
即使是同大模型本身比較起來(lái),有關(guān) AI Agent 的設(shè)想也頗具顛覆性,如果智能體真的能很好地理解和代替人來(lái)執(zhí)行指令,那么它的應(yīng)用場(chǎng)景幾乎是沒(méi)有窮盡的,它可能比所有一切技術(shù)都更接近 AGI,也就是通用人工智能。
在大模型技術(shù)上領(lǐng)先的 OpenAI同樣對(duì)AI Agent 十分感興趣,它們的首席科學(xué)家Ilya Sutskever不止一次表達(dá)過(guò)OpenAI 對(duì) AI Agent 技術(shù)的關(guān)注,事實(shí)上這一點(diǎn)頗為有趣,按照Ilya Sutskever自己的說(shuō)法, 強(qiáng)如OpenAI,在 AI Agent 技術(shù)方面也是同所有研究組織站在同一條起跑線上。
這對(duì)所有人來(lái)說(shuō)都意味著巨大的機(jī)會(huì)和增長(zhǎng)空間,尤其是在中國(guó)。硅星人在 10 月 31 日未來(lái)科技力 100 人系列專題直播對(duì)話的主題也由此確定。我們邀請(qǐng)到了瀾碼科技創(chuàng)始人兼CEO周健、億鑄科技創(chuàng)始人熊大鵬和Hugging Face工程師王鐵震三位嘉賓共同探討和 AI Agent 有關(guān)的一切。
其中,瀾碼科技是國(guó)內(nèi)最早致力于 AI Agent 相關(guān)技術(shù)和應(yīng)用研發(fā)和落地的公司,億鑄科技則聚焦于存算一體新架構(gòu)的 AI 算力芯片,Hugging Face 這不必多說(shuō),盡管還是個(gè)所謂“初創(chuàng)公司”,但它已經(jīng)成為全球著名的大模型托管平臺(tái)和技術(shù)討論社區(qū)了。
AI Agent 軟件范式的改變
瀾碼科技創(chuàng)始人兼CEO周健:從超級(jí)自動(dòng)化平臺(tái)的視角談?wù)摿?AI Agent 的巨大潛力。
“AI Agent 和大模型是什么關(guān)系?過(guò)去的系統(tǒng)負(fù)責(zé)感知,大模型是個(gè)知識(shí)系統(tǒng),AI Agent 更像是個(gè)行動(dòng)系統(tǒng),它像一個(gè)神經(jīng)中樞,跟真實(shí)環(huán)境交互,并且能夠把任務(wù)進(jìn)行拆解實(shí)現(xiàn)?!?/p>
“AI Agent 會(huì)有規(guī)劃模塊、記憶模塊、執(zhí)行模塊,并且因?yàn)樾枰m配上下文,它還要有一個(gè)很強(qiáng)的配置模塊?!?/p>
“AI Agent 的自動(dòng)化和過(guò)去的做法比起來(lái)最大的差別是什么呢?過(guò)去的 RPA低代碼很多時(shí)候比較僵硬,不能利用已有數(shù)據(jù)。而大語(yǔ)言模型提供了極其便宜的自然語(yǔ)言理解能力,也提供了一定的邏輯推理、思考能力。標(biāo)準(zhǔn)流程因此變得可執(zhí)行了。這一輪AI 大模型革命可以給企業(yè)內(nèi)部自動(dòng)化帶來(lái)顛覆性的變化,從過(guò)去解決重復(fù)勞動(dòng)問(wèn)題轉(zhuǎn)向解決業(yè)務(wù)質(zhì)量問(wèn)題,初級(jí)的員工能夠在專家賦能的 AI Agent 幫助下,去做更高級(jí)、高質(zhì)量的工作,從而提高整體行業(yè)的水平?!?/p>
大模型的算力代價(jià)
億鑄科技創(chuàng)始人熊大鵬分享了大模型浪潮對(duì)算力提出的巨大挑戰(zhàn),這種挑戰(zhàn)在 AI Agent 興起的大背景下顯得越發(fā)嚴(yán)峻。
“實(shí)際決定芯片有效性能的不僅僅是計(jì)算單元和核心,以及工作頻率到底有多高,還包括了在同一個(gè)計(jì)算單元里面用于數(shù)據(jù)搬運(yùn)和讀寫(xiě)所花費(fèi)的時(shí)間到底是多少。特別是對(duì)于 AI 芯片來(lái)說(shuō),數(shù)據(jù)搬運(yùn)和讀寫(xiě)所占的百分比達(dá)到了 90%甚至更多,這就意味著即使我們用更好的工藝堆疊更多的核心,如果不解決帶寬和時(shí)延問(wèn)題,算力的提升還是很有限的。從整個(gè)系統(tǒng)來(lái)看也是一樣的原理,不管是哪個(gè)公司的板卡,組成一個(gè)大的集群后,它的真實(shí)有效算力能夠提高到什么程度,很大程度上也取決于整個(gè)網(wǎng)絡(luò)的帶寬和時(shí)延,而不僅僅是 AI 加速卡本身的問(wèn)題?!?/p>
“存算一體架構(gòu)的芯片,它避免了大量的數(shù)據(jù)搬運(yùn),這樣使得端到端時(shí)延大大減少,在整個(gè)矩陣計(jì)算中,參數(shù)也沒(méi)有任何搬運(yùn)的需求,這意味著相比目前的芯片架構(gòu),存算一體芯片理論上數(shù)據(jù)搬運(yùn)量減少了一萬(wàn)倍以上,帶來(lái)了巨大的好處。同樣工藝和功耗情況下,億鑄科技的存算一體 AI 加速芯片裸算力相比傳統(tǒng)的馮·諾依曼架構(gòu)的芯片提升約 20 倍以上,有效算力提升達(dá)10 倍以上,這樣大模型構(gòu)建初期有關(guān)的投入和運(yùn)營(yíng)成本將會(huì)大幅減少?!?/p>
作為一條長(zhǎng)期賽道的 AI Agent
Hugging Face工程師王鐵震:我覺(jué)得針對(duì)什么是 AI Agent,現(xiàn)在也沒(méi)有形成一個(gè)非常明確的共識(shí)。我個(gè)人想法就是說(shuō)拿人類做一個(gè)類比,比如人類去思考一個(gè)事情,就是腦中想一下,然后出來(lái)一個(gè)答案。這個(gè)過(guò)程可能就跟prompt一下,大模型輸出一個(gè)結(jié)果是一樣的。但我們都知道,一些深思熟慮的想法不是靈光一閃就有答案的,你需要工具,比如拿筆把它記錄下來(lái);你需要有很多人大家一起去聊等等,經(jīng)過(guò)這些過(guò)程才有一個(gè)非常好的結(jié)果。
我覺(jué)得AI Agent也是一樣,你只是通過(guò)prompt,大模型的答案可能不夠好,如果你把一堆大模型弄到一起,用工具去做一些事情,從各個(gè)角度把問(wèn)題拆解,可能是比大模型本身去思考更智能的一種做法,我覺(jué)得AI Agent就是這種。
AI Agent讓大模型變得更聰明。
瀾碼科技創(chuàng)始人兼CEO周?。?/strong>AI Agent 是一個(gè)很長(zhǎng)期的賽道,瀾碼現(xiàn)在做的叫Task Oriented Agent,有更多自主性、多樣性、新穎性的 AI Agent 應(yīng)用,比如 AI for science、自動(dòng)駕駛,以及我們過(guò)去有所討論的具身智能等,它們也屬于 AI Agent,但不是現(xiàn)在這種框架可以解決的了。
總的來(lái)說(shuō),現(xiàn)在還是一個(gè)非常初級(jí)的階段,我覺(jué)得未來(lái)還有很長(zhǎng)的路要走,但可能性和想象空間是很大的。
億鑄科技創(chuàng)始人熊大鵬:我想 AI Agent 和通用智能大模型是相輔相成的,好的 AI Agent 可以讓通用智能大模型更聰明,某種程度上我覺(jué)得 AI Agent 是通用智能大模型的延伸,它可以針對(duì)某個(gè)具體的應(yīng)用、具體的功能做得非常深,擁有比通用智能更專精的能力。
AI Agent 與UI界面的演變
Hugging Face工程師王鐵震:20 年前大家覺(jué)得做一個(gè)網(wǎng)頁(yè)就是寫(xiě)幾個(gè) html 代碼,完全想象不到現(xiàn)在做一個(gè)網(wǎng)頁(yè)可以如此復(fù)雜,包含這么多的框架、代碼和交互。
AI Agent 也是如此,它和基礎(chǔ)模型之間的關(guān)系有時(shí)候是混合的,只是用戶能不能感知到而已。比如當(dāng)你去調(diào)用 ChatGPT 的時(shí)候,其實(shí)你不只是在調(diào)用一個(gè)大模型,而是它背后有很多不同的模型,有不同的工具,然后讓它們組合在一起給你了一個(gè)答案。
OpenAI 正明顯在往這個(gè)方向走去,它把所有的 plug-ins 功能都打開(kāi)了,你調(diào)用大模型的時(shí)候,它隨時(shí)可以去調(diào)去各種各樣的能力。因此并不一定說(shuō)要把大模型和 AI Agent 這兩個(gè)概念區(qū)分開(kāi)變得非常獨(dú)立,大模型首先需要強(qiáng)大到能夠利用 AI Agent 能力,然后通過(guò)它的能力在其他維度上擴(kuò)充功能。
瀾碼科技創(chuàng)始人兼CEO周健:我覺(jué)得AI Agent 會(huì)像是《鋼鐵俠》里的賈維斯,長(zhǎng)遠(yuǎn)來(lái)看它肯定會(huì)走到那一步的,也就是說(shuō),它的交互形式將會(huì)是多信道的。就像人和人之間的交流,用微信是一種方式,用語(yǔ)音是一種方式,用視頻或者面對(duì)面等有各種方式。
人們?yōu)槭裁葱枰鎸?duì)面聊天?因?yàn)槊鎸?duì)面包含了更多的信道,就比如我在說(shuō)話的時(shí)候,動(dòng)作、表情會(huì)傳遞許多不一樣的信號(hào)。AI的發(fā)展長(zhǎng)遠(yuǎn)來(lái)看也會(huì)做到這一點(diǎn),它將包括非常多的信息通道。
AI Agent是最近大家才會(huì)抽象出來(lái)指代一些事情的詞,之前業(yè)界更多會(huì)用copilot來(lái)形容,包括討論UI界面的變化,現(xiàn)在到底會(huì)變成 language UI 還是 conversation UI ?其實(shí)還不確定,但可以肯定的是它絕不僅僅局限在對(duì)話上,因?yàn)锳I Agent是有能力去生成代碼、生成表單的,從這個(gè)意義上來(lái)說(shuō),它代表了UI下一步的一種進(jìn)化。
當(dāng)然,它發(fā)展的過(guò)程中會(huì)遇到很多的困難。我們最近有一個(gè)內(nèi)部的討論,其中有一點(diǎn)我想可以拿出來(lái)和大家分享,那就是大語(yǔ)言模型訓(xùn)練的時(shí)候用到的很多語(yǔ)料是關(guān)于 “what” 和“why”的,很少有人會(huì)在互聯(lián)網(wǎng)上寫(xiě)“How”,也就是說(shuō)大家很少把分析的過(guò)程寫(xiě)出來(lái),而往往只是給到結(jié)果。相比之下,只有代碼這部分比較好地寫(xiě)出了“how”,所以從這個(gè)意義上來(lái)講,目前大模型能力上還有很多缺失的部分。
AI Agent?會(huì)引發(fā)新一輪的算力暴漲嗎?
億鑄科技創(chuàng)始人熊大鵬:具有通用智能特性的完整大模型在云端,相當(dāng)于人的大腦,而中腦和小腦,也就是AI Agent會(huì)落在本地,它可能是一個(gè)經(jīng)過(guò)裁剪之后的大模型,能夠和云端的完整大模型協(xié)同和互動(dòng),具體執(zhí)行的時(shí)候則依靠自己本地的算力。
也就是說(shuō),算力可能在邊緣設(shè)備,也就是端側(cè)設(shè)備上同樣出現(xiàn)暴漲。
AI Agent應(yīng)用在何處?
Hugging Face工程師王鐵震:我覺(jué)得游戲場(chǎng)景是一個(gè)非常典型的應(yīng)用,把多個(gè)智能體放進(jìn)去,每個(gè)智能體有自己的想法,可以進(jìn)行交互。這比用一個(gè)大模型生成整個(gè)完整的游戲體驗(yàn)可能效果會(huì)好很多。當(dāng)然我們需要注意多樣性的問(wèn)題,如果每個(gè)模型都大差不差的話,可能最終的體驗(yàn)并不會(huì)特別好。
總的來(lái)說(shuō),AI Agent 實(shí)際上是大模型的一個(gè)延伸,現(xiàn)在用大模型做的不好的事情,將來(lái)用 AI Agent 可能會(huì)更好。比如寫(xiě)代碼,現(xiàn)在 ChatGPT 能寫(xiě)出大概 10 行、20 行的無(wú)錯(cuò)代碼,但最近我們看到比如 ChatDev 這樣的 AI Agent,它用一個(gè)完整的模擬人類開(kāi)發(fā)流程的方式分工合作去生成代碼,同樣是用 ChatGPT,協(xié)作之后寫(xiě)出來(lái)的代碼它更符合人類的要求,bug 更少。這就是 AI Agent 的應(yīng)用場(chǎng)景,從這個(gè)角度講,現(xiàn)在所有運(yùn)用大模型的地方,只要滿足算力的需求我們其實(shí)都可以用 AI Agent 來(lái)代替,它將有非常廣闊的前景。
瀾碼科技創(chuàng)始人兼CEO周?。?/strong>我們的精力主要集中在To B端,現(xiàn)在看下來(lái)。即使是GPT4在通用性上還有很多問(wèn)題,但在一個(gè)限定的、具體的領(lǐng)域,比如出差場(chǎng)景,無(wú)非就是調(diào)用日歷、郵箱、微信、機(jī)票和酒店等,讓AI Agent做你的差旅安排其實(shí)是容易的。
目前在限定的場(chǎng)景中,ToB端的專業(yè)場(chǎng)景它是會(huì)比人強(qiáng)的。更遠(yuǎn)一些的東西我想可能需要一些時(shí)間。
大模型向左,AI Agent向右
Hugging Face工程師王鐵震:現(xiàn)在很多開(kāi)源模型做 AI Agent 效果是比較差的,因?yàn)橛?xùn)練大模型的過(guò)程,更多的是為了“生成”這個(gè)目的,這與AI Agent的目的——分析理解問(wèn)題、拆解然后處理的邏輯是整個(gè)不一樣的。
生成的內(nèi)容出現(xiàn)一些錯(cuò)誤是很正常的現(xiàn)象,但如果你把一個(gè)任務(wù)、一個(gè)問(wèn)題拆解錯(cuò)了,那它最后給到的結(jié)果可能完全就跑偏了,這里面包含的控制難度實(shí)際上是非常不一樣的。
不同公司對(duì)這些方向有不同的選擇,但有一種意見(jiàn)是,使用工具的能力或許比生成一個(gè)故事更能代表智能的本質(zhì),實(shí)際上OpenAI就是這種思路,因此才把所有的工具都集合在了ChatGPT中。
如果一個(gè)模型,一方面它參數(shù)足夠多,具備強(qiáng)大的推理和分析能力;另一方面它又能有很好的算力支持,成本足夠低。我覺(jué)得這個(gè)世界的未來(lái)將會(huì)變得很不一樣。
標(biāo)題及部分觀點(diǎn)引用自:《Chat 向左,Agent 向右》https://zhuanlan.zhihu.com/p/662704254