作者|薛良Neil,郵箱|neilshen@pingwest.com
隨著大模型熱潮洶涌進入一個新階段,有關(guān) AI Agent 的討論逐漸多了起來。簡單來說,AI Agent 可以翻譯成智能體或者代理,研究者和科學(xué)家們設(shè)想,AI Agent 可以代替人處理更復(fù)雜的任務(wù),甚至摒棄掉 prompt 和基于大模型多重復(fù)雜的指令。
即使是同大模型本身比較起來,有關(guān) AI Agent 的設(shè)想也頗具顛覆性,如果智能體真的能很好地理解和代替人來執(zhí)行指令,那么它的應(yīng)用場景幾乎是沒有窮盡的,它可能比所有一切技術(shù)都更接近 AGI,也就是通用人工智能。
在大模型技術(shù)上領(lǐng)先的 OpenAI同樣對AI Agent 十分感興趣,它們的首席科學(xué)家Ilya Sutskever不止一次表達過OpenAI 對 AI Agent 技術(shù)的關(guān)注,事實上這一點頗為有趣,按照Ilya Sutskever自己的說法, 強如OpenAI,在 AI Agent 技術(shù)方面也是同所有研究組織站在同一條起跑線上。
這對所有人來說都意味著巨大的機會和增長空間,尤其是在中國。硅星人在 10 月 31 日未來科技力 100 人系列專題直播對話的主題也由此確定。我們邀請到了瀾碼科技創(chuàng)始人兼CEO周健、億鑄科技創(chuàng)始人熊大鵬和Hugging Face工程師王鐵震三位嘉賓共同探討和 AI Agent 有關(guān)的一切。
其中,瀾碼科技是國內(nèi)最早致力于 AI Agent 相關(guān)技術(shù)和應(yīng)用研發(fā)和落地的公司,億鑄科技則聚焦于存算一體新架構(gòu)的 AI 算力芯片,Hugging Face 這不必多說,盡管還是個所謂“初創(chuàng)公司”,但它已經(jīng)成為全球著名的大模型托管平臺和技術(shù)討論社區(qū)了。
AI Agent 軟件范式的改變
瀾碼科技創(chuàng)始人兼CEO周健:從超級自動化平臺的視角談?wù)摿?AI Agent 的巨大潛力。
“AI Agent 和大模型是什么關(guān)系?過去的系統(tǒng)負責(zé)感知,大模型是個知識系統(tǒng),AI Agent 更像是個行動系統(tǒng),它像一個神經(jīng)中樞,跟真實環(huán)境交互,并且能夠把任務(wù)進行拆解實現(xiàn)?!?/p>
“AI Agent 會有規(guī)劃模塊、記憶模塊、執(zhí)行模塊,并且因為需要適配上下文,它還要有一個很強的配置模塊?!?/p>
“AI Agent 的自動化和過去的做法比起來最大的差別是什么呢?過去的 RPA低代碼很多時候比較僵硬,不能利用已有數(shù)據(jù)。而大語言模型提供了極其便宜的自然語言理解能力,也提供了一定的邏輯推理、思考能力。標(biāo)準流程因此變得可執(zhí)行了。這一輪AI 大模型革命可以給企業(yè)內(nèi)部自動化帶來顛覆性的變化,從過去解決重復(fù)勞動問題轉(zhuǎn)向解決業(yè)務(wù)質(zhì)量問題,初級的員工能夠在專家賦能的 AI Agent 幫助下,去做更高級、高質(zhì)量的工作,從而提高整體行業(yè)的水平?!?/p>
大模型的算力代價
億鑄科技創(chuàng)始人熊大鵬分享了大模型浪潮對算力提出的巨大挑戰(zhàn),這種挑戰(zhàn)在 AI Agent 興起的大背景下顯得越發(fā)嚴峻。
“實際決定芯片有效性能的不僅僅是計算單元和核心,以及工作頻率到底有多高,還包括了在同一個計算單元里面用于數(shù)據(jù)搬運和讀寫所花費的時間到底是多少。特別是對于 AI 芯片來說,數(shù)據(jù)搬運和讀寫所占的百分比達到了 90%甚至更多,這就意味著即使我們用更好的工藝堆疊更多的核心,如果不解決帶寬和時延問題,算力的提升還是很有限的。從整個系統(tǒng)來看也是一樣的原理,不管是哪個公司的板卡,組成一個大的集群后,它的真實有效算力能夠提高到什么程度,很大程度上也取決于整個網(wǎng)絡(luò)的帶寬和時延,而不僅僅是 AI 加速卡本身的問題。”
“存算一體架構(gòu)的芯片,它避免了大量的數(shù)據(jù)搬運,這樣使得端到端時延大大減少,在整個矩陣計算中,參數(shù)也沒有任何搬運的需求,這意味著相比目前的芯片架構(gòu),存算一體芯片理論上數(shù)據(jù)搬運量減少了一萬倍以上,帶來了巨大的好處。同樣工藝和功耗情況下,億鑄科技的存算一體 AI 加速芯片裸算力相比傳統(tǒng)的馮·諾依曼架構(gòu)的芯片提升約 20 倍以上,有效算力提升達10 倍以上,這樣大模型構(gòu)建初期有關(guān)的投入和運營成本將會大幅減少。”
作為一條長期賽道的 AI Agent
Hugging Face工程師王鐵震:我覺得針對什么是 AI Agent,現(xiàn)在也沒有形成一個非常明確的共識。我個人想法就是說拿人類做一個類比,比如人類去思考一個事情,就是腦中想一下,然后出來一個答案。這個過程可能就跟prompt一下,大模型輸出一個結(jié)果是一樣的。但我們都知道,一些深思熟慮的想法不是靈光一閃就有答案的,你需要工具,比如拿筆把它記錄下來;你需要有很多人大家一起去聊等等,經(jīng)過這些過程才有一個非常好的結(jié)果。
我覺得AI Agent也是一樣,你只是通過prompt,大模型的答案可能不夠好,如果你把一堆大模型弄到一起,用工具去做一些事情,從各個角度把問題拆解,可能是比大模型本身去思考更智能的一種做法,我覺得AI Agent就是這種。
AI Agent讓大模型變得更聰明。
瀾碼科技創(chuàng)始人兼CEO周?。?/strong>AI Agent 是一個很長期的賽道,瀾碼現(xiàn)在做的叫Task Oriented Agent,有更多自主性、多樣性、新穎性的 AI Agent 應(yīng)用,比如 AI for science、自動駕駛,以及我們過去有所討論的具身智能等,它們也屬于 AI Agent,但不是現(xiàn)在這種框架可以解決的了。
總的來說,現(xiàn)在還是一個非常初級的階段,我覺得未來還有很長的路要走,但可能性和想象空間是很大的。
億鑄科技創(chuàng)始人熊大鵬:我想 AI Agent 和通用智能大模型是相輔相成的,好的 AI Agent 可以讓通用智能大模型更聰明,某種程度上我覺得 AI Agent 是通用智能大模型的延伸,它可以針對某個具體的應(yīng)用、具體的功能做得非常深,擁有比通用智能更專精的能力。
AI Agent 與UI界面的演變
Hugging Face工程師王鐵震:20 年前大家覺得做一個網(wǎng)頁就是寫幾個 html 代碼,完全想象不到現(xiàn)在做一個網(wǎng)頁可以如此復(fù)雜,包含這么多的框架、代碼和交互。
AI Agent 也是如此,它和基礎(chǔ)模型之間的關(guān)系有時候是混合的,只是用戶能不能感知到而已。比如當(dāng)你去調(diào)用 ChatGPT 的時候,其實你不只是在調(diào)用一個大模型,而是它背后有很多不同的模型,有不同的工具,然后讓它們組合在一起給你了一個答案。
OpenAI 正明顯在往這個方向走去,它把所有的 plug-ins 功能都打開了,你調(diào)用大模型的時候,它隨時可以去調(diào)去各種各樣的能力。因此并不一定說要把大模型和 AI Agent 這兩個概念區(qū)分開變得非常獨立,大模型首先需要強大到能夠利用 AI Agent 能力,然后通過它的能力在其他維度上擴充功能。
瀾碼科技創(chuàng)始人兼CEO周?。?/strong>我覺得AI Agent 會像是《鋼鐵俠》里的賈維斯,長遠來看它肯定會走到那一步的,也就是說,它的交互形式將會是多信道的。就像人和人之間的交流,用微信是一種方式,用語音是一種方式,用視頻或者面對面等有各種方式。
人們?yōu)槭裁葱枰鎸γ媪奶??因為面對面包含了更多的信道,就比如我在說話的時候,動作、表情會傳遞許多不一樣的信號。AI的發(fā)展長遠來看也會做到這一點,它將包括非常多的信息通道。
AI Agent是最近大家才會抽象出來指代一些事情的詞,之前業(yè)界更多會用copilot來形容,包括討論UI界面的變化,現(xiàn)在到底會變成 language UI 還是 conversation UI ?其實還不確定,但可以肯定的是它絕不僅僅局限在對話上,因為AI Agent是有能力去生成代碼、生成表單的,從這個意義上來說,它代表了UI下一步的一種進化。
當(dāng)然,它發(fā)展的過程中會遇到很多的困難。我們最近有一個內(nèi)部的討論,其中有一點我想可以拿出來和大家分享,那就是大語言模型訓(xùn)練的時候用到的很多語料是關(guān)于 “what” 和“why”的,很少有人會在互聯(lián)網(wǎng)上寫“How”,也就是說大家很少把分析的過程寫出來,而往往只是給到結(jié)果。相比之下,只有代碼這部分比較好地寫出了“how”,所以從這個意義上來講,目前大模型能力上還有很多缺失的部分。
AI Agent?會引發(fā)新一輪的算力暴漲嗎?
億鑄科技創(chuàng)始人熊大鵬:具有通用智能特性的完整大模型在云端,相當(dāng)于人的大腦,而中腦和小腦,也就是AI Agent會落在本地,它可能是一個經(jīng)過裁剪之后的大模型,能夠和云端的完整大模型協(xié)同和互動,具體執(zhí)行的時候則依靠自己本地的算力。
也就是說,算力可能在邊緣設(shè)備,也就是端側(cè)設(shè)備上同樣出現(xiàn)暴漲。
AI Agent應(yīng)用在何處?
Hugging Face工程師王鐵震:我覺得游戲場景是一個非常典型的應(yīng)用,把多個智能體放進去,每個智能體有自己的想法,可以進行交互。這比用一個大模型生成整個完整的游戲體驗可能效果會好很多。當(dāng)然我們需要注意多樣性的問題,如果每個模型都大差不差的話,可能最終的體驗并不會特別好。
總的來說,AI Agent 實際上是大模型的一個延伸,現(xiàn)在用大模型做的不好的事情,將來用 AI Agent 可能會更好。比如寫代碼,現(xiàn)在 ChatGPT 能寫出大概 10 行、20 行的無錯代碼,但最近我們看到比如 ChatDev 這樣的 AI Agent,它用一個完整的模擬人類開發(fā)流程的方式分工合作去生成代碼,同樣是用 ChatGPT,協(xié)作之后寫出來的代碼它更符合人類的要求,bug 更少。這就是 AI Agent 的應(yīng)用場景,從這個角度講,現(xiàn)在所有運用大模型的地方,只要滿足算力的需求我們其實都可以用 AI Agent 來代替,它將有非常廣闊的前景。
瀾碼科技創(chuàng)始人兼CEO周?。?/strong>我們的精力主要集中在To B端,現(xiàn)在看下來。即使是GPT4在通用性上還有很多問題,但在一個限定的、具體的領(lǐng)域,比如出差場景,無非就是調(diào)用日歷、郵箱、微信、機票和酒店等,讓AI Agent做你的差旅安排其實是容易的。
目前在限定的場景中,ToB端的專業(yè)場景它是會比人強的。更遠一些的東西我想可能需要一些時間。
大模型向左,AI Agent向右
Hugging Face工程師王鐵震:現(xiàn)在很多開源模型做 AI Agent 效果是比較差的,因為訓(xùn)練大模型的過程,更多的是為了“生成”這個目的,這與AI Agent的目的——分析理解問題、拆解然后處理的邏輯是整個不一樣的。
生成的內(nèi)容出現(xiàn)一些錯誤是很正常的現(xiàn)象,但如果你把一個任務(wù)、一個問題拆解錯了,那它最后給到的結(jié)果可能完全就跑偏了,這里面包含的控制難度實際上是非常不一樣的。
不同公司對這些方向有不同的選擇,但有一種意見是,使用工具的能力或許比生成一個故事更能代表智能的本質(zhì),實際上OpenAI就是這種思路,因此才把所有的工具都集合在了ChatGPT中。
如果一個模型,一方面它參數(shù)足夠多,具備強大的推理和分析能力;另一方面它又能有很好的算力支持,成本足夠低。我覺得這個世界的未來將會變得很不一樣。
標(biāo)題及部分觀點引用自:《Chat 向左,Agent 向右》https://zhuanlan.zhihu.com/p/662704254