分享嘉賓|寧鯤鵬 元空AI技術(shù)聯(lián)合創(chuàng)始人
在過去一年里,AI話題熱度持續(xù)升溫,在大模型百家爭鳴的今天,涌現(xiàn)出分門別類的人工智能體,誰會是下一個風(fēng)口?本文從“ Web Agent?自動化解決方案”和“北大Open Sora生成能力增強(qiáng)”為各位帶來AI技術(shù)前瞻。
01、Web Agent自動化解決方案
我們希望讓 AI 成為真正的生產(chǎn)力,利用 Agent 幫我們干活,幻想中最完美的畫面,就是流程中有 Master Agent,發(fā)起任意需求,他會去幫你生成一系列工作流。比如投后診斷、小紅書達(dá)人分析、電商精品分析,自動生成工作流,在云主機(jī)上進(jìn)行實時執(zhí)行,幫助相應(yīng)工作的完成,同時將結(jié)果、分析結(jié)論、數(shù)據(jù)報表,實時同步,讓使用者感受到自己真正擁有了 AI agent 團(tuán)隊。落實到實際營銷場景中,我們完成了從品牌的用戶洞察、輿情監(jiān)控、內(nèi)容制作、達(dá)人營銷、賬號矩陣自動化運營、智能客服等一整套全鏈路AI產(chǎn)品場景矩陣。
從技術(shù)層面來看,具體會涉及到LAM,該概念最早在 Rabbit 中提到。通過描述任務(wù),比如:分析精致貴婦的生活KOL,LAM具備兩個功能。1、自我規(guī)劃能力2、自我反省能力。針對任務(wù),做相應(yīng)的思考與規(guī)劃。去小紅書蒲公英上搜索相應(yīng)的關(guān)鍵詞,找到相應(yīng)博主,分析對應(yīng)的帖子內(nèi)容與文案,最后產(chǎn)生report,以郵件的方式反饋。一步步的流程形成工作流,只要描述內(nèi)容,讓多模態(tài)大模型生成工作流,后面只需要安排他干活就行了,發(fā)布指令就能完成系列工作。
舉一個簡單版的學(xué)術(shù)上的例子,我想在學(xué)術(shù)網(wǎng)頁上查找學(xué)者的引用量,首先發(fā)起任務(wù),“幫我查找 Hinton 的引用量是多少”。Agent會自動思考,模擬人的行為把學(xué)者名字輸入到搜索框里,完成相應(yīng)的點擊操作。這個模式跟自動駕駛類似,人可以從中間介入,他會綜合思考兩個東西,人類給的提示與 Agent 自己的思考,得出結(jié)論。最終會形成對應(yīng)的工作流沉淀下來,相當(dāng)于已經(jīng)訓(xùn)練好了一個員工,后續(xù)只需執(zhí)行,他就會按照操作幫你完成接下來的工作。具體包含兩個內(nèi)容1、通過 task 驅(qū)動,只需要描述task,它可以自動完成且形成工作流,下一次也可以接著用。2、用戶可隨時介入,覺得回答不準(zhǔn)或不達(dá)意,可實時溝通調(diào)整,修改相應(yīng)的工作流。技術(shù)細(xì)節(jié)方面,我們發(fā)現(xiàn) AI 能完全理解你的需求,也知道該如何執(zhí)行。難點在于對于常人來說是一個非常簡單的問題,直接把需求輸入到搜索框里面就可以了,但 AI 怎么轉(zhuǎn)換成對應(yīng)的指令且準(zhǔn)確地輸入,這是比較困難的。
第一,首先有一個大屏幕做全局掃描,可理解成分割,把網(wǎng)頁的 HTML 代碼對應(yīng)的葉子節(jié)點拿出來,搜索框、logo、圖片都是葉子節(jié)點, html 是樹形結(jié)構(gòu),我們只需要最下面一批就足夠。第二,圖像分割之后我們可以知道所有的東西。第三,剩下事情就變成了召回和 ranking 的過程,任務(wù)跟什么相關(guān),只需要進(jìn)行排序,再去輸入指令就夠了。
02、北大Open Sora生成能力增強(qiáng)
目前非常火的項目視頻生成( open Sora )。Open AI很早發(fā)布了Sora,雖然沒有對外開放,但效果非常炸裂驚艷。我們團(tuán)隊希望用開源的力量復(fù)現(xiàn)出Sora,成為視覺版LLaMA。因為算力有限,希望以開源的方式讓更多的算力進(jìn)來,讓Sora能力越來越強(qiáng),這是團(tuán)隊的初衷。
具體的實現(xiàn)方式包含三個部分。1、壓縮和解壓過程。2、 Diffusion 。3、Condition 線路?,F(xiàn)在的 AI 技術(shù),包括 GPT、視頻生成、文生圖。技術(shù)都是大道至簡的感覺,對技術(shù)方案上較為統(tǒng)一。拼的更多是數(shù)據(jù)上的沉淀,細(xì)節(jié)訓(xùn)練、修改。
比較標(biāo)準(zhǔn)的方案具體有三部分,第一部分是視頻的壓縮和解壓,形象點來說在電腦上把所有視頻壓縮成zip 包,然后再進(jìn)行解壓。中間部分可以理解成 zip 包,只不過由編碼方式來進(jìn)編碼,VAE是經(jīng)典的模型,把原始視頻輸進(jìn)去,能達(dá)到一分鐘 720P 的重建Demo,壓縮率目前可達(dá)到 256 倍,個人也認(rèn)為,只要把信息壓縮得足夠多,生成效果會越好。這并不是用文本生成視頻,這是重構(gòu),意味著把原視頻輸進(jìn)去,通過壓縮再解壓,是否能還原。
DiT 在圖文生圖領(lǐng)域很常見,包括 Midjourney 與其他的文生圖都是通過這種該方法,Diffusion也是做視頻生成的常用方案。它具體如上圖所示,框架內(nèi)訓(xùn)練了一個壓縮器和解壓器,可以理解成就把視頻打包成zip,可將他看做向量,然后這個向量里面我們會給它不斷地加隨機(jī)噪聲,直到變成完全隨機(jī)噪聲,這是整體輸入的過程。Diffusion 可起到去噪的效果,能夠還原之前的視頻,同時把 Condition 加進(jìn)去,按照這些條件進(jìn)行生成,都是一樣的道理。Condition 包括草圖、深度、關(guān)鍵點,只按照規(guī)定的幾個關(guān)鍵點去做相應(yīng)的生成,但文本還是目前主流方式。最后提出一個問題供大家思考討論:文生視頻這個事情離商業(yè)化比較遙遠(yuǎn),大家會不會愿意為一個“閑聊”的玩具買單?
以上就是本次分享,如需獲取專家完整版視頻實錄和課件可掃碼領(lǐng)取。