加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、Web Agent自動化解決方案
    • 02、北大Open Sora生成能力增強(qiáng)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

AI技術(shù)前瞻:下一個AI風(fēng)口在何處?

06/24 12:00
934
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

分享嘉賓|寧鯤鵬 元空AI技術(shù)聯(lián)合創(chuàng)始人

在過去一年里,AI話題熱度持續(xù)升溫,在大模型百家爭鳴的今天,涌現(xiàn)出分門別類的人工智能體,誰會是下一個風(fēng)口?本文從“ Web Agent?自動化解決方案”和“北大Open Sora生成能力增強(qiáng)”為各位帶來AI技術(shù)前瞻。

 

01、Web Agent自動化解決方案

我們希望讓 AI 成為真正的生產(chǎn)力,利用 Agent 幫我們干活,幻想中最完美的畫面,就是流程中有 Master Agent,發(fā)起任意需求,他會去幫你生成一系列工作流。比如投后診斷、小紅書達(dá)人分析、電商精品分析,自動生成工作流,在云主機(jī)上進(jìn)行實時執(zhí)行,幫助相應(yīng)工作的完成,同時將結(jié)果、分析結(jié)論、數(shù)據(jù)報表,實時同步,讓使用者感受到自己真正擁有了 AI agent 團(tuán)隊。落實到實際營銷場景中,我們完成了從品牌的用戶洞察、輿情監(jiān)控、內(nèi)容制作、達(dá)人營銷、賬號矩陣自動化運營、智能客服等一整套全鏈路AI產(chǎn)品場景矩陣。

從技術(shù)層面來看,具體會涉及到LAM,該概念最早在 Rabbit 中提到。通過描述任務(wù),比如:分析精致貴婦的生活KOL,LAM具備兩個功能。1、自我規(guī)劃能力2、自我反省能力。針對任務(wù),做相應(yīng)的思考與規(guī)劃。去小紅書蒲公英上搜索相應(yīng)的關(guān)鍵詞,找到相應(yīng)博主,分析對應(yīng)的帖子內(nèi)容與文案,最后產(chǎn)生report,以郵件的方式反饋。一步步的流程形成工作流,只要描述內(nèi)容,讓多模態(tài)大模型生成工作流,后面只需要安排他干活就行了,發(fā)布指令就能完成系列工作。

舉一個簡單版的學(xué)術(shù)上的例子,我想在學(xué)術(shù)網(wǎng)頁上查找學(xué)者的引用量,首先發(fā)起任務(wù),“幫我查找 Hinton 的引用量是多少”。Agent會自動思考,模擬人的行為把學(xué)者名字輸入到搜索框里,完成相應(yīng)的點擊操作。這個模式跟自動駕駛類似,人可以從中間介入,他會綜合思考兩個東西,人類給的提示與 Agent 自己的思考,得出結(jié)論。最終會形成對應(yīng)的工作流沉淀下來,相當(dāng)于已經(jīng)訓(xùn)練好了一個員工,后續(xù)只需執(zhí)行,他就會按照操作幫你完成接下來的工作。具體包含兩個內(nèi)容1、通過 task 驅(qū)動,只需要描述task,它可以自動完成且形成工作流,下一次也可以接著用。2、用戶可隨時介入,覺得回答不準(zhǔn)或不達(dá)意,可實時溝通調(diào)整,修改相應(yīng)的工作流。技術(shù)細(xì)節(jié)方面,我們發(fā)現(xiàn) AI 能完全理解你的需求,也知道該如何執(zhí)行。難點在于對于常人來說是一個非常簡單的問題,直接把需求輸入到搜索框里面就可以了,但 AI 怎么轉(zhuǎn)換成對應(yīng)的指令且準(zhǔn)確地輸入,這是比較困難的。

第一,首先有一個大屏幕做全局掃描,可理解成分割,把網(wǎng)頁的 HTML 代碼對應(yīng)的葉子節(jié)點拿出來,搜索框、logo、圖片都是葉子節(jié)點, html 是樹形結(jié)構(gòu),我們只需要最下面一批就足夠。第二,圖像分割之后我們可以知道所有的東西。第三,剩下事情就變成了召回和 ranking 的過程,任務(wù)跟什么相關(guān),只需要進(jìn)行排序,再去輸入指令就夠了。

02、北大Open Sora生成能力增強(qiáng)

目前非常火的項目視頻生成( open Sora )。Open AI很早發(fā)布了Sora,雖然沒有對外開放,但效果非常炸裂驚艷。我們團(tuán)隊希望用開源的力量復(fù)現(xiàn)出Sora,成為視覺版LLaMA。因為算力有限,希望以開源的方式讓更多的算力進(jìn)來,讓Sora能力越來越強(qiáng),這是團(tuán)隊的初衷。

具體的實現(xiàn)方式包含三個部分。1、壓縮和解壓過程。2、 Diffusion 。3、Condition 線路?,F(xiàn)在的 AI 技術(shù),包括 GPT、視頻生成、文生圖。技術(shù)都是大道至簡的感覺,對技術(shù)方案上較為統(tǒng)一。拼的更多是數(shù)據(jù)上的沉淀,細(xì)節(jié)訓(xùn)練、修改。

比較標(biāo)準(zhǔn)的方案具體有三部分,第一部分是視頻的壓縮和解壓,形象點來說在電腦上把所有視頻壓縮成zip 包,然后再進(jìn)行解壓。中間部分可以理解成 zip 包,只不過由編碼方式來進(jìn)編碼,VAE是經(jīng)典的模型,把原始視頻輸進(jìn)去,能達(dá)到一分鐘 720P 的重建Demo,壓縮率目前可達(dá)到 256 倍,個人也認(rèn)為,只要把信息壓縮得足夠多,生成效果會越好。這并不是用文本生成視頻,這是重構(gòu),意味著把原視頻輸進(jìn)去,通過壓縮再解壓,是否能還原。

DiT 在圖文生圖領(lǐng)域很常見,包括 Midjourney 與其他的文生圖都是通過這種該方法,Diffusion也是做視頻生成的常用方案。它具體如上圖所示,框架內(nèi)訓(xùn)練了一個壓縮器和解壓器,可以理解成就把視頻打包成zip,可將他看做向量,然后這個向量里面我們會給它不斷地加隨機(jī)噪聲,直到變成完全隨機(jī)噪聲,這是整體輸入的過程。Diffusion 可起到去噪的效果,能夠還原之前的視頻,同時把 Condition 加進(jìn)去,按照這些條件進(jìn)行生成,都是一樣的道理。Condition 包括草圖、深度、關(guān)鍵點,只按照規(guī)定的幾個關(guān)鍵點去做相應(yīng)的生成,但文本還是目前主流方式。最后提出一個問題供大家思考討論:文生視頻這個事情離商業(yè)化比較遙遠(yuǎn),大家會不會愿意為一個“閑聊”的玩具買單?

以上就是本次分享,如需獲取專家完整版視頻實錄和課件可掃碼領(lǐng)取。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA128A3U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP

ECAD模型

下載ECAD模型
$8.03 查看
STM32F103VET6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 512 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$13.06 查看
FS32K146HAT0MLLT 1 NXP Semiconductors RISC Microcontroller

ECAD模型

下載ECAD模型
$11.53 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

愛分析是一家專注數(shù)字化市場的研究咨詢機(jī)構(gòu),成立于中國數(shù)字化興起之時,致力于成為決策者最值得信任的數(shù)字化智囊。憑借對新興技術(shù)和應(yīng)用的系統(tǒng)研究,對行業(yè)和場景的深刻洞見,愛分析為數(shù)字化大潮中的企業(yè)用戶、廠商和投資機(jī)構(gòu),提供專業(yè)、客觀、可靠的第三方研究與咨詢服務(wù),助力決策者洞察數(shù)字化趨勢,擁抱數(shù)字化機(jī)會,引領(lǐng)中國企業(yè)數(shù)字化轉(zhuǎn)型升級。