對(duì)話式數(shù)據(jù)分析、LLM+客戶、AI Agent……大模型落地應(yīng)用在市場(chǎng)當(dāng)中的關(guān)注程度正在日益增長(zhǎng)。但從現(xiàn)狀來(lái)看,大模型在企業(yè)用戶側(cè)的落地方式與路徑,依然存在諸多挑戰(zhàn)和疑慮。
本次分享將圍繞最近一段時(shí)間以來(lái)大模型市場(chǎng)核心進(jìn)展與未來(lái)趨勢(shì)展開(kāi)。
分享嘉賓|李喆 愛(ài)分析 合伙人兼首席分析師
01、大模型市場(chǎng)全景概覽
1.1 大模型在企業(yè)內(nèi)的應(yīng)用場(chǎng)景
當(dāng)前市場(chǎng)中,大家對(duì)于大模型這一概念已經(jīng)有許多探討和認(rèn)知?;谄髽I(yè)內(nèi)部的使用場(chǎng)景和整個(gè)大模型的能力邊界,我們總結(jié)出了三類具體應(yīng)用。
第一類是生成類應(yīng)用,這一點(diǎn)比較為大眾所知。
第二類是決策類應(yīng)用,讓企業(yè)用戶更好地作出決策,例如像Copilot這樣的輔助決策,以及Agent這種去幫助企業(yè)做一些預(yù)測(cè)性和指導(dǎo)性的決策。
第三類是多模態(tài)應(yīng)用。我們最近與企業(yè)用戶交流時(shí)發(fā)現(xiàn),雖然大模型理解和生成能力方面尚良好,但推理能力仍存在一些缺陷,主要體現(xiàn)在準(zhǔn)確度和穩(wěn)定性上。
準(zhǔn)確度方面,即使使用GPT-4進(jìn)行數(shù)據(jù)分析且自動(dòng)生成SQL語(yǔ)句,其精確度在廣義使用場(chǎng)景下也只有大約80%,同時(shí)這里面最大的問(wèn)題在于不確定這部分誤差在什么情況下產(chǎn)生,這使得80%的精確度基本上是不可用的。
穩(wěn)定性方面,大模型在某些場(chǎng)景下會(huì)“飄忽不定”, 這導(dǎo)致在許多大家關(guān)注的生成類和決策類應(yīng)用中,僅靠大模型本身很難實(shí)現(xiàn)推進(jìn)。所以,我們目前看到的在許多企業(yè)內(nèi)部實(shí)施的方案通常是將規(guī)則引擎與小模型、圖分析和知識(shí)庫(kù)相結(jié)合。一旦結(jié)合起來(lái),就可以在常見(jiàn)的知識(shí)庫(kù)問(wèn)答、數(shù)據(jù)分析、流程自動(dòng)化領(lǐng)域中顯著提高準(zhǔn)確性和業(yè)務(wù)效果,這是我們目前看到的趨勢(shì)。
換言之,目前大模型推理能力不及預(yù)期的時(shí)候,很大一部分是要依靠于小模型等其他方式,去實(shí)現(xiàn)現(xiàn)在大家比較關(guān)注的決策類應(yīng)用。
1.2 自助式分析可落地方式
下面舉一個(gè)具體的例子,是大模型跟數(shù)據(jù)分析的一個(gè)比較典型的結(jié)合場(chǎng)景——自助式分析或者叫對(duì)話式分析。
在企業(yè)內(nèi)部,業(yè)務(wù)部門(mén)往往有大量的取數(shù)做自助式分析的需求,但如果通過(guò)都是IT部門(mén)去支撐的話,其實(shí)很多時(shí)候人力是不足夠的。因?yàn)闃I(yè)務(wù)部門(mén)的需求可能是當(dāng)天或者盡快就要有數(shù)據(jù)給到,如果這個(gè)數(shù)據(jù)在IT部門(mén)現(xiàn)成的數(shù)據(jù)報(bào)表中沒(méi)有,而是再去做開(kāi)發(fā)的話,整個(gè)周期就無(wú)法滿足業(yè)務(wù)部門(mén)的需求。
在接觸了非常多的央國(guó)企和一些品牌企業(yè)、制造企業(yè)后我們了解到,這個(gè)問(wèn)題中最亟需解決的,其實(shí)就是剛剛提到的通過(guò)大模型進(jìn)行SQL語(yǔ)句的生成,它的準(zhǔn)確度是比較難保證的。
因此,在自助式分析場(chǎng)景中,目前我們看到主要應(yīng)用有三個(gè)方面。
第一個(gè)是使用指標(biāo)平臺(tái),通過(guò)底層的數(shù)據(jù)報(bào)表之上先生成常用的幾百個(gè)、上千甚至上萬(wàn)個(gè)指標(biāo),每一次業(yè)務(wù)人員去查詢時(shí)就只是在這些指標(biāo)里面去做查詢,完成后自動(dòng)生成報(bào)告,這種方式的準(zhǔn)確度是很高的。如果這查詢結(jié)果是跳出指標(biāo)平臺(tái)之外的,也會(huì)自動(dòng)回復(fù)信息無(wú)法查到。這是一種比較好的能夠?qū)崿F(xiàn)交互式分析的方式,而且它的投入相對(duì)比較低,因?yàn)椴恍枰嗟奈⒄{(diào)和預(yù)訓(xùn)練,只要用到GPT-3.5或者GPT-4的能力,基本上就能滿足自助式分析的需求。
第二個(gè)是使用圖計(jì)算引擎,因?yàn)榇竽P捅旧碓谧稣麄€(gè)查詢的鏈路時(shí)穩(wěn)定性不強(qiáng),那么就可以把原來(lái)寬表里面的數(shù)據(jù)導(dǎo)成一個(gè)圖模型,繼而自動(dòng)建立起完整的關(guān)系。這樣在做查詢時(shí)是通過(guò)圖模型的去進(jìn)行,能夠一定程度上讓準(zhǔn)確度和可靠性得到比較大的提升。
第三個(gè)是外掛知識(shí)庫(kù),讓所有搜索都基于該知識(shí)庫(kù)進(jìn)行理解和相關(guān)查詢,基本上可以提高15-20%準(zhǔn)確性,最終實(shí)現(xiàn)80-90%的準(zhǔn)確率。而且,在很多情況下如果結(jié)果錯(cuò)誤,系統(tǒng)會(huì)自動(dòng)提醒該結(jié)果不存在或無(wú)法查詢。
總的來(lái)看,在企業(yè)應(yīng)用場(chǎng)景下,我們認(rèn)為更多的是采用階段性解決方案,結(jié)合規(guī)則模型、小模型、圖引擎和知識(shí)庫(kù)等途徑。
02、國(guó)產(chǎn)大模型市場(chǎng)機(jī)會(huì)
2.1 國(guó)產(chǎn)大模型發(fā)展現(xiàn)狀
從技術(shù)大模型的角度來(lái)看,上圖展示了開(kāi)源和閉源兩類模型,這些都是我們定義的基礎(chǔ)模型。一般來(lái)說(shuō),百億參數(shù)的基礎(chǔ)模型大多數(shù)是開(kāi)源的,而千億級(jí)參數(shù)的基礎(chǔ)模型大多數(shù)是閉源的。即使像百川這樣的模型,雖然把7B和13B做成了開(kāi)源,但它最新的53B模型還是純閉源的。
另一個(gè)大家比較關(guān)注的是通用大模型,在應(yīng)用方向基本上分為三類。
第一類是云資源售賣(mài)。以云計(jì)算商為主,將其作為一種基礎(chǔ)模型,提供云計(jì)算資源。最終是通過(guò)基礎(chǔ)模型、通用模型來(lái)銷(xiāo)售云資源。像阿里云、百度、騰訊、甚至字節(jié)等都是朝著這個(gè)方向發(fā)展的。
第二類開(kāi)發(fā)超級(jí)應(yīng)用。像Mini Max、百川這樣的通用大模型,它們的方向很明確,是要做超級(jí)應(yīng)用。比如百川就非常明確地定位,要在2024年實(shí)現(xiàn)完整的大型超級(jí)應(yīng)用。
第三類是打造大型企業(yè)專屬大模型。基于通用大模型之上去做大型企業(yè)的專屬模型,這里的專屬模型包括行業(yè)、領(lǐng)域、企業(yè)和任務(wù)等模型。例如國(guó)網(wǎng)的思極大模型,既是為便利行業(yè)而設(shè)計(jì)的行業(yè)模型,也是國(guó)網(wǎng)專用的企業(yè)模型。
2.2 大模型市場(chǎng)全景地圖
從整個(gè)大模型市場(chǎng)的角度來(lái)看,基本可以劃分為四個(gè)層次:基礎(chǔ)層,模型層,中間層,應(yīng)用層。當(dāng)前大家的關(guān)注主要放在模型層和應(yīng)用層,主要是因?yàn)槲覀兡壳疤幱诖竽P偷奶剿骱万?yàn)證階段。
從模型層角度講,我們首先需要考慮的是,基于GPT-4和通用大模型,模型本身的能力邊界以及能夠達(dá)到什么程度。然后基于這個(gè)能力邊界,再去研究國(guó)產(chǎn)大模型將會(huì)取得什么的成果。因此,模型層肯定是我們重點(diǎn)關(guān)注的。
再?gòu)膽?yīng)用層角度講,除了像國(guó)網(wǎng)、銀行這樣的超大型企業(yè)有明確的預(yù)算以外,大多數(shù)企業(yè),例如年收入幾十億到小幾百億的這種規(guī)模,更關(guān)注大模型的應(yīng)用價(jià)值。在應(yīng)用價(jià)值方面,目前更加需要看的是實(shí)際應(yīng)用效果。這些企業(yè)基本上在當(dāng)前市場(chǎng)環(huán)境下做出任何大模型預(yù)算時(shí)都需要與業(yè)務(wù)部門(mén)強(qiáng)綁定,而且必須要業(yè)務(wù)部門(mén)對(duì)于業(yè)務(wù)效果的認(rèn)可,才能更好地實(shí)現(xiàn)應(yīng)用落地。
目前大家更加關(guān)注的是應(yīng)用層和模型層,但我們認(rèn)為中間層的價(jià)值其實(shí)是被忽略了的,特別是當(dāng)企業(yè)內(nèi)部用戶真正開(kāi)始使用大模型時(shí),中間層的價(jià)值一定會(huì)大幅提升。
以知識(shí)工程為例,中間層能夠顯著提高大模型的準(zhǔn)確度。盡管目前還處于可研階段,市場(chǎng)尚不成熟,但是當(dāng)大模型真正落地時(shí),中間層的價(jià)值將會(huì)被充分體現(xiàn)。
另一個(gè)不同于其他AI應(yīng)用的特點(diǎn)在于,大模型是一種廣泛適用的應(yīng)用場(chǎng)景。例如,人力資源可以用到大模型的能力,而這些能力未來(lái)也可以復(fù)用到財(cái)務(wù)、辦公自動(dòng)化等其他場(chǎng)景。因此,許多大型企業(yè)將會(huì)把大模型能力作為通用的AI能力建設(shè)重點(diǎn)考慮。在整個(gè)能力建設(shè)過(guò)程中,各種中間層工具都需要作為支撐,因?yàn)椴豢赡芩泄ぞ叨加勺约簭牧汩_(kāi)發(fā)。
2.3 國(guó)產(chǎn)大模型發(fā)展方向
因此,針對(duì)大模型市場(chǎng),我們總結(jié)了當(dāng)前的重點(diǎn)和未來(lái)需要關(guān)注的方向。
在模型層方面,到今年年底,會(huì)有幾家成熟的頭部通用大模型廠商的能力可以達(dá)到GPT-3.5到水平。到2024年,應(yīng)該會(huì)進(jìn)入到大規(guī)模商用的階段。例如國(guó)家電網(wǎng)正在進(jìn)行大量的大模型可研項(xiàng)目,調(diào)研結(jié)果顯示,可能有二三十個(gè)項(xiàng)目正在研究,同時(shí)也明確計(jì)劃在明年將這些項(xiàng)目落地到各個(gè)場(chǎng)景。因此我們認(rèn)為,基本上明年將是一個(gè)大規(guī)模落地的一個(gè)時(shí)間節(jié)點(diǎn)。
到達(dá)GPT-3.5水平之后,雖然基本上已經(jīng)可用,但是與海外仍有兩年左右的差距。而達(dá)到GPT-4水平可能還需要兩年左右的時(shí)間,但是基本上從2024年開(kāi)始就要進(jìn)入到大規(guī)模商用的階段。
從企業(yè)用戶的選型角度來(lái)看,開(kāi)源大模型仍然值得關(guān)注,這其中主要有三個(gè)原因。
第一,部署成本較低。從整個(gè)部署成本的角度來(lái)看,如果使用閉源大模型進(jìn)行部署,成本會(huì)很高。就像百億級(jí)別的部署,包括硬件和軟件投入在一起,大公司可能需要投入三五百萬(wàn),創(chuàng)業(yè)公司可能是一兩百萬(wàn)級(jí)別。相比之下,如果使用開(kāi)源大模型,企業(yè)用戶在探索和嘗試一些試點(diǎn)應(yīng)用方面,部署成本就會(huì)相對(duì)較低。
第二,良好的開(kāi)發(fā)者生態(tài)。許多應(yīng)用廠商都是基于開(kāi)源大模型構(gòu)建應(yīng)用,這對(duì)于企業(yè)用戶的而言,整合應(yīng)用的成本和應(yīng)用管理成本都相對(duì)較低。同時(shí),開(kāi)源模型上有許多開(kāi)發(fā)者生態(tài),有著許多開(kāi)源工具和中間層工具,這些工具使企業(yè)用戶可以更好地使用和落地大模型。
第三,海外開(kāi)源大模型能力弱。雖然關(guān)于LLaMA2的討論很多,但近期基于用戶實(shí)際調(diào)查發(fā)現(xiàn),它大致是一個(gè)GPT-3.0的水平,與3.5的要求還有很大的差距。這意味著,第一,海外開(kāi)源模型的發(fā)展并不那么迅速,離企業(yè)用戶的需求還有很大差距,國(guó)內(nèi)市場(chǎng)存在機(jī)會(huì)。第二,LLaMA模型對(duì)中文場(chǎng)景的支持力度還遠(yuǎn)遠(yuǎn)不夠,如果僅僅依靠社區(qū)力量,特別是國(guó)內(nèi)的開(kāi)發(fā)者去實(shí)現(xiàn),將會(huì)比較困難,也無(wú)法滿足企業(yè)用戶的需求,因?yàn)楫吘顾皇呛诵耐苿?dòng)力。這些原因都表明,在中文場(chǎng)景下,海外開(kāi)源大模型的能力相對(duì)較弱,反觀國(guó)產(chǎn)更值得關(guān)注和探討。
第四,多模型共用趨勢(shì)。未來(lái)很多的企業(yè)用戶一定是多模型共用,不太可能完全依賴于單個(gè)模型。
以上是我們從選型角度來(lái)說(shuō),開(kāi)源模型值得大家去重點(diǎn)去關(guān)注和做相關(guān)探索的幾個(gè)點(diǎn)。
03、大模型未來(lái)發(fā)展趨勢(shì)
在模型層面以外,還應(yīng)該重點(diǎn)關(guān)注智能計(jì)算中心。此外,在中間層中,知識(shí)工程也是值得關(guān)注的方向。我們可以通過(guò)更好的方法進(jìn)行模型訓(xùn)練和微調(diào),而不是僅僅簡(jiǎn)單地將文檔輸入模型進(jìn)行微調(diào),這樣的效果顯然是比較不理想的。
我們注意到一些企業(yè)基于文檔之后去做FAQ的生成,并進(jìn)行人工審核以形成一個(gè)知識(shí)庫(kù)?;谶@個(gè)知識(shí)庫(kù),可以訓(xùn)練整個(gè)模型以提高效果。我們認(rèn)為接下來(lái)將是對(duì)知識(shí)進(jìn)行系統(tǒng)構(gòu)建,然后進(jìn)行人工審核和知識(shí)標(biāo)識(shí),最終應(yīng)用于大模型的訓(xùn)練,這樣做可以顯著提高整個(gè)大模型的準(zhǔn)確性。
3.1 知識(shí)工程
與一些大模型廠商交流時(shí)發(fā)現(xiàn),由于一些企業(yè)用戶在建設(shè)大型模型時(shí)對(duì)效果要求非常明確,因此在采購(gòu)和立項(xiàng)時(shí)項(xiàng)目目標(biāo)中往往會(huì)明確要求某種準(zhǔn)確度,例如85%或90%,這也通常會(huì)成為驗(yàn)收標(biāo)準(zhǔn)。
但在實(shí)踐中,即便經(jīng)驗(yàn)豐富的微調(diào)團(tuán)隊(duì)對(duì)準(zhǔn)確度的影響也是有限的。例如,如果現(xiàn)有的文檔知識(shí)圖譜水平只能支持70%的準(zhǔn)確度,哪怕很有經(jīng)驗(yàn)的微調(diào)團(tuán)隊(duì),也很難提高到75%或80%。因此,在實(shí)現(xiàn)整個(gè)模型效果時(shí),通常依賴于知識(shí)庫(kù)的建設(shè)。我們也認(rèn)為,知識(shí)工程是接下來(lái)訓(xùn)練大型模型整體準(zhǔn)確度和可靠性的重要階段之一。
在推理環(huán)節(jié)中,通過(guò)前期構(gòu)建的知識(shí)庫(kù)進(jìn)行外掛,可以有效減少大模型產(chǎn)生幻覺(jué)的情況,從而使應(yīng)用更加合理和可控。因此,我們認(rèn)為知識(shí)工程是需要關(guān)注的中間層工具之一。另一個(gè)中間層工具是LLMOps,因?yàn)閺拇竽P偷浇鉀Q業(yè)務(wù)問(wèn)題,整個(gè)過(guò)程中存在很多環(huán)節(jié),包括數(shù)據(jù)集管理、標(biāo)注、微調(diào)評(píng)估和反饋。
最后一個(gè)模型路由實(shí)際上旨在解決業(yè)務(wù)問(wèn)題,將多個(gè)模型串聯(lián)起來(lái)?,F(xiàn)實(shí)中的許多業(yè)務(wù)問(wèn)題往往無(wú)法僅依靠一個(gè)大模型解決,通常需要進(jìn)行多個(gè)模型路由。因此,我們認(rèn)為整個(gè)LLMOps平臺(tái)能夠提升企業(yè)用戶在微調(diào)和管理模型方面的能力。
對(duì)于許多企業(yè)用戶來(lái)說(shuō),他們自身缺乏微調(diào)經(jīng)驗(yàn)和模型開(kāi)發(fā)能力。通過(guò)這項(xiàng)工具,他們可以較好地提升這方面的能力,最終能夠?qū)⒋笮湍P蛻?yīng)用于業(yè)務(wù)場(chǎng)景并落地。
3.2 LLMOps工具類廠商
目前從LLMOps廠商的角度看,我們可以將其分為四類。
第一類是大模型廠商,例如國(guó)內(nèi)的百度、百川等,它們都提供相關(guān)的LLMOps工具。
第二類是云平臺(tái),例如火山引擎、騰訊等。
第三類是直接提供應(yīng)用的廠商,例如許多以NLP和知識(shí)圖譜為主的廠商。
第四類是開(kāi)源或?qū)I(yè)的LLMOps廠商。
大模型廠商提供的LLMOps工具比較單一但性能較強(qiáng),適合那些具備深度學(xué)習(xí)團(tuán)隊(duì)和微調(diào)經(jīng)驗(yàn)的企業(yè)使用以充分發(fā)揮模型的價(jià)值。當(dāng)然,這些工具也存在一些問(wèn)題,例如使用門(mén)檻相對(duì)較高,需要企業(yè)用戶具備比較強(qiáng)的規(guī)劃、架構(gòu)和解決技能才能處理模型與底層及上層應(yīng)用之間的大量運(yùn)維和管理集成問(wèn)題。
針對(duì)大模型廠商,考慮到模型路由問(wèn)題,如果要采用大模型廠商供的這種能力,就需要考慮到其應(yīng)用范圍可能比較狹窄,對(duì)于其他同類廠商的支持力度相對(duì)不夠,就類似于多云管理平臺(tái)和云廠商之間的關(guān)系。我們認(rèn)為這種云平臺(tái)廠商提供額LLMOps比較適合中小型企業(yè),或?qū)?shù)據(jù)隱私要求不高的泛互聯(lián)網(wǎng)企業(yè)以及零售企業(yè),其優(yōu)勢(shì)在于整個(gè)訓(xùn)練成本相對(duì)較低,而且云平臺(tái)本身功能更加豐富,適用范圍更廣。針對(duì)云平臺(tái)廠商,它本身的功能會(huì)相對(duì)更加豐富,因此適用的范圍會(huì)更廣。
我們認(rèn)為這是大多數(shù)能力相對(duì)較弱的中大型企業(yè)需要重點(diǎn)考慮的,因?yàn)閼?yīng)用廠商實(shí)質(zhì)上將底層大模型能力、LLMOps工具等集成在一起,通過(guò)與應(yīng)用廠商合作,能夠解決大部分問(wèn)題,運(yùn)維管理性價(jià)比也相對(duì)較高。當(dāng)然,應(yīng)用廠商本身不是以大模型研發(fā)為主營(yíng)業(yè)務(wù),所以其在單一場(chǎng)景下性能提升的能力相對(duì)較弱,因此也更適合對(duì)此類大模型應(yīng)用較為關(guān)注,但自身能力相對(duì)較弱的大型企業(yè)。