分享嘉賓|王緒剛 歐拉智能創(chuàng)始人&CEO
對話式分析讓用戶可以通過自然語言交互方式獲取數(shù)據(jù)洞察,能夠有效降低數(shù)據(jù)分析門檻,提升數(shù)據(jù)開發(fā)效率,讓數(shù)據(jù)分析結(jié)果更加貼合業(yè)務(wù)語言,促進企業(yè)內(nèi)部數(shù)據(jù)價值釋放。大模型帶來的能力突破,進一步讓對話式分析成為企業(yè)用戶關(guān)注的熱點數(shù)據(jù)應(yīng)用。
本次分享將圍繞圖模型與大語言模型相互結(jié)合,在數(shù)據(jù)分析場景下的應(yīng)用與實踐展開。
此次分享想和大家探討的是如何將大型的圖模型與大語言模型相結(jié)合,以怎樣構(gòu)建數(shù)據(jù)分析輔助系統(tǒng)Copilot。
在大語言模型尚未被廣泛采納的2019年,我們團隊就已經(jīng)開始研究并開發(fā)基于問答方式的數(shù)據(jù)分析產(chǎn)品。盡管當(dāng)時我們應(yīng)用的是稍小型的語言模型以及確定性語言模型,但我們更加關(guān)注的是數(shù)據(jù)分析的深度,而非僅僅是用戶界面的交互。因此,我們始終堅持將圖模型作為我們整體數(shù)據(jù)計算和儲存的核心底層技術(shù)。
基于該背景,接下來我會從三個方面詳細進行闡述:
第一,數(shù)據(jù)分析目前遇到了哪些困境,大語言模型可以為我們帶來哪些機遇。
第二,圖模型作為整個數(shù)據(jù)處理引擎和數(shù)據(jù)底層架構(gòu)有哪些優(yōu)勢,為什么與大語言模型之間具有強大的互補性。
第三,與大家共享一些實踐案例,以及聊聊對未來應(yīng)用方向的探索和嘗試。
01、數(shù)據(jù)分析困境與大模型的機遇
首先,我們需要在整體上理解數(shù)據(jù)分析。從最早的報表分析到自助式BI,再到現(xiàn)在的增強式BI,數(shù)據(jù)分析在企業(yè)內(nèi)部扮演著至關(guān)重要的角色,它主要服務(wù)于企業(yè)或機構(gòu)的整體決策流程。無論是企業(yè)內(nèi)部數(shù)據(jù)還是外部數(shù)據(jù),都需要利用數(shù)據(jù)進行決策。
然而,在實際的數(shù)據(jù)分析過程中,中國與美國、歐洲國家之間存在顯著差異,在西方科技背景較濃厚的國家,他們的數(shù)據(jù)分析落地實踐案例已經(jīng)超出我們當(dāng)前的水平多達5-10年,在數(shù)據(jù)分析科學(xué)素養(yǎng)和決策流程管理的整體使用覆蓋率都遠超過我們國內(nèi)水平。
究其原因,主要是因為在國內(nèi)的企業(yè)環(huán)境中,缺乏的是既熟知企業(yè)內(nèi)部業(yè)務(wù)知識,又掌握數(shù)據(jù)結(jié)構(gòu)且具備數(shù)據(jù)建模能力的人才,這實際上就是阻礙企業(yè)內(nèi)部數(shù)據(jù)轉(zhuǎn)變?yōu)閼?yīng)用或價值的一個頗為重要的瓶頸。在此基礎(chǔ)上,我們的整個的業(yè)務(wù)團隊,其能力實際上無法理解,或者只是了解一些技術(shù)術(shù)語,只能提供關(guān)于業(yè)務(wù)問題的基本描繪。
而技術(shù)團隊其實大部分并未具備業(yè)務(wù)知識,同樣也缺乏對業(yè)務(wù)整體需求的理解,他們需要與技術(shù)、業(yè)務(wù)團隊反復(fù)溝通需求,不斷地撰寫程序,或者編寫一些腳本、SQL,甚至源代碼來調(diào)整數(shù)據(jù)模型。也就是說,我們目前缺乏一種能力,將商業(yè)邏輯和技術(shù)邏輯銜接起來,進而使得原本具備巨大價值的數(shù)據(jù)得以充分發(fā)揮其價值。
另一方面,企業(yè)內(nèi)部擁有豐富的知識儲備,這些并非如同自然語言一樣可隨意表達,甚至存在部分專屬的獨有設(shè)定。那么如何將企業(yè)內(nèi)部的結(jié)構(gòu)化知識進行推廣,以便為大語言模型提供理解情境的能力?同時,未來或許將會出現(xiàn)類似于人腦思考的對話模式,原因何在呢?
實際上,在我們觀察企業(yè)內(nèi)部時,并非所有人都對業(yè)務(wù)問題都有所關(guān)注。許多人可能并未深入了解企業(yè)內(nèi)部的業(yè)務(wù)運作,盡管他們在商業(yè)策略上頗有想法,但在業(yè)務(wù)專業(yè)化程度上卻未必能達到相應(yīng)的高度。因此,我們期待我們的系統(tǒng)能夠具備像人一樣的思考能力,能夠為他們提供推理和聯(lián)想的功能以解決問題。
如此一來,我們才能夠真正實現(xiàn)所謂的對話式數(shù)據(jù)分析,而我們選擇使用圖模型的原因也在于洞察到了圖架構(gòu)在實際應(yīng)用中的優(yōu)勢。
02、圖模型的優(yōu)勢與互補性
2.1 大型圖模型的優(yōu)勢
眾所周知,圖模型由節(jié)點與邊構(gòu)成,采用實體與關(guān)系的表述方式用于描述我們所接觸的各種事物,這一處理方式突破了傳統(tǒng)表格的表達局限,將點與邊提升至第一級別,使得所有計算轉(zhuǎn)變?yōu)榛趫D的游走式計算,這種方式相對來說計算與表達更為直接,更貼近人類自然語言的主謂賓定狀表達方式。
因此,圖模型在計算過程中利用空間來替換時間,從而避免了傳統(tǒng)關(guān)系數(shù)據(jù)庫中跨表校驗分析緩慢以及模型固化的問題,保證了其即時性與靈活性,更滿足了人機對話的需求。同時,圖模型本身的語義對話表達效果較好,采用三元組的表示方式來表示一切多元異構(gòu)數(shù)據(jù),可以被視為一種語義化的數(shù)據(jù)編織。在此過程中,圖模型還為企業(yè)內(nèi)部的數(shù)據(jù)治理提出了一定標準,使得業(yè)務(wù)人員能夠直接進行解讀與訪問。
事實上,當(dāng)我們在構(gòu)建特定場景或多個場景的全過程中,可以邀請業(yè)務(wù)人員參與其中,由于業(yè)務(wù)人員對整個建模過程有較深理解,采用語義知識圖結(jié)構(gòu)更便于理解,因此,這種知識結(jié)構(gòu)可以自動生成知識內(nèi)容進行推廣,因為它本身就是一種貼近語義化的表達方式。
近來一些論文中其實有探討采用這種圖形結(jié)構(gòu)來生成自然語言的Prompt,這種語義豐富的Prompt在我們能夠精確地定位問題實體和路徑時,便可以將更多的先驗知識轉(zhuǎn)移至接近當(dāng)前問題的求解階段,從而在大語言模型解答問題時,可以獲得更豐富的知識儲備,由此帶來更好效果。
另一個重要的觀點是,圖形本身擅長表達概率。例如,貝葉斯網(wǎng)絡(luò)和馬爾可夫矩陣模型都是典型的圖形結(jié)構(gòu),許多數(shù)據(jù)挖掘模型也可以通過圖形來表示。當(dāng)圖形結(jié)構(gòu)涵蓋到神經(jīng)網(wǎng)絡(luò)中的GNN深度等,便可解決許多預(yù)測性問題,并呈現(xiàn)出語義上的可解釋性,因而可以解答可能性問題。這使得在結(jié)構(gòu)化數(shù)據(jù)上進行數(shù)據(jù)挖掘,以及回答可能性問題成為可能,而這正是大量其他數(shù)據(jù)模型所不具備的優(yōu)勢。
2.2 常見圖模型解讀
下面,我們簡單分享一下我們常見的建模過程中涉及的一些圖模型。
第一,知識圖譜,這也是我們最常見的。知識圖譜以靜態(tài)的概念和關(guān)系來描述實體語義,它可以看作是一種屬性圖的表達式,我們企此內(nèi)部大量的主數(shù)據(jù)都可以通過這種知識圖譜進行表達。
第二,事件(行為)型網(wǎng)絡(luò)結(jié)構(gòu)。這是一種使用主謂賓結(jié)構(gòu)來描述發(fā)生的事件的方式,它可以表達我們的許多事務(wù)性操作。我們常見的許多表結(jié)構(gòu)實際上是知識圖譜結(jié)構(gòu)和事件行為網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合體,這兩種結(jié)構(gòu)的結(jié)合使得我們可以將許多表結(jié)構(gòu)進行相應(yīng)的映射。
第三,特殊類型網(wǎng)絡(luò),比如網(wǎng)絡(luò)結(jié)構(gòu)。這是一種原生的top圖譜結(jié)構(gòu),例如數(shù)字的top網(wǎng)絡(luò),人的社交關(guān)系、投資關(guān)系、資金的交易關(guān)系,以及物理的拓撲網(wǎng)絡(luò),如服務(wù)器的網(wǎng)絡(luò),這些都是我們常見的原始網(wǎng)絡(luò)結(jié)構(gòu)。
第四,其他類型網(wǎng)絡(luò),如狀態(tài)序列圖和概率性網(wǎng)絡(luò)。狀態(tài)序列圖是指每個狀態(tài)隨時間遷移而改變的網(wǎng)絡(luò),概率網(wǎng)絡(luò)是指,像貝葉斯網(wǎng)絡(luò)那樣,其先驗條件可以與后續(xù)知識以及后續(xù)結(jié)果之間產(chǎn)生一定的概率關(guān)系,這便構(gòu)成了一個概率性網(wǎng)絡(luò)。
我們常見的許多數(shù)據(jù)表達通常是多種網(wǎng)絡(luò)的融合,從而構(gòu)成了我們現(xiàn)在的建模方法。因此我們需要將傳統(tǒng)的表結(jié)構(gòu)抽象為圖形結(jié)構(gòu),在此過程中,會涉及許多建模規(guī)范,如實體選擇原則、 實體選擇原則、 實體選擇原則等各種關(guān)聯(lián)性原則。
03、圖模型的典型實踐與應(yīng)用模式
接下來會重點分享一些典型的實踐及常見的應(yīng)用模式,我選了在營銷這個大領(lǐng)域下兩個具有代表性的應(yīng)用場景,分別是商品研究與用戶研究。前者是研究商品應(yīng)該如何進行設(shè)計,后者主要關(guān)注如何進行私域用戶的運營,并進行用戶畫像的研究。
3.1 圖模型基于商品研究場景下的應(yīng)用
在先前的討論中,我們明確提出要建立一個如上圖所示的結(jié)構(gòu),實際上就是將我們傳統(tǒng)在關(guān)聯(lián)數(shù)據(jù)庫的結(jié)構(gòu)細化至最微小的顆粒度。以此方式,我們將從這些最微小的顆粒度中抽離出實體關(guān)系的實證模型,也許我們可以稱之為恢復(fù)數(shù)據(jù)原始狀態(tài),所有的計算都是基于這樣的一個最微小顆粒的數(shù)據(jù)實時進行。
因此,我們有一套工具根據(jù)上述設(shè)計原則,將表結(jié)構(gòu)抽象成一個圖形結(jié)構(gòu)。例如,我們在此處所看到的圖形結(jié)構(gòu)實際上是對一個商品及其用戶反饋需求反饋的一系列描述的知識結(jié)構(gòu)。
在一些簡單的問答式場景下,我們可以采取單次推進的模式,那么這個數(shù)據(jù)流的整個過程就是:首先用戶會發(fā)出他的問題,它以類似自然語言的形式呈現(xiàn),這個問題會回歸到圖結(jié)構(gòu)中,我們會把其中的某些實體識別出來,然后依據(jù)現(xiàn)有的實體構(gòu)成再結(jié)合能獲取到的實體及其上下文包含的關(guān)系作為一個推進器拋給大模型。
接著,大模型會把相應(yīng)的工作轉(zhuǎn)化為一個路徑,這意味著從我的起點、終點以及可能行駛的路線變?yōu)橐粋€路徑。隨后,這個路徑被丟給了圖形、模型,由圖模型進行計算,最終返回給相應(yīng)的應(yīng)用程序,最終完成了這樣一個簡單的交互邏輯。
在此過程中,我們可以將這個語言轉(zhuǎn)換為類SQL的圖形表達。我們還發(fā)現(xiàn),扁平和邊際結(jié)構(gòu)的效率相對較高。同時,我們還進行了與寬表結(jié)構(gòu)的對比測試,發(fā)現(xiàn)在識別的準確度分析的準確率方面,采用圖形結(jié)構(gòu)相對于寬表結(jié)構(gòu),識別精度和準確率可提高近20%,這主要是因為圖形結(jié)構(gòu)給予了更多的上下文信息,賦予了更大的語義空間。
3.2 圖模型基于用戶研究場景下的應(yīng)用
顯然,剛才我們所探討的僅僅是一種簡單的Prompt形式,然而,在其他實際應(yīng)用環(huán)境中,例如私域用戶的系列數(shù)據(jù),包括其日常營銷行為數(shù)據(jù)、業(yè)務(wù)主數(shù)據(jù)以及用戶畫像數(shù)據(jù)等,它們共同構(gòu)成了一個龐大且繁雜的網(wǎng)絡(luò)。
在面對大型且錯綜復(fù)雜的網(wǎng)絡(luò)時,使用簡單的Prompt或僅僅依賴于簡單的回復(fù)來解決如此復(fù)雜的業(yè)務(wù)問題,通常需要經(jīng)歷非常多的環(huán)節(jié)。此類方式往往會產(chǎn)生大量漂移和無關(guān)信息,很難滿足需求。
因此,我們采取了大語言模型與思維鏈處理模式相結(jié)合的解決方案,即在整個過程中采用多輪問答的形式,一步步地獲取更精確的數(shù)據(jù)結(jié)果。首先,用戶會提出問題,該問題將依據(jù)當(dāng)前的提示模板交給大語言模型處理。在此過程中,大語言模型會將問題分解為多個子任務(wù),分別調(diào)用相應(yīng)的工具,這些工具將問題抽象成圖表中的檢索路徑生成操作。而整個圖模型還存儲了企業(yè)內(nèi)部的業(yè)務(wù)知識,能準確地反饋給大語言模型,然后進行下一步操作。
當(dāng)然如果此過程中出現(xiàn)token過長的問題,我們也要設(shè)法解決。最終,模型會生成相應(yīng)的分析結(jié)果,并結(jié)合我們的數(shù)據(jù)分析解析模板,生成可解釋的內(nèi)容。
在之前的案例中,經(jīng)過測試,在剔除掉一些過于通用且過長的問題且token有效的情況下,我們可以獲得超過77%的搜問答數(shù)據(jù)分析準確率,這已經(jīng)是一個不錯的結(jié)果。
3.3 典型應(yīng)用落地場景
接下來讓我們具體了解一下我們實際應(yīng)用中一些產(chǎn)品的落地情況。
第一,實時提問,可視化呈現(xiàn)分析結(jié)果。在該應(yīng)用場景下,整個形態(tài)是問答式,或者說是以搜索框為核心的界面,你可以提出想要了解的信息,例如將某一類用戶畫像與其購買商品的分布情況進行關(guān)聯(lián)分析,系統(tǒng)即可實時生成針對該問題的可視化報告,同時也允許你用自然語言替代常見的數(shù)據(jù)庫查詢,來獲取特定屬性的用戶列表,以快速實現(xiàn)信息的提取。
第二, 并行任務(wù)計算。在剛才提到的思維鏈條較為復(fù)雜的工作環(huán)境下,由于其鏈條長度較長,可能需要消耗較大的思考時間。此時,我們可以將該任務(wù)轉(zhuǎn)化為并行計算的模式。例如,可以同時提出多個問題,系統(tǒng)在后臺將對每個問題獨立進行計算處理,待計算完畢后,直接將計算結(jié)果返回,實現(xiàn)并行操作。
第三,實現(xiàn)從自然語言到圖路徑。提問環(huán)節(jié)可以將問題轉(zhuǎn)變?yōu)榭梢暬耐緩?。雖然看上去不像自然語言一樣自然流暢,但如果我們在其中加入一些主謂賓定狀補等語法元素,或者說是輔助的謂詞數(shù)據(jù),那么它的表現(xiàn)就更貼近于人類自然語言了。這種表達方式可以幫助你在這上面進行相應(yīng)的調(diào)整和修改,從而得出更為精確的答案。此外,分析結(jié)果頁面還提供了自然語言的圖表解釋和解析,以便生成更為詳細的分析報告。
第四, 定義指標的計算語義。至于指標的部分,它其實是一個非常重要且具有主觀性的業(yè)務(wù)支持工具。然而,由于定義指標的方式多種多樣,同一個指標可能會通過不同的語義計算方法和解釋方式來定義。因此,在我們龐大的指標庫中,甚至存在一些難以用自然語言清晰地進行描述的指標,它們往往是一種計算公式。但是在圖結(jié)構(gòu)中,這些指標可以非常直觀地用面向?qū)ο蟮姆绞竭M行表示,采用路徑的方式進行呈現(xiàn),這樣我們就可以輕松地為每一個指標賦予定義,實現(xiàn)直接的搜索功能。
在這個流程中,我們所指定的各類指標無需預(yù)先進行計算,僅需在提問環(huán)節(jié)提及該指標,通過路徑的方式、語義路徑的方式將其展現(xiàn)出來,并將其保存在欲命名的語義中。當(dāng)需要使用該指標時,只需通過此前命名的語義將其提取出來,即可按照預(yù)先設(shè)定好的路徑進行計算,無需額外的預(yù)計算和存儲工作。
以上幾個場景,都是充分利用了大語言模型的自然表達形式以及圖模型的實時計算和靈活性,以滿足我們在對話式數(shù)據(jù)分析場景下的需求。
3.4 圖模型+大語言模型在對話式數(shù)據(jù)分析中的應(yīng)用
而在對話式數(shù)據(jù)分析中,圖模型主要適用于靈活性強且主題不明確的場景,具體包括五大類場景。
第一類是數(shù)據(jù)透明化。例如,為某個大型集團提供的供應(yīng)鏈分析,由于供應(yīng)鏈本身可能涉及多個業(yè)務(wù)部門,且每個業(yè)務(wù)部門的制造和生產(chǎn)環(huán)節(jié)可能擁有各自的供應(yīng)鏈供應(yīng)商,因此,在供應(yīng)鏈環(huán)境中存在著巨大的風(fēng)險,無論是采購環(huán)節(jié)還是物流環(huán)節(jié)都可能面臨無法預(yù)料的波動。企業(yè)內(nèi)部決策層需要全面掌握整體數(shù)據(jù)狀況。傳統(tǒng)的方法只能提供一些綜合報表,這些報表無法顯示原始數(shù)據(jù),也無法準確判斷數(shù)據(jù)的真實性。
但是,如果一旦采用數(shù)據(jù)問答的模式,高管們僅需進行簡單的提問,便可從不同角度對供應(yīng)鏈的健康狀況進行驗證或測試。在某些異常情況下,他們還能回溯所有數(shù)據(jù)源,查看最詳細的明細數(shù)據(jù)如何被計算,從而獲取全面的管理透明度。簡言之,通過這種方式,我們可以利用數(shù)據(jù)進行有效的管理透明化。
第二類是靈活取數(shù)。對于一些大型公司而言,集團的數(shù)據(jù)往往由數(shù)據(jù)中臺進行管理,因此,數(shù)據(jù)中臺工作人員的能力往往成為數(shù)據(jù)決策的瓶頸。而一線團隊,如子公司、事業(yè)部乃至門店,都有著自身獨特的數(shù)據(jù)分析需求。面向一線員工,如何建立一套靈活自選的取數(shù)和數(shù)據(jù)分析平臺,這也是對話式數(shù)據(jù)分析中的一個重要應(yīng)用場景。
第三類是實時數(shù)據(jù)探索。這種情況主要適用于情報分析、公安監(jiān)控以及監(jiān)管等行業(yè),他們需要在海量的數(shù)據(jù)中抽絲剝繭,尋找新的線索并據(jù)此進行后續(xù)決策。在此環(huán)節(jié)中,往往無法預(yù)知下一步的工作細節(jié),因此必須通過逐步探究的方式一點點深入探索,因此對于實時數(shù)據(jù)實時建模的能力有著極高的要求。在這種情況下,使用圖神經(jīng)網(wǎng)絡(luò)語言模型將是一種極為有效的解決方案。
第四類是策略性分析。這一類主要以營銷類型的策略分析為主,由于營銷領(lǐng)域的外部環(huán)境存在眾多不確定性,如消費點位、媒體用戶數(shù)量、文案內(nèi)容等,同時營銷折扣、優(yōu)惠等也存在很多可能性。這些不確定因素需要根據(jù)用戶反饋與實際營銷過程作出調(diào)整,以實現(xiàn)整體優(yōu)化。在整個調(diào)整過程中,需要持續(xù)地進行策略性調(diào)整,從而需要實時獲取數(shù)據(jù)結(jié)果以便進行相應(yīng)調(diào)整。
第五類是可解釋的預(yù)測。這也是圖神經(jīng)網(wǎng)絡(luò)最大的優(yōu)勢之一,即能將圖模型與深度模型相結(jié)合進行推薦或預(yù)測,使分析結(jié)果具備語義解釋性,便于后續(xù)執(zhí)行人員理解和解釋,進而提供更具說服力的決策依據(jù)。
以上就是本次基于大語言模型和圖模型在對話數(shù)據(jù)分析應(yīng)用場景下的結(jié)合與實踐應(yīng)用講解。
王緒剛,北京歐拉認知智能科技有限公司創(chuàng)始人,擁有人工智能方向博士學(xué)位,國內(nèi)人工智能與圖計算方面資深科學(xué)家,“圖計算”概念的提出者和最早專利的發(fā)明人,目前擁有超過10多項圖計算方面的發(fā)明專利。曾擔(dān)任中科院軟件所助理研究員、客座副研究員、中國移動卓望集團數(shù)據(jù)平臺研發(fā)總監(jiān)等職務(wù)。帶領(lǐng)國內(nèi)一流的數(shù)據(jù)科學(xué)家團隊,為多家世界500強企業(yè)數(shù)字化轉(zhuǎn)型提供服務(wù),通過人工智能與圖計算技術(shù)幫助企業(yè)實現(xiàn)數(shù)字智能化轉(zhuǎn)型。