魚羊 蕭簫 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI
騰訊自研混元通用大模型,終于正式在騰訊全球數(shù)字生態(tài)大會上亮相。
模型亮相的同時,騰訊還宣布幾大騰訊業(yè)務就已經(jīng)直接用上了:騰訊文檔、騰訊會議、騰訊廣告等均已接入。
舉個,在接入智能助手的騰訊文檔里,現(xiàn)在只需打字輸入需求,AI就能自動寫出函數(shù),完成數(shù)據(jù)分析。
不得不說,鵝廠混元大模型這一波“淡定上分”,確實是給外界帶來了一些小小的震撼。
畢竟通用大模型雖好,真正要落地應用,尤其是用到行業(yè)生產(chǎn)當中,卻也不是簡簡單單。即使是OpenAI,從ChatGPT到ChatGPT企業(yè)版,也需歷經(jīng)大半年的測試、迭代。
那么,問題來了:騰訊是如何做到大模型一亮相,就“行業(yè)開箱即用”的?
會上,騰訊集團副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO、騰訊云總裁邱躍鵬,把調(diào)教騰訊大模型的“底層秘密”透了出來。
通用大模型落地行業(yè)的“三道關”
大模型從想法到實際落地,至少面臨“三道關”:高質(zhì)量數(shù)據(jù),訓練迭代模型所需算力,內(nèi)容安全合規(guī)性。
首先是算力問題,無論是定期迭代、重新訓練還是推理,大模型所需算力都比普通計算的穩(wěn)定性要求更高、需求量更大。
這并非幾百張卡就能解決的事情。
對于動輒成千上萬億參數(shù)的大模型而言,需要的往往是高密度GPU算力,以提供更高的并行計算性能。
在持續(xù)不斷的訓練過程中,一旦GPU出現(xiàn)故障導致訓練中斷,而之前沒有“設好存檔點”(做好checkpoint)、模型權(quán)重參數(shù)寫入讀取過慢的話,耗時就會成倍增加。
因此,在單純的GPU數(shù)量基礎上,同樣不可忽視的還有工程實踐能力,如何確保訓練過程的穩(wěn)定性、中斷訓練時的回滾能力、并最大程度上降低訓練成本,同樣是訓練大模型無法忽視的一環(huán)。
其次是數(shù)據(jù)問題,要想實現(xiàn)通用大模型的高“智商”,高質(zhì)量的數(shù)據(jù)不可或缺。
通用數(shù)據(jù),是確保大模型“智商在線”的基礎,來源于網(wǎng)上各種公開網(wǎng)站和開源數(shù)據(jù)集。
但不僅整理數(shù)據(jù)、確保多樣性和準確性(尤其是中文數(shù)據(jù))難度不小,加上需要定期更新,迭代起來又非常復雜。
行業(yè)數(shù)據(jù),是確保大模型“業(yè)務水平在線”的知識庫,通常為行業(yè)公司所有,例如法律行業(yè)所具備的的大量歷史案件信息、以及工程領域具備的大量專家經(jīng)驗、行業(yè)實驗數(shù)據(jù)等,這些數(shù)據(jù)同樣需要清洗去重后才能使用。
像騰訊混元大模型,光是預訓練用到的數(shù)據(jù)就達到2萬億tokens,從整理到清洗每一步都需要大量的時間和技術成本,維護起來更是十分復雜。
最后是安全可用性,對于企業(yè)而言,從訓練到使用的輸入輸出階段,都存在安全可用的問題。
訓練階段,如何確保將行業(yè)數(shù)據(jù)用于訓練的同時,又不會泄露企業(yè)自身的敏感數(shù)據(jù);
交互階段,除了輸入模型過程中,不希望提示詞被記錄以外,還需要考慮行業(yè)大模型輸出的數(shù)據(jù)是否合乎規(guī)范、不會生成錯誤甚至違法信息。
這里面涉及到的安全可控合規(guī)的內(nèi)容審核、大模型“圍欄”等技術,同樣需要大量的行業(yè)經(jīng)驗積累和技術搭建。
然而,騰訊的通用大模型不僅跨過了這三道關,而且已經(jīng)接入不少自家和行業(yè)應用中,給大模型落地“打了個樣”。
像是代碼輔助領域,騰訊云的AI代碼助手接入混元大模型后,在代碼補全場景中,代碼生成率直接提升到30%,程序員采用的比率也達到30%。
換言之,相比重復編寫某些代碼,現(xiàn)在30%的工作都能交給大模型干了。
又像是線上會議領域,混元大模型還支持騰訊會議APP打造AI小助手,一鍵就能總結(jié)會議的綱要、實時更新當前會議話題,并在會議前后對需要掌握的內(nèi)容進行總結(jié),堪稱“打工人摸魚神器”。
配合3D會議、音視頻處理能力,即使實時使用大模型也能很好地hold住會議流暢度,不會出現(xiàn)使用后體驗反而降低的問題。
同時,騰訊還宣布,騰訊混元大模型將通過騰訊云正式對外開放,既可以調(diào)用混元大模型的API,也可以基于它做模型精調(diào)。
這些將大模型“開箱可用”、快速落地行業(yè)的案例,騰訊云究竟是怎么實現(xiàn)的?
騰訊云的大模型“底座”長啥樣?
答案或許能從騰訊云為大模型搭建的兩層“底座”中找到。
無論是“基礎層”的算力、數(shù)據(jù)、安全性能力,還是“行業(yè)層”快速落地應用、模型精調(diào)能力,騰訊云都已經(jīng)迭代出了一套內(nèi)部經(jīng)驗公式,并將它們轉(zhuǎn)變?yōu)榭捎玫墓ぞ摺?/p>
先來看看“基礎層”的三大技術。
數(shù)據(jù)上,基于大模型落地積累的數(shù)據(jù)清洗、存儲和檢索能力,騰訊云打造了云原生的數(shù)據(jù)湖倉和向量數(shù)據(jù)庫。
其中,數(shù)據(jù)湖倉用于存儲、處理各種類型和格式的原始數(shù)據(jù),能將原始數(shù)據(jù)與經(jīng)過清洗和轉(zhuǎn)換的數(shù)據(jù)存儲在同一個環(huán)境中并進行處理;向量數(shù)據(jù)庫則相當于提供了一個高效的“查詢接口”。
針對模型迭代過程中遇到的數(shù)據(jù)清洗問題,基于數(shù)據(jù)湖倉和向量數(shù)據(jù)庫技術,已經(jīng)能做到每秒寫入百萬級數(shù)據(jù),清洗時吞吐能力達到Tbps。
基于這套方案,在大模型訓練時,數(shù)據(jù)清洗性能提升超過40%,數(shù)據(jù)處理運營成本整體降低50%;
在大模型推理階段,向量數(shù)據(jù)庫不僅能提供行業(yè)知識快速查找,日均處理向量檢索千億次。
算力上,通過對計算、網(wǎng)絡和存儲的升級,騰訊云做出了一套專門面向大模型訓練的新一代HCC高性能計算集群,不僅算力性能相比之前提升3倍,互聯(lián)帶寬更是達到3.2Tbps。
其中,騰訊云在計算方面自研了星星海服務器,將GPU服務器故障率降低超過50%,避免大模型訓練過程中出bug帶來的成本成倍增加;
網(wǎng)絡方面則基于星脈自研網(wǎng)絡,做到支持超過10萬張卡并行計算;
存儲方面進一步提升了數(shù)據(jù)吞吐量,已經(jīng)能做到在60秒內(nèi)寫入3TB數(shù)據(jù),便于在GPU等計算卡發(fā)生故障時,快速寫入保存和讀出模型參數(shù),提升訓練效率。
這也是騰訊云將大模型的迭代周期不斷提速的“核心秘訣”。
大模型創(chuàng)業(yè)公司如百川智能、MiniMax等,都已經(jīng)用上騰訊云的這套解決方案。
安全上,騰訊云在輸入和輸出上進行了“雙重技術防護”。
先是針對大模型輸入,騰訊云將玄武實驗室打造的一套隱私安全解決方案用到大模型中,用戶可以在端側(cè)部署使用,確保和大模型交互時,輸入的提示詞等敏感數(shù)據(jù)不被記錄;
同時,針對大模型訓練過程,騰訊云還將多年積累的內(nèi)容安全能力完善成了一套工具,確保大模型“吐出”的內(nèi)容是安全、可控、合規(guī)的。
不僅是降低模型整體訓練成本的“基礎層”,騰訊云還將精調(diào)參數(shù)設計和各類開源大模型集成到一整套“行業(yè)層”工具上。
這個工具,就是騰訊云TI平臺。騰訊云TI平臺提供做大模型過程中的精調(diào)、部署等全棧式工具,用戶只需少量算力+領域?qū)I(yè)數(shù)據(jù),就能快速提升特定任務效果,更快更高效地構(gòu)建出行業(yè)大模型。
用戶在TI平臺上可以基于混元大模型打造行業(yè)專屬模型,也可以調(diào)用Llama 2、Falcon、Dolly、Vicuna、Bloom、Alpaca等20多個業(yè)界當前主流的大模型。而且,調(diào)用這些大模型也不需要復雜的調(diào)試過程,甚至可以在騰訊云平臺上一鍵調(diào)用測試效果。
可以說,相比于開放Chat,先“卷大模型”的思路,騰訊云的考量,從一開始就有點不太一樣——
直接比拼大模型業(yè)務“倍增器”的能力,建立起讓大模型在更快在行業(yè)中落地的“底座”。
騰訊這么干,是不是悟到了什么?
大模型時代的云,競速門檻變了
這一切,還要從大模型給云計算行業(yè)帶來的沖擊說起。
云計算作為一個自大模型誕生始,就與其緊密關聯(lián)的行業(yè),在浪潮涌起的最初時刻,就被預言“規(guī)則重寫”。
在過去幾個月,我們也看到MaaS(模型即服務)作為云廠商新的競技場,已然成為云產(chǎn)品架構(gòu)中不可或缺的一環(huán)。
就在這一輪新的競逐中,場上玩家如騰訊,逐漸摸清了水面之下的暗流。
首先,云是大模型的最佳載體,尤其是在大模型越來越成熟,開始走向應用落地的階段,云計算底座的重要性愈發(fā)凸顯,正式進入關鍵的競爭階段。
因為大模型的訓練和推理,涉及到的不僅僅是算力,更涉及到穩(wěn)定的GPU千卡、萬卡并行計算,存儲方面快速的寫入和讀出,以及高性能網(wǎng)絡、數(shù)據(jù)清洗、安全等等工程化能力。
當大模型走向大規(guī)模應用階段,開始跟各行各業(yè)產(chǎn)生更深入的融合,一方面,重復造輪子并不現(xiàn)實,越來越多的企業(yè)需要低門檻接入、使用大模型的平臺。
另一方面,正如馬化騰此前在財報電話會中所說:
越想越覺得這(大模型)是幾百年不遇的、工業(yè)革命一樣的機遇,但做它的確需要很多積累。
對于工業(yè)革命來講,早一個月把電燈泡拿出來在長的時間跨度上來看是不那么重要。關鍵還是要把底層的算法、算力和數(shù)據(jù)扎扎實實做好。
這其中的“很多積累”,除了大模型技術本身,云計算技術也是不可或缺的一部分。
以騰訊云為例,能在過去幾個月中,迅速組織起從算力集群,到數(shù)據(jù)處理引擎,再到保障模型安全、支持模型訓練和精調(diào)的工具鏈等全套大模型輔助能力,絕非偶然突擊可得:
騰訊新一代HCC高性能計算集群中用到的星脈高性能計算網(wǎng)絡,背后已歷經(jīng)三代技術演進。
騰訊云向量數(shù)據(jù)庫,則早在2019年就已在內(nèi)部進行孵化。其向量化能力在2021年曾登頂MS MARCO榜單第一,相關成果已發(fā)表在NLP頂會ACL上。
……
其次,對于云計算本身而言,也需要順應大模型給各行各業(yè)帶來的創(chuàng)新潮流。
直觀的一個體現(xiàn)是,大模型將重新定義、甚至重構(gòu)云上工具。云廠商需要提供智能化水平更高、更便捷易用的云產(chǎn)品,來適應新技術沖擊下企業(yè)用戶降本增效的新需求。
關鍵問題在于,作為一個明確以需求驅(qū)動的名詞,“產(chǎn)品”從誕生之初就應當有其明確的落地場景所在,而不能是手握錘子,看什么都是釘子。
相比一個僅展示了chat功能的“半成品”,騰訊一直在將場景需求融入進大模型中,力圖讓它從誕生之初就直接落地可用。
正因如此,在發(fā)布前騰訊才會將大模型提前接入自家各種APP中,通過用戶的反饋找到最直接的需求場景,再據(jù)此將功能落地。
邱躍鵬指出,“大模型進一步提升了云產(chǎn)品的效能”。
目前,包括騰訊云AI代碼助手、騰訊會議AI小助手在內(nèi)的產(chǎn)品,都已經(jīng)用大模型能力,實現(xiàn)了不少用戶的“AI設想”,完成了顯著的效率提升和體驗優(yōu)化。
△騰訊會議AI總結(jié)會議要點
而無論是云計算基礎設施對于大模型應用落地的支撐,還是大模型給云計算帶來變革,最終都指向一點:
大模型時代的云,競速規(guī)則已經(jīng)改變。
甚至隨著技術的發(fā)展、應用的深入,僅有算力已經(jīng)夠不到準入門檻,從網(wǎng)絡到存儲,從底層計算到上層應用,對云計算基礎設施更全面、更綜合的考量正在拉開序幕。
所以大模型如何變革云計算游戲規(guī)則,云計算又如何反作用于大模型的下一步發(fā)展,騰訊已經(jīng)給出了思考和實踐。
大模型的發(fā)展,最后還是要看背后的云計算廣度和厚度。大模型決定了智能應用和服務的能力,云計算決定了大模型的能力。
云計算是底層基礎,大模型是上層建筑,AIGC應用都是這個基礎和上層建筑上的磚瓦生態(tài)。