作者|油醋
騰訊的通用大語言模型“混元”終于亮相,不太轟動,沒那么性感,卻足夠務(wù)實(shí)。
在做大模型這件事上,騰訊身上有很多外界不理解的地方,比如:
為什么直到9月才發(fā)大模型。
順序上為什么是先做MaaS平臺,然后再把自己的基礎(chǔ)模型拿出來。
這樣一個(gè)在C端產(chǎn)品上強(qiáng)勢的互聯(lián)網(wǎng)公司,直到混元大模型都出來了,也沒有拿出個(gè)APP,不管是OpenAI還是百度都有產(chǎn)品了,甚至期許類似的字節(jié)跳動也都搞出個(gè)豆包了。
外界替騰訊急,騰訊終于給了回應(yīng)?;卮鸷芎唵危骸癘penAI是一個(gè)創(chuàng)業(yè)公司”。言下之意,騰訊做大模型的狀態(tài),與一家創(chuàng)業(yè)公司會有區(qū)別。
說這句話的是騰訊集團(tuán)副總裁蔣杰,他正在領(lǐng)導(dǎo)混元大模型的研發(fā)團(tuán)隊(duì),這句話有幾層意思。
一是,這是一家做了20年產(chǎn)品的公司。做一個(gè)ChatGPT或者文心一言盡快落到用戶手機(jī)上,也是為了有更多真實(shí)的用戶語料數(shù)據(jù),回補(bǔ)給大模型去迭代,邊打仗邊學(xué)習(xí)。
但幾乎10年前,騰訊所有產(chǎn)品的總?cè)战尤霐?shù)據(jù)量已經(jīng)200TB,并發(fā)分揀業(yè)務(wù)接口10000個(gè),5年前騰訊系產(chǎn)品占移動互聯(lián)網(wǎng)用戶總使用時(shí)長的42.3%——現(xiàn)在微信的月活用戶超過13億,QQ超過6億,這場仗騰訊已經(jīng)打過了。
而10年前帶著騰訊擁抱大數(shù)據(jù)技術(shù)的人正是蔣杰,這位混元大模型技術(shù)側(cè)的負(fù)責(zé)人同時(shí)在騰訊內(nèi)部全面負(fù)責(zé)騰訊廣告的產(chǎn)品技術(shù)業(yè)務(wù)?;煸竽P退勒痰模约八磥硎紫瓤聪虻臉I(yè)務(wù),都隱約透露出來。
二是,雖然騰訊豐富的C端產(chǎn)品下有一座語料富礦,但混元大模型其實(shí)做的很重,它沒有先奔著一個(gè)聊天Bot去,而更偏向B端。但去往B端的大模型們,往往執(zhí)著于插旗,也就是進(jìn)入企業(yè)視線的先后順序。從這個(gè)角度看,混元大模型無疑是滯后了,甚至MaaS也像是給他人做了嫁衣。
但湯道生從與客戶的交流中聽出來,目前企業(yè)客戶往往并未篤定一家模型,而是更傾向于多家接入,做嘗試和觀望?!斑@個(gè)行業(yè)太新了,還在早期,不存在追趕”。所以對于騰訊來說,這件事的步調(diào)仍然“以我為主”。
不搶先手,就要更實(shí)用。騰訊想做一個(gè)能夠盡快進(jìn)入行業(yè)的大模型。而不是早早拿出來,然后懸浮在無數(shù)行業(yè)和企業(yè)上空一直無法下沉。
這意味著混元大模型需要在內(nèi)部完成一系列最大強(qiáng)度的能力驗(yàn)證?!膀v訊不是一家創(chuàng)業(yè)公司”的另一面是,它已經(jīng)在內(nèi)部攢了足夠多能夠成為大模型假想敵的B端產(chǎn)品。
比如4億用戶的騰訊會議,用戶數(shù)量同樣在億級以上的騰訊文檔,或者覆蓋了6億用戶的騰訊廣告。
“我們首先選擇在騰訊文檔,騰訊會議中做壓力測試,如果在這兩個(gè)場景中能夠通過,那在別的地方也沒問題。”一位One ID團(tuán)隊(duì)的開發(fā)人員這樣解釋騰訊在統(tǒng)一身份認(rèn)證時(shí)的內(nèi)測順序,同樣的思路也適用于混元大模型。
除了這三個(gè),還有包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜、QQ瀏覽器等超過50個(gè)騰訊業(yè)務(wù)和產(chǎn)品,都已經(jīng)接入騰訊混元大模型測試做了一段時(shí)間內(nèi)測。
換句話說,混元大模型成型的并不晚,只是拿出來晚。湯道生表示,這沿襲了騰訊一貫對于產(chǎn)品質(zhì)量的要求。
而大模型的“實(shí)用”再展開一層,就是“可靠”和“成熟”?!翱煽俊笨梢岳斫獬蓪糜X的控制。
幻覺指的是不基于事實(shí)而臆造答案的現(xiàn)象,這在大模型中非常普遍,也是阻擋大模型能力從一個(gè)手邊玩具真正進(jìn)入實(shí)際層面應(yīng)用的重要原因之一。
從模型預(yù)訓(xùn)練、微調(diào)以及外掛插件層面都可以一定程度減少幻覺的產(chǎn)生,但相比于外掛層面對于幻覺的抑制,直接動大模型要來的更有效,但門檻也更高。
“盡管這些技術(shù)(外掛抑制幻覺)我們也會用,但是比例不是很高,混元大模型是在大模型的預(yù)訓(xùn)練階段來控制這個(gè)問題”,蔣杰在采訪中透露?;谝环N探針技術(shù),混元大模型能夠?qū)崿F(xiàn)在預(yù)訓(xùn)練階段優(yōu)化目標(biāo)函數(shù),使得幻覺率比目前市場上的主流開源大模型降低了30%~50%。
“成熟”的一個(gè)衡量尺度是回答的文本篇幅。
混元大模型通過位置編碼優(yōu)化和結(jié)合指令跟隨的優(yōu)化技術(shù),提升了長文本的處理效果和性能,輸出文字回答篇幅超過4000字——做個(gè)對比,GPT-4的中文回答篇幅只限于2000字以內(nèi)。這極大拓寬了混元大模型的使用場景。
整體來看,混元大模型的參數(shù)規(guī)模達(dá)到千億級,預(yù)訓(xùn)練語料超2萬億tokens。支持直接調(diào)用 API 接口或者將其作為基底模型在公有云上進(jìn)行精調(diào)。目前混元大模型支持的功能有多輪對話、內(nèi)容創(chuàng)作、邏輯推理以及知識增強(qiáng),值得注意的是,多模態(tài)能力也已被列出,將在未來上線。
圖源:騰訊云官網(wǎng)
蔣杰強(qiáng)調(diào),混元大模型是“從第一個(gè)token開始從零訓(xùn)練的”,“騰訊不是一家創(chuàng)業(yè)公司”也意味著,騰訊在混元大模型背后有一條從AI基礎(chǔ)設(shè)施到機(jī)器學(xué)習(xí)框架,再到模型算法的一套全鏈路自研技術(shù)。
在底層算力上,騰訊云在今年4月發(fā)布了面向大模型訓(xùn)練的新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群,采用最新一代騰訊云星星海自研服務(wù)器,搭載NVIDIA H800 Tensor Core GPU,提供互聯(lián)帶寬可達(dá)到3.2T。
此HCC高性能計(jì)算集群的基礎(chǔ)則是騰訊的星脈高性能計(jì)算網(wǎng)絡(luò),騰訊在今年6月首次對外透露了自身數(shù)據(jù)中心網(wǎng)絡(luò)的代際變化。
最初騰訊建立標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),衡量標(biāo)準(zhǔn)是QQ的在線人數(shù)。在線人數(shù)增長超過1億,服務(wù)器的數(shù)量要增加10萬臺。這時(shí)候的數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。
初期的PC互聯(lián)網(wǎng)時(shí)代迅速過渡到大數(shù)據(jù)和云計(jì)算時(shí)代,云服務(wù)客戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)也從此前南北向流量逐漸演變成南北與東西向流量兼顧的云網(wǎng)絡(luò)架構(gòu)。標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò)逐漸向200萬臺服務(wù)器構(gòu)成的超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)擴(kuò)展。
而當(dāng)下大規(guī)模算力驅(qū)動的數(shù)據(jù)網(wǎng)絡(luò)需求特征,則進(jìn)一步推動騰訊形成一個(gè)新的軟硬件協(xié)同,有著超大帶寬并且符合AI訓(xùn)練流量特征的高性能計(jì)算網(wǎng)絡(luò)。
騰訊有著大量高并發(fā)業(yè)務(wù),這使得許多開源框架并不適合騰訊的體量,這倒逼騰訊要走出一條基于自主體系的研發(fā)道路。
模型訓(xùn)練自帶的黑箱屬性也迫使騰訊要在技術(shù)環(huán)節(jié)上自主可控,這是做一個(gè)足夠有現(xiàn)實(shí)意義的大模型的基礎(chǔ)。
“如果你不從頭做自研的話,意味著對這個(gè)技術(shù)你沒有完全掌握,(以后)別人的一個(gè)模型訓(xùn)練好了,里面有一些違法或有害的信息或回答出現(xiàn),你就沒辦法做更多更改了,”蔣杰在采訪中表示。
基于算力和網(wǎng)絡(luò)基礎(chǔ),以及提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持的機(jī)器學(xué)習(xí)平臺TI-ONE,騰訊云在今年6月首先推出了MaaS平臺。到了8月,TI平臺已經(jīng)全面接入Llama 2、Falcon等20多個(gè)主流模型,成為國內(nèi)第一批上架和支持開源模型的大模型廠商,直到此次混元大模型正式上線。
但在這次亮相之后,“混元大模型”這個(gè)名字或許又會隱去。就像它長久以來都已經(jīng)作為騰訊云MaaS平臺底座存在一樣??梢源_定的事,未來騰訊會議、騰訊文檔甚至微信和QQ們的變革,將從這里開始。
大模型的熱鬧是具體的。但熱鬧過后,它仍然是一種過于發(fā)散而抽象的能力。而從互聯(lián)網(wǎng)時(shí)代開始,騰訊一直在做的事就是將抽象的能力具像化,然后放到用戶面前。
決勝負(fù)的仍然是產(chǎn)品。