作者|油醋
騰訊的通用大語(yǔ)言模型“混元”終于亮相,不太轟動(dòng),沒(méi)那么性感,卻足夠務(wù)實(shí)。
在做大模型這件事上,騰訊身上有很多外界不理解的地方,比如:
為什么直到9月才發(fā)大模型。
順序上為什么是先做MaaS平臺(tái),然后再把自己的基礎(chǔ)模型拿出來(lái)。
這樣一個(gè)在C端產(chǎn)品上強(qiáng)勢(shì)的互聯(lián)網(wǎng)公司,直到混元大模型都出來(lái)了,也沒(méi)有拿出個(gè)APP,不管是OpenAI還是百度都有產(chǎn)品了,甚至期許類(lèi)似的字節(jié)跳動(dòng)也都搞出個(gè)豆包了。
外界替騰訊急,騰訊終于給了回應(yīng)?;卮鸷芎?jiǎn)單:“OpenAI是一個(gè)創(chuàng)業(yè)公司”。言下之意,騰訊做大模型的狀態(tài),與一家創(chuàng)業(yè)公司會(huì)有區(qū)別。
說(shuō)這句話(huà)的是騰訊集團(tuán)副總裁蔣杰,他正在領(lǐng)導(dǎo)混元大模型的研發(fā)團(tuán)隊(duì),這句話(huà)有幾層意思。
一是,這是一家做了20年產(chǎn)品的公司。做一個(gè)ChatGPT或者文心一言盡快落到用戶(hù)手機(jī)上,也是為了有更多真實(shí)的用戶(hù)語(yǔ)料數(shù)據(jù),回補(bǔ)給大模型去迭代,邊打仗邊學(xué)習(xí)。
但幾乎10年前,騰訊所有產(chǎn)品的總?cè)战尤霐?shù)據(jù)量已經(jīng)200TB,并發(fā)分揀業(yè)務(wù)接口10000個(gè),5年前騰訊系產(chǎn)品占移動(dòng)互聯(lián)網(wǎng)用戶(hù)總使用時(shí)長(zhǎng)的42.3%——現(xiàn)在微信的月活用戶(hù)超過(guò)13億,QQ超過(guò)6億,這場(chǎng)仗騰訊已經(jīng)打過(guò)了。
而10年前帶著騰訊擁抱大數(shù)據(jù)技術(shù)的人正是蔣杰,這位混元大模型技術(shù)側(cè)的負(fù)責(zé)人同時(shí)在騰訊內(nèi)部全面負(fù)責(zé)騰訊廣告的產(chǎn)品技術(shù)業(yè)務(wù)?;煸竽P退勒痰模约八磥?lái)首先看向的業(yè)務(wù),都隱約透露出來(lái)。
二是,雖然騰訊豐富的C端產(chǎn)品下有一座語(yǔ)料富礦,但混元大模型其實(shí)做的很重,它沒(méi)有先奔著一個(gè)聊天Bot去,而更偏向B端。但去往B端的大模型們,往往執(zhí)著于插旗,也就是進(jìn)入企業(yè)視線的先后順序。從這個(gè)角度看,混元大模型無(wú)疑是滯后了,甚至MaaS也像是給他人做了嫁衣。
但湯道生從與客戶(hù)的交流中聽(tīng)出來(lái),目前企業(yè)客戶(hù)往往并未篤定一家模型,而是更傾向于多家接入,做嘗試和觀望。“這個(gè)行業(yè)太新了,還在早期,不存在追趕”。所以對(duì)于騰訊來(lái)說(shuō),這件事的步調(diào)仍然“以我為主”。
不搶先手,就要更實(shí)用。騰訊想做一個(gè)能夠盡快進(jìn)入行業(yè)的大模型。而不是早早拿出來(lái),然后懸浮在無(wú)數(shù)行業(yè)和企業(yè)上空一直無(wú)法下沉。
這意味著混元大模型需要在內(nèi)部完成一系列最大強(qiáng)度的能力驗(yàn)證?!膀v訊不是一家創(chuàng)業(yè)公司”的另一面是,它已經(jīng)在內(nèi)部攢了足夠多能夠成為大模型假想敵的B端產(chǎn)品。
比如4億用戶(hù)的騰訊會(huì)議,用戶(hù)數(shù)量同樣在億級(jí)以上的騰訊文檔,或者覆蓋了6億用戶(hù)的騰訊廣告。
“我們首先選擇在騰訊文檔,騰訊會(huì)議中做壓力測(cè)試,如果在這兩個(gè)場(chǎng)景中能夠通過(guò),那在別的地方也沒(méi)問(wèn)題。”一位One ID團(tuán)隊(duì)的開(kāi)發(fā)人員這樣解釋騰訊在統(tǒng)一身份認(rèn)證時(shí)的內(nèi)測(cè)順序,同樣的思路也適用于混元大模型。
除了這三個(gè),還有包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜、QQ瀏覽器等超過(guò)50個(gè)騰訊業(yè)務(wù)和產(chǎn)品,都已經(jīng)接入騰訊混元大模型測(cè)試做了一段時(shí)間內(nèi)測(cè)。
換句話(huà)說(shuō),混元大模型成型的并不晚,只是拿出來(lái)晚。湯道生表示,這沿襲了騰訊一貫對(duì)于產(chǎn)品質(zhì)量的要求。
而大模型的“實(shí)用”再展開(kāi)一層,就是“可靠”和“成熟”。“可靠”可以理解成對(duì)幻覺(jué)的控制。
幻覺(jué)指的是不基于事實(shí)而臆造答案的現(xiàn)象,這在大模型中非常普遍,也是阻擋大模型能力從一個(gè)手邊玩具真正進(jìn)入實(shí)際層面應(yīng)用的重要原因之一。
從模型預(yù)訓(xùn)練、微調(diào)以及外掛插件層面都可以一定程度減少幻覺(jué)的產(chǎn)生,但相比于外掛層面對(duì)于幻覺(jué)的抑制,直接動(dòng)大模型要來(lái)的更有效,但門(mén)檻也更高。
“盡管這些技術(shù)(外掛抑制幻覺(jué))我們也會(huì)用,但是比例不是很高,混元大模型是在大模型的預(yù)訓(xùn)練階段來(lái)控制這個(gè)問(wèn)題”,蔣杰在采訪中透露。基于一種探針技術(shù),混元大模型能夠?qū)崿F(xiàn)在預(yù)訓(xùn)練階段優(yōu)化目標(biāo)函數(shù),使得幻覺(jué)率比目前市場(chǎng)上的主流開(kāi)源大模型降低了30%~50%。
“成熟”的一個(gè)衡量尺度是回答的文本篇幅。
混元大模型通過(guò)位置編碼優(yōu)化和結(jié)合指令跟隨的優(yōu)化技術(shù),提升了長(zhǎng)文本的處理效果和性能,輸出文字回答篇幅超過(guò)4000字——做個(gè)對(duì)比,GPT-4的中文回答篇幅只限于2000字以?xún)?nèi)。這極大拓寬了混元大模型的使用場(chǎng)景。
整體來(lái)看,混元大模型的參數(shù)規(guī)模達(dá)到千億級(jí),預(yù)訓(xùn)練語(yǔ)料超2萬(wàn)億tokens。支持直接調(diào)用 API 接口或者將其作為基底模型在公有云上進(jìn)行精調(diào)。目前混元大模型支持的功能有多輪對(duì)話(huà)、內(nèi)容創(chuàng)作、邏輯推理以及知識(shí)增強(qiáng),值得注意的是,多模態(tài)能力也已被列出,將在未來(lái)上線。
圖源:騰訊云官網(wǎng)
蔣杰強(qiáng)調(diào),混元大模型是“從第一個(gè)token開(kāi)始從零訓(xùn)練的”,“騰訊不是一家創(chuàng)業(yè)公司”也意味著,騰訊在混元大模型背后有一條從AI基礎(chǔ)設(shè)施到機(jī)器學(xué)習(xí)框架,再到模型算法的一套全鏈路自研技術(shù)。
在底層算力上,騰訊云在今年4月發(fā)布了面向大模型訓(xùn)練的新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群,采用最新一代騰訊云星星海自研服務(wù)器,搭載NVIDIA H800 Tensor Core GPU,提供互聯(lián)帶寬可達(dá)到3.2T。
此HCC高性能計(jì)算集群的基礎(chǔ)則是騰訊的星脈高性能計(jì)算網(wǎng)絡(luò),騰訊在今年6月首次對(duì)外透露了自身數(shù)據(jù)中心網(wǎng)絡(luò)的代際變化。
最初騰訊建立標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),衡量標(biāo)準(zhǔn)是QQ的在線人數(shù)。在線人數(shù)增長(zhǎng)超過(guò)1億,服務(wù)器的數(shù)量要增加10萬(wàn)臺(tái)。這時(shí)候的數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶(hù)訪問(wèn)數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。
初期的PC互聯(lián)網(wǎng)時(shí)代迅速過(guò)渡到大數(shù)據(jù)和云計(jì)算時(shí)代,云服務(wù)客戶(hù)對(duì)網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)也從此前南北向流量逐漸演變成南北與東西向流量兼顧的云網(wǎng)絡(luò)架構(gòu)。標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò)逐漸向200萬(wàn)臺(tái)服務(wù)器構(gòu)成的超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)擴(kuò)展。
而當(dāng)下大規(guī)模算力驅(qū)動(dòng)的數(shù)據(jù)網(wǎng)絡(luò)需求特征,則進(jìn)一步推動(dòng)騰訊形成一個(gè)新的軟硬件協(xié)同,有著超大帶寬并且符合AI訓(xùn)練流量特征的高性能計(jì)算網(wǎng)絡(luò)。
騰訊有著大量高并發(fā)業(yè)務(wù),這使得許多開(kāi)源框架并不適合騰訊的體量,這倒逼騰訊要走出一條基于自主體系的研發(fā)道路。
模型訓(xùn)練自帶的黑箱屬性也迫使騰訊要在技術(shù)環(huán)節(jié)上自主可控,這是做一個(gè)足夠有現(xiàn)實(shí)意義的大模型的基礎(chǔ)。
“如果你不從頭做自研的話(huà),意味著對(duì)這個(gè)技術(shù)你沒(méi)有完全掌握,(以后)別人的一個(gè)模型訓(xùn)練好了,里面有一些違法或有害的信息或回答出現(xiàn),你就沒(méi)辦法做更多更改了,”蔣杰在采訪中表示。
基于算力和網(wǎng)絡(luò)基礎(chǔ),以及提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評(píng)估到模型服務(wù)的全流程開(kāi)發(fā)支持的機(jī)器學(xué)習(xí)平臺(tái)TI-ONE,騰訊云在今年6月首先推出了MaaS平臺(tái)。到了8月,TI平臺(tái)已經(jīng)全面接入Llama 2、Falcon等20多個(gè)主流模型,成為國(guó)內(nèi)第一批上架和支持開(kāi)源模型的大模型廠商,直到此次混元大模型正式上線。
但在這次亮相之后,“混元大模型”這個(gè)名字或許又會(huì)隱去。就像它長(zhǎng)久以來(lái)都已經(jīng)作為騰訊云MaaS平臺(tái)底座存在一樣??梢源_定的事,未來(lái)騰訊會(huì)議、騰訊文檔甚至微信和QQ們的變革,將從這里開(kāi)始。
大模型的熱鬧是具體的。但熱鬧過(guò)后,它仍然是一種過(guò)于發(fā)散而抽象的能力。而從互聯(lián)網(wǎng)時(shí)代開(kāi)始,騰訊一直在做的事就是將抽象的能力具像化,然后放到用戶(hù)面前。
決勝負(fù)的仍然是產(chǎn)品。