加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

在做大模型這件事上,騰訊不會成為一家創(chuàng)業(yè)公司

2023/09/10
2382
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者|油醋

騰訊的通用大語言模型“混元”終于亮相,不太轟動,沒那么性感,卻足夠務(wù)實(shí)。

在做大模型這件事上,騰訊身上有很多外界不理解的地方,比如:

為什么直到9月才發(fā)大模型。

順序上為什么是先做MaaS平臺,然后再把自己的基礎(chǔ)模型拿出來。

這樣一個(gè)在C端產(chǎn)品上強(qiáng)勢的互聯(lián)網(wǎng)公司,直到混元大模型都出來了,也沒有拿出個(gè)APP,不管是OpenAI還是百度都有產(chǎn)品了,甚至期許類似的字節(jié)跳動也都搞出個(gè)豆包了。

外界替騰訊急,騰訊終于給了回應(yīng)?;卮鸷芎唵危骸癘penAI是一個(gè)創(chuàng)業(yè)公司”。言下之意,騰訊做大模型的狀態(tài),與一家創(chuàng)業(yè)公司會有區(qū)別。

說這句話的是騰訊集團(tuán)副總裁蔣杰,他正在領(lǐng)導(dǎo)混元大模型的研發(fā)團(tuán)隊(duì),這句話有幾層意思。

一是,這是一家做了20年產(chǎn)品的公司。做一個(gè)ChatGPT或者文心一言盡快落到用戶手機(jī)上,也是為了有更多真實(shí)的用戶語料數(shù)據(jù),回補(bǔ)給大模型去迭代,邊打仗邊學(xué)習(xí)。

但幾乎10年前,騰訊所有產(chǎn)品的總?cè)战尤霐?shù)據(jù)量已經(jīng)200TB,并發(fā)分揀業(yè)務(wù)接口10000個(gè),5年前騰訊系產(chǎn)品占移動互聯(lián)網(wǎng)用戶總使用時(shí)長的42.3%——現(xiàn)在微信的月活用戶超過13億,QQ超過6億,這場仗騰訊已經(jīng)打過了。

而10年前帶著騰訊擁抱大數(shù)據(jù)技術(shù)的人正是蔣杰,這位混元大模型技術(shù)側(cè)的負(fù)責(zé)人同時(shí)在騰訊內(nèi)部全面負(fù)責(zé)騰訊廣告的產(chǎn)品技術(shù)業(yè)務(wù)?;煸竽P退勒痰模约八磥硎紫瓤聪虻臉I(yè)務(wù),都隱約透露出來。

二是,雖然騰訊豐富的C端產(chǎn)品下有一座語料富礦,但混元大模型其實(shí)做的很重,它沒有先奔著一個(gè)聊天Bot去,而更偏向B端。但去往B端的大模型們,往往執(zhí)著于插旗,也就是進(jìn)入企業(yè)視線的先后順序。從這個(gè)角度看,混元大模型無疑是滯后了,甚至MaaS也像是給他人做了嫁衣。

但湯道生從與客戶的交流中聽出來,目前企業(yè)客戶往往并未篤定一家模型,而是更傾向于多家接入,做嘗試和觀望?!斑@個(gè)行業(yè)太新了,還在早期,不存在追趕”。所以對于騰訊來說,這件事的步調(diào)仍然“以我為主”。

不搶先手,就要更實(shí)用。騰訊想做一個(gè)能夠盡快進(jìn)入行業(yè)的大模型。而不是早早拿出來,然后懸浮在無數(shù)行業(yè)和企業(yè)上空一直無法下沉。

這意味著混元大模型需要在內(nèi)部完成一系列最大強(qiáng)度的能力驗(yàn)證?!膀v訊不是一家創(chuàng)業(yè)公司”的另一面是,它已經(jīng)在內(nèi)部攢了足夠多能夠成為大模型假想敵的B端產(chǎn)品。

比如4億用戶的騰訊會議,用戶數(shù)量同樣在億級以上的騰訊文檔,或者覆蓋了6億用戶的騰訊廣告。

“我們首先選擇在騰訊文檔,騰訊會議中做壓力測試,如果在這兩個(gè)場景中能夠通過,那在別的地方也沒問題。”一位One ID團(tuán)隊(duì)的開發(fā)人員這樣解釋騰訊在統(tǒng)一身份認(rèn)證時(shí)的內(nèi)測順序,同樣的思路也適用于混元大模型。

除了這三個(gè),還有包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜、QQ瀏覽器等超過50個(gè)騰訊業(yè)務(wù)和產(chǎn)品,都已經(jīng)接入騰訊混元大模型測試做了一段時(shí)間內(nèi)測。

換句話說,混元大模型成型的并不晚,只是拿出來晚。湯道生表示,這沿襲了騰訊一貫對于產(chǎn)品質(zhì)量的要求。

而大模型的“實(shí)用”再展開一層,就是“可靠”和“成熟”?!翱煽俊笨梢岳斫獬蓪糜X的控制。

幻覺指的是不基于事實(shí)而臆造答案的現(xiàn)象,這在大模型中非常普遍,也是阻擋大模型能力從一個(gè)手邊玩具真正進(jìn)入實(shí)際層面應(yīng)用的重要原因之一。

從模型預(yù)訓(xùn)練、微調(diào)以及外掛插件層面都可以一定程度減少幻覺的產(chǎn)生,但相比于外掛層面對于幻覺的抑制,直接動大模型要來的更有效,但門檻也更高。

“盡管這些技術(shù)(外掛抑制幻覺)我們也會用,但是比例不是很高,混元大模型是在大模型的預(yù)訓(xùn)練階段來控制這個(gè)問題”,蔣杰在采訪中透露?;谝环N探針技術(shù),混元大模型能夠?qū)崿F(xiàn)在預(yù)訓(xùn)練階段優(yōu)化目標(biāo)函數(shù),使得幻覺率比目前市場上的主流開源大模型降低了30%~50%。

“成熟”的一個(gè)衡量尺度是回答的文本篇幅。

混元大模型通過位置編碼優(yōu)化和結(jié)合指令跟隨的優(yōu)化技術(shù),提升了長文本的處理效果和性能,輸出文字回答篇幅超過4000字——做個(gè)對比,GPT-4的中文回答篇幅只限于2000字以內(nèi)。這極大拓寬了混元大模型的使用場景。

整體來看,混元大模型的參數(shù)規(guī)模達(dá)到千億級,預(yù)訓(xùn)練語料超2萬億tokens。支持直接調(diào)用 API 接口或者將其作為基底模型在公有云上進(jìn)行精調(diào)。目前混元大模型支持的功能有多輪對話、內(nèi)容創(chuàng)作、邏輯推理以及知識增強(qiáng),值得注意的是,多模態(tài)能力也已被列出,將在未來上線。

圖源:騰訊云官網(wǎng)

蔣杰強(qiáng)調(diào),混元大模型是“從第一個(gè)token開始從零訓(xùn)練的”,“騰訊不是一家創(chuàng)業(yè)公司”也意味著,騰訊在混元大模型背后有一條從AI基礎(chǔ)設(shè)施到機(jī)器學(xué)習(xí)框架,再到模型算法的一套全鏈路自研技術(shù)。

在底層算力上,騰訊云在今年4月發(fā)布了面向大模型訓(xùn)練的新一代HCC(High-Performance Computing Cluster)高性能計(jì)算集群,采用最新一代騰訊云星星海自研服務(wù)器,搭載NVIDIA H800 Tensor Core GPU,提供互聯(lián)帶寬可達(dá)到3.2T。

此HCC高性能計(jì)算集群的基礎(chǔ)則是騰訊的星脈高性能計(jì)算網(wǎng)絡(luò),騰訊在今年6月首次對外透露了自身數(shù)據(jù)中心網(wǎng)絡(luò)的代際變化。

最初騰訊建立標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),衡量標(biāo)準(zhǔn)是QQ的在線人數(shù)。在線人數(shù)增長超過1億,服務(wù)器的數(shù)量要增加10萬臺。這時(shí)候的數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。

初期的PC互聯(lián)網(wǎng)時(shí)代迅速過渡到大數(shù)據(jù)和云計(jì)算時(shí)代,云服務(wù)客戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)也從此前南北向流量逐漸演變成南北與東西向流量兼顧的云網(wǎng)絡(luò)架構(gòu)。標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò)逐漸向200萬臺服務(wù)器構(gòu)成的超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò)擴(kuò)展。

而當(dāng)下大規(guī)模算力驅(qū)動的數(shù)據(jù)網(wǎng)絡(luò)需求特征,則進(jìn)一步推動騰訊形成一個(gè)新的軟硬件協(xié)同,有著超大帶寬并且符合AI訓(xùn)練流量特征的高性能計(jì)算網(wǎng)絡(luò)。

騰訊有著大量高并發(fā)業(yè)務(wù),這使得許多開源框架并不適合騰訊的體量,這倒逼騰訊要走出一條基于自主體系的研發(fā)道路。

模型訓(xùn)練自帶的黑箱屬性也迫使騰訊要在技術(shù)環(huán)節(jié)上自主可控,這是做一個(gè)足夠有現(xiàn)實(shí)意義的大模型的基礎(chǔ)。

“如果你不從頭做自研的話,意味著對這個(gè)技術(shù)你沒有完全掌握,(以后)別人的一個(gè)模型訓(xùn)練好了,里面有一些違法或有害的信息或回答出現(xiàn),你就沒辦法做更多更改了,”蔣杰在采訪中表示。

基于算力和網(wǎng)絡(luò)基礎(chǔ),以及提供從數(shù)據(jù)預(yù)處理、模型構(gòu)建、模型訓(xùn)練、模型評估到模型服務(wù)的全流程開發(fā)支持的機(jī)器學(xué)習(xí)平臺TI-ONE,騰訊云在今年6月首先推出了MaaS平臺。到了8月,TI平臺已經(jīng)全面接入Llama 2、Falcon等20多個(gè)主流模型,成為國內(nèi)第一批上架和支持開源模型的大模型廠商,直到此次混元大模型正式上線。

但在這次亮相之后,“混元大模型”這個(gè)名字或許又會隱去。就像它長久以來都已經(jīng)作為騰訊云MaaS平臺底座存在一樣??梢源_定的事,未來騰訊會議、騰訊文檔甚至微信和QQ們的變革,將從這里開始。

大模型的熱鬧是具體的。但熱鬧過后,它仍然是一種過于發(fā)散而抽象的能力。而從互聯(lián)網(wǎng)時(shí)代開始,騰訊一直在做的事就是將抽象的能力具像化,然后放到用戶面前。

決勝負(fù)的仍然是產(chǎn)品。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
ATXMEGA256A3BU-MH 1 Microchip Technology Inc IC MCU 8BIT 256KB FLASH 64QFN

ECAD模型

下載ECAD模型
$5.86 查看
STM32F429VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FSMC, TFT

ECAD模型

下載ECAD模型
$34.08 查看
DSPIC33EP512MU814-E/PH 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 16 X 16 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-144

ECAD模型

下載ECAD模型
$11.85 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

關(guān)注中國未來創(chuàng)新技術(shù)產(chǎn)業(yè)發(fā)展,講好科技創(chuàng)新的中國故事。

微信公眾號