加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • █?問題1:為什么要搞大模型?
    • █?問題2:大模型,到底該怎么搞?
    • █?問題3:大模型,要搞成什么樣?
    • █?問題4:混元大模型,到底怎么用?
    • █?結語
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

后發(fā)而先至的騰訊混元大模型,到底有哪些技術亮點?

2023/09/13
3428
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2023年的夏天已經(jīng)結束了,但是,圍繞AIGC大模型的關注熱度,卻絲毫沒有衰退的意思。

在過去的大半年里,我們親眼見證了大模型浪潮的崛起,甚至可以說是瘋狂。截止7月,國內(nèi)的大模型數(shù)量,已經(jīng)超過130個。

這些大模型的創(chuàng)造者,既有國有及民營企業(yè),也有大學、科研院所等研究機構。從某種意義上來說,發(fā)布大模型,已經(jīng)成為宣示自身實力的一種方式。

不知道大家有沒有注意到,國內(nèi)互聯(lián)網(wǎng)大廠百度和阿里,都早早推出了自家的大模型。而身為BAT“三巨頭”之一的騰訊,卻一直很低調(diào)。

幾天前,9月7日,在2023騰訊全球數(shù)字生態(tài)大會上,騰訊自家的通用大語言模型——騰訊混元大模型終于亮相了。

為什么騰訊的大模型“不著急”?是他們不重視這場科技浪潮嗎?還是說,他們的AI技術不足,在競爭中落后于人?

很顯然,這些說法都不對。

ChatGPT是AIGC大模型浪潮的導火線,但是,它并不是大模型的最早開端。

業(yè)界對大模型的研究,其實早幾年就已經(jīng)開始了。當時,AIGC并沒有這么高的熱度。2022年底,ChatGPT橫空出世,展現(xiàn)出驚人的自然語言能力,才徹底激發(fā)了整個社會對大模型的關注。

正如前面所說,很多企業(yè)之所以不惜一切代價搞大模型,完全是為了追逐“風口”。

騰訊集團副總裁蔣杰在采訪中介紹:“在騰訊內(nèi)部,混元已經(jīng)內(nèi)測很久了,不是現(xiàn)在第一天才有?!彬v訊是國內(nèi)最早研究大模型的企業(yè)之一。2021年,騰訊推出了千億規(guī)模的NLP大模型。2022年,騰訊推出萬億參數(shù)的 NLP 稀疏大模型。換言之,他們的大模型研究,是國內(nèi)領先的。

ChatGPT火了之后,騰訊更加理性地思考了自己的大模型戰(zhàn)略,提出了四大靈魂拷問:

1、自己為什么要搞大模型?

2、自己的大模型,要怎么搞?

3、自己的大模型,要搞成什么樣?

4、搞出大模型之后,到底怎么用?

在經(jīng)過審慎思考和激烈討論之后,他們終于理清了自己的答案,按照自己的節(jié)奏,穩(wěn)步向前推進。

騰訊混元大模型,就是在這樣的背景下誕生的。

接下來,我們不妨仔細看看,騰訊混元大模型,究竟是如何解答這四個靈魂之問的。

?問題1:為什么要搞大模型?

今年3月,騰訊總裁兼投資委員會主席劉熾平,在財報電話會議上曾經(jīng)表示:“AI將成為公司未來業(yè)務增長的放大器。生成式AI和基礎模型技術可以補充優(yōu)化騰訊的業(yè)務?!?(大模型)將在未來對每個業(yè)務線都起到正向補充作用。同時,這也有助于推出新業(yè)務?!?/p>

他還表示,“我們希望沿著正確的路線踏實前進,不急于求成,先打好基礎,再追求新進展,我們的第一款產(chǎn)品將會是多次迭代之后的產(chǎn)品,整個過程將是長期的?!?/p>

他的表態(tài),其實已經(jīng)說明了騰訊對大模型的戰(zhàn)略基調(diào)——緊密結合自身業(yè)務線,穩(wěn)步推進,長期迭代。

在發(fā)布會上,騰訊集團高級執(zhí)行副總裁、云與智慧產(chǎn)業(yè)事業(yè)群 CEO 湯道生也提到:“大模型需要基于產(chǎn)業(yè)場景,與企業(yè)數(shù)據(jù)融合,才能釋放出最大的價值?!?/p>

也就是說,騰訊不會為了搞大模型而搞大模型。既然要搞,就是沖著實用性去的。

基于這個目標搞出來的混元大模型,是“從實踐中來,到實踐中去”的實用級大模型。它關注的不是推出速度和評測跑分,而是如何真正與實際場景結合,滿足用戶的真實需求。

?問題2:大模型,到底該怎么搞?

大模型是一場技術博弈。既然決定要做,就必須做出差異化的競爭優(yōu)勢,找準技術路線。

騰訊混元大模型,最大的特點,就是——全鏈路自研

行業(yè)里現(xiàn)有的很多大模型,都是開源大模型。東西拿來就用,依葫蘆畫瓢,當然推出速度會快。

蔣杰表示,騰訊是一個海量高并發(fā)的業(yè)務,開源的架構并不適應騰訊,一定要走出一套基于自主體系的研發(fā)之路。唯有自研,才能完全掌握技術內(nèi)核,將大模型更好地融入到自身的技術棧中。所以,他們走上了更加具有挑戰(zhàn)性的自研之路。

騰訊混元大模型從第一個token開始從零訓練,掌握了從模型算法到機器學習框架,再到AI基礎設施的全鏈路自研技術。

算法方面,騰訊在預訓練上從零啟動訓練,優(yōu)化預訓練算法及策略,精調(diào)及強化學習,改進注意力機制,并開發(fā)了思維鏈新算法。

機器學習框架方面,騰訊采用的是自主研發(fā)的機器學習框架Angel,訓練速度相比業(yè)界主流框架提升1倍,推理速度比業(yè)界主流框架提升1.3倍。

基礎設施方面,采用基于云星星海自研服務器的新一代HCC高性能算力集群,搭載了超強算力GPU,性能提升了3倍。

算力集群所基于的網(wǎng)絡底座——,具備業(yè)界最高的3.2T通信帶寬,可以為AI大模型帶來10倍通信性能提升。通過自研TiTa協(xié)議和自研TCCL通信庫,星脈網(wǎng)絡可將網(wǎng)絡利用率從普通以太網(wǎng)的60%提升到90%以上,極大提高整體集群的算力利用率。

根據(jù)驗證,騰訊新一代計算集群可以幫助混元NLP大模型訓練在同等數(shù)據(jù)集下,將訓練時間由50天縮短到4天。

?問題3:大模型,要搞成什么樣?

全鏈路自研,投入雖然大,但回報也是顯著的。

騰訊混元大模型,擁有超千億參數(shù)規(guī)模,預訓練語料超2萬億tokens,具備強大的中文創(chuàng)作能力,復雜語境下的邏輯推理能力,以及可靠的任務執(zhí)行能力。

相比于業(yè)界已有的大模型,騰訊混元大模型在可靠性和成熟度方面,有巨大的提升。

首先,它可以降低大語言模型的幻覺比例。

使用過大模型的讀者都知道,大模型很容易出現(xiàn)“一本正經(jīng)胡說八道”的問題。也就是說,AI模型生成了不屬于現(xiàn)實世界的內(nèi)容。這就是“幻覺”。“幻覺”是大語言模型每一個廠家都應該面臨的重要問題,無論技術做到什么程度,在當前的模型架構下,都無法回避“幻覺”。

針對“幻覺”問題,當前業(yè)界普遍的解決方式是采用外掛插件,即給大模型“外掛”一個知識庫,使其在推理時進行檢索,基于檢索結果再進行輸出,提高正確率。

這個方式,在遇到復雜任務時,效果有限。

騰訊混元大模型所采取的方式,是在預訓練階段,就通過“探真”算法,進行事實修正。它擺脫了對外掛的依賴,有效降低了復雜任務中的幻覺。

根據(jù)測試,經(jīng)過預訓練算法及策略的整體優(yōu)化后,混元大模型相比其他主流開源大模型,幻覺比例降低了30%-50%。

更多的理性,更少的“胡說八道”

其次,混元大模型的“陷阱”識別能力大幅提升,可以更好地抗拒“誘導”。

人們在使用大模型時,經(jīng)常會對它進行“調(diào)戲”。也就是說,問一些刁鉆問題,給大模型設置“陷阱”,得到令人啼笑皆非的答案。

騰訊通過強化學習的方法,讓混元大模型學會識別“陷阱”,對“調(diào)戲”說不,提升應用的安全性和智能感。根據(jù)數(shù)據(jù)顯示,面對安全誘導類問題,混元大模型的拒答率提升了20%。

拒絕“挖坑”

除了上面提到的可靠性改進之外,混元也大幅提升了成熟性。

混元大模型覆蓋了短文本和千字級別長文本生成能力。

當前市面上大模型在超長任務處理上很難實現(xiàn)。騰訊通過位置編碼優(yōu)化,提升長文的處理效果和性能,結合指令跟隨優(yōu)化,讓產(chǎn)出內(nèi)容更符合字數(shù)要求,從而提升超長文本的生成和續(xù)寫能力。

在邏輯思考能力上,混元大模型持結合實際場景推理決策。

在大模型訓練中,一些團隊會讓大模型通過“死記硬背”的方式學會中小學的數(shù)學題。但是在現(xiàn)實生活中,靠“背題”是不夠的,還需要讓大模型具備理解上下文的能力。騰訊推出思維鏈新策略,有效強化模型對問題拆解和分步思考的傾向。

以上這些特性,使得混元大模型在使用體驗上和傳統(tǒng)大模型有明顯區(qū)別。它的智能化程度更好,表現(xiàn)更加穩(wěn)定,更像是一個真正的專家和助手。

在中國信通院《大規(guī)模預訓練模型技術和應用的評估方法》的標準符合性測試中,混元大模型共測評了66個能力項。在“模型開發(fā)(共測試29個能力項)”和“模型能力(共測試37個能力項)”這兩個重要領域的綜合評價中,均獲得了當前的最高分。

?問題4:混元大模型,到底怎么用?

前面我提到,混元大模型是“從實踐中來,到實踐中去”的實用級大模型。為了充分發(fā)揮混元的實用價值,騰訊率先將自己的眾多互聯(lián)網(wǎng)業(yè)務與混元進行結合、落地。

目前,騰訊云、騰訊廣告、騰訊游戲、騰訊金融科技、騰訊會議、騰訊文檔、微信搜一搜、QQ瀏覽器等50多個騰訊內(nèi)部業(yè)務和產(chǎn)品,已經(jīng)接入騰訊混元大模型測試并取得初步效果。

騰訊機器學習平臺部副總經(jīng)理王迪提到,騰訊混元大模型和各個產(chǎn)品的結合,并不是一種強制綁定的關系,而是更關注產(chǎn)品在用戶體驗上的優(yōu)化,關注哪些地方可以通過AI提效。

例如,基于混元的騰訊會議AI小助手,可以快速實現(xiàn)會中問答、會議摘要、會議待辦項等多種事項。

再例如,基于混元的騰訊文檔智能助手功能(內(nèi)測中),不僅支持數(shù)十種文本創(chuàng)作場景,還能生成上百種專業(yè)文書規(guī)范,以及用自然語言生成數(shù)百種Excel公式等。

王迪表示,在將大模型的能力和業(yè)務場景結合的過程中,需要做大量的工作,比如怎么把混元大模型的基礎指令理解能力、文字總結能力與會議APP里AI的能力和會議內(nèi)容生成能力結合。如果只是單純將大模型直接放進去,短期不一定真的能夠?qū)I(yè)務帶來很大的提升。一定是針對業(yè)務場景進行專門的優(yōu)化和提效,才能達到更好的效果。

在混元大模型的研究過程中,其實就已經(jīng)從騰訊豐富的應用場景中進行了技術積累。場景鍛煉了模型,模型反過來服務場景,形成了良性循環(huán)。

蔣杰表示,騰訊混元大模型團隊關注的首先是做好技術本身,回歸本質(zhì),做好技術的突破和路徑規(guī)劃。在內(nèi)部,會把混元所有的能力開放給騰訊所有的業(yè)務。

內(nèi)部業(yè)務場景的實踐,是為外部服務開放做準備。在發(fā)布會上,蔣杰鄭重宣布:騰訊混元大模型已正式通過騰訊云對外開放,助力全行業(yè)。

混元大模型將作為騰訊云MaaS服務的底座,用戶不僅可以直接通過API調(diào)用混元,也可以將混元作為基底模型,為不同產(chǎn)業(yè)場景構建專屬應用。

?結語

騰訊對四大靈魂之問的探索,最終為混元大模型的問世奠定了基礎。

正所謂“方向?qū)α耍Σ庞幸饬x”。騰訊在喧囂躁動中堅持理性思考,在找準目標后,果斷投入,進行艱苦自研。最終,他們拿出了能經(jīng)受考驗的產(chǎn)品,也走出了自己的獨特道路。

他們的做法無疑是正確的,也帶給整個行業(yè)以啟示。在百模大戰(zhàn)逐漸升級的今天,很多公司都將面對自己的靈魂拷問。

大浪淘沙沙去盡,沙盡之時見真金。唯有那些給出正確答案的大模型,才能笑到最后,成為真正的贏家。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
ATXMEGA64A4U-CU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 49VFBGA
$4.53 查看
PIC32MX575F512L-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$8.67 查看
ATXMEGA32A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$3.78 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is "Value for Users, Tech for Good".收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜

通信行業(yè)知名新媒體鮮棗課堂創(chuàng)始人,通信行業(yè)資深專家、行業(yè)分析師、自媒體作者,《智聯(lián)天下:移動通信改變中國》叢書作者。通信行業(yè)13年工作經(jīng)驗,曾長期任職于中興通訊股份有限公司,從事2/3/4G及5G相關技術領域方面的研究,曾擔任中興通訊核心網(wǎng)產(chǎn)品線產(chǎn)品經(jīng)理、能力提升總監(jiān)、中興通訊學院二級講師、中興通訊高級主任工程師,擁有豐富的行業(yè)經(jīng)驗和積累。