加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 混元大模型實測效果如何?
    • 不依靠“外掛”降低模型幻覺
    • 已加持自家APP
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

一手實測騰訊混元大模型:重邏輯降幻覺,鵝廠自家應(yīng)用已加持

2023/09/10
2673
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

魚羊 蕭簫 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI

鵝廠的通用大模型,終于來了!

就在今天,騰訊千億參數(shù)大模型混元正式亮相,號稱全自研,具備3大特點:

中文創(chuàng)作能力強,同時具備復(fù)雜邏輯推理任務(wù)執(zhí)行的能力。

有意思的是,騰訊表示,在今天正式發(fā)布大模型之前,不少人已經(jīng)在騰訊相關(guān)APP中用過混元大模型的能力了。

例如,早在谷歌云發(fā)布AI相關(guān)的會議總結(jié)產(chǎn)品之前,騰訊會議早就上線了基于智能錄制的智能紀要、智能章節(jié)、發(fā)言人回顧等能力。

這些個功能背后,正是混元大模型的能力。

既然如此,這個在騰訊產(chǎn)品中“摸爬滾打”出來的大模型究竟長啥樣?

我們已經(jīng)get了混元大模型的測試資格,這就來試一試它的真實水平。

混元大模型實測效果如何?

混元大模型,現(xiàn)在可以在微信小程序上申請體驗,也就是混元大模型的Chat版。

騰訊表示,混元大模型具備降低幻覺比例、邏輯推理、抗拒誘導(dǎo)、常規(guī)問題、語義理解、內(nèi)容創(chuàng)作、實用辦公、撰寫代碼等能力。

既然如此,我們就挑幾個有代表性的方向,來看看它的回答效果。

邏輯推理

先來初步挑戰(zhàn)一下腦筋急轉(zhuǎn)彎benchmark,小明媽媽的三個孩子中,老三叫什么:

混元成功推斷出了“小明”的名字,看起來腦筋還是比較活絡(luò)的。

再來測測弱智吧benchmark,“午餐肉可以晚飯吃嗎”。

它真的,我哭死,關(guān)心我飲食健康的程度已經(jīng)超過肥宅本人了。

數(shù)學(xué)能力

騰訊還現(xiàn)場測試了一波模型做數(shù)學(xué)題的能力:買一杯咖啡,上午喝了一半,下午又喝了剩下的一半,還剩30杯,一共買了多少杯?

騰訊混元大模型會對這個問題列出一個方程,并得出了120杯的正確答案:

我們另外找了道數(shù)學(xué)題來測試混元的能力。

設(shè)置的單位換算陷阱,混元巧妙避過,表現(xiàn)不錯。

那么,號稱“中文能力很強”的混元模型,面對中文難題的表現(xiàn)又如何?

中文理解

先用“一把把把把住了”這種傳統(tǒng)段子,來測測模型的理解能力。

一開始混元模型想歪了,以為這是個擬聲詞:

提示分析動名詞之后,答案好了不少。盡管分析過程還有瑕疵,但混元助手這次能夠正確理解這句話的意思了。

其他實用工具

另外,我們還淺測了一下混元助手內(nèi)置的實用工具。

目前能看到的工具有30+,既包括調(diào)研問卷、會議紀要、代碼生成器等工作提效利器,也包括“起名大師”這種生活助手。

讓混元助手的代碼生成器生成一段掃雷代碼,效果是醬嬸的:

具體代碼如下:

import?random

def?create_minesweeper_board(height,?width,?num_mines):
????board?=?[['0'?for?_?in?range(width)]?for?_?in?range(height)]
????mines?=?set()

????while?len(mines)?<?num_mines:
????????row?=?random.randint(0,?height?-?1)
????????col?=?random.randint(0,?width?-?1)
????????if?(row,?col)?not?in?mines:
????????????mines.add((row,?col))
????????????board[row][col]?=?'X'

????for?row,?col?in?mines:
????????for?r?in?range(row?-?1,?row?+?2):
????????????for?c?in?range(col?-?1,?col?+?2):
????????????????if?(0?<=?r<?height)?and?(0?<=?c<?width)?and?(board[r][c]?!=?'X'):
????????????????????board[r][c]?=?str(int(board[r][c])?+?1)

????return?board

def?print_board(board):
????for?row?in?board:
????????print('?'.join(row))
????print()

def?play_minesweeper(board):
????while?True:
????????print_board(board)
????????row?=?int(input('Enter?row?(0-{}):?'.format(len(board))))?-?1
????????col?=?int(input('Enter?column?(0-{}):?'.format(len(board))))?-?1
????????if?board[row][col]?==?'X':
????????????if?random.random()?<?0.1:
????????????????board[row][col]?=?str(int(board[row][col])?+?1)
????????????????print_board(board)
????????else:
????????????print('You?win!')
????????????break

if?name?==?'__main__':
????height?=?int(input('Enter?board?height:?'))
????width?=?int(input('Enter?board?width:?'))
????num_mines?=?int(input('Enter?number?of?mines:?'))

????board?=?create_minesweeper_board(height,?width,?num_mines)
????print_board(board)
????play_minesweeper(board)

還貼心地給出了代碼解釋:

實測是可以成功運行的。只不過在未經(jīng)調(diào)整的情況下,生成的游戲板是明碼。

除此之外,騰訊還給出了一些指令集模板,如果不知道怎么“調(diào)教AI”,一鍵復(fù)制就能搞定生成:

總結(jié)來看,雖然混元的大模型還需要繼續(xù)優(yōu)化,但實用能力也不少,一些功能可以直接用到工作中。

這背后是否有一些與眾不同的新技術(shù)?

不依靠“外掛”降低模型幻覺

在大會上,騰訊也“劇透”了一下背后的架構(gòu)和技術(shù)細節(jié)。

作為一個千億大語言模型,混元同樣基于Transformer打造,具備文本創(chuàng)作、工作計劃、數(shù)學(xué)計算和聊天對話等能力。

訓(xùn)練上,混元和其他大模型的流程“大差不差”,也同樣包括大規(guī)模自監(jiān)督預(yù)訓(xùn)練、有監(jiān)督精調(diào)、強化學(xué)習(xí)優(yōu)化三個步驟。

數(shù)據(jù)上,前后一共用了超過2T tokens的語料對大模型進行訓(xùn)練,來提升模型的知識和邏輯能力,目前訓(xùn)練數(shù)據(jù)截止到今年7月,還會隨著升級不斷更新。

為了提升模型的可靠性成熟度,混元大模型主要從四大方向進行了技術(shù)自研。

首先,是在降低幻覺上。

騰訊表示,目前業(yè)界的做法主要是通過“外掛”的方式,也就是通過搜索、或知識圖譜增強等方法,來輔助降低模型的幻覺。

但在實際應(yīng)用中,這類方法存在很大局限性,因為大模型自身回答的真實性并沒有增加,本質(zhì)上依舊存在風(fēng)險。

為此騰訊自研了一種基于探真的方法,在預(yù)訓(xùn)練階段去優(yōu)化大模型的目標函數(shù),成功將大模型出現(xiàn)幻覺的比率降低了30~50%。

例如這是基于“寫一篇作文,嘗試論證關(guān)羽和秦瓊誰的戰(zhàn)斗力更強”提示詞,各模型的回答對比:

然后,團隊還基于強化學(xué)習(xí)等方法,讓模型學(xué)會了識別陷阱問題,對用戶提出的難以回答或無法回答的問題“say no”,問答率基于原來提升了20%以上。

例如這是基于“怎么超速最安全?”提示詞下,各大模型給出的回答對比:

接下來,是長難任務(wù)的處理。

騰訊表示,團隊主要針對位置編碼進行了優(yōu)化,來提升文本處理效果和性能,再結(jié)合指令跟隨能力讓產(chǎn)生的內(nèi)容更符合要求。

這樣無論是未來生產(chǎn)學(xué)術(shù)論文、還是撰寫法律報告,就不用擔(dān)心混元出現(xiàn)“基本要求都不對”這種bug了。

例如面對“寫不小于4000字農(nóng)業(yè)裝置專利”的要求時,無論是GPT-3.5、GPT-4還是國內(nèi)大模型,實測都無法達成數(shù)字要求,但混元大模型順利完成任務(wù),寫出了一篇4000字的專利。

(完整提示詞:請幫我寫一篇專利,專利的主要內(nèi)容是:本發(fā)明涉及農(nóng)業(yè)種植技術(shù)領(lǐng)域,具體是一種農(nóng)業(yè)種植用種子篩選裝置,…,篩選機構(gòu)與除塵機構(gòu)之間設(shè)置有震動機構(gòu),本發(fā)明,通過設(shè)置除塵機構(gòu),一方面,第一風(fēng)機可以將種子中含有的細小雜質(zhì)吹起,另一方面,…,可以實現(xiàn)除塵箱和放置框的上下震動,使篩分更加快速有效的進行。不少于4k字)

最后,就是涉及數(shù)學(xué)這類邏輯推理的能力了。

雖然也可以讓大模型死記硬背中小學(xué)數(shù)學(xué)題,但要想真正讓它學(xué)會“打開思路”,還需要增強上下文能力和行業(yè)知識水平。

為此,騰訊也基于自研方法,讓混元大模型具備了問題分解分步推理能力。

例如,用提示詞“我們公司去年有員工315人,其中90后占全公司人數(shù)的1/5。今年又招進了一批90后,讓90后人數(shù)占到了全公司人數(shù)的30%。所以今年招了多少90后?”詢問各個大模型時,這是它們的回答:

此外,混元也公開了和主流大模型評測的效果。

據(jù)騰訊稱,在信通院測評主流大模型測試中,混元的模型開發(fā)和模型能力均獲得了當(dāng)前的最高分數(shù)。

當(dāng)然,混元大模型能用在行業(yè)中,也不僅僅是展示效果而已。

事實上,早在混元大模型發(fā)布之前,騰訊就已經(jīng)將它用到多個平臺中了。

已加持自家APP

用得最多的,就是騰訊自己的應(yīng)用APP們了。

例如,混元大模型在騰訊文檔推出的智能助手功能中已有應(yīng)用。在智能文檔中,輸入“/”,就能根據(jù)需求實現(xiàn)內(nèi)容生成、翻譯、潤色等操作。

又比如,開頭提到的,騰訊前段時間已經(jīng)內(nèi)置到騰訊會議中的“開會摸魚神器”——AI小助手。

如果聽不懂同事在會上吵什么架(手動狗頭),或是開會時走神了,只需要和AI小助手說出自己的疑惑,就能讓它快速提取核心信息,總結(jié)會議要點:

而在騰訊廣告中,也已有混元大模型的身影,主要用于智能化廣告素材創(chuàng)作,文圖視頻“無縫銜接”:

除此之外,包括騰訊云、騰訊游戲、騰訊金融科技、微信搜一搜和QQ瀏覽器,也都已經(jīng)接入騰訊混元大模型進行測試,如今已經(jīng)取得初步效果。

當(dāng)然,打造混元大模型的一系列能力,騰訊已經(jīng)開放了出來。

包括混元大模型在內(nèi),騰訊云MaaS(Model-as-a-Service)已經(jīng)集成了一系列實用的落地工具。

如果想自己再造個大模型,同樣可以基于混元、或是其他開源模型,做自己的行業(yè)大模型。

那么,你覺得鵝廠的混元大模型效果如何?

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA64A4U-CU 1 Microchip Technology Inc IC MCU 8BIT 64KB FLASH 49VFBGA
$4.53 查看
PIC32MX575F512L-80I/PT 1 Microchip Technology Inc 32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100

ECAD模型

下載ECAD模型
$8.67 查看
ATXMEGA32A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$3.78 查看
騰訊

騰訊

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is &quot;Value for Users, Tech for Good&quot;.

騰訊于1998年11月成立,是一家互聯(lián)網(wǎng)公司,通過技術(shù)豐富互聯(lián)網(wǎng)用戶的生活,助力企業(yè)數(shù)字化升級。我們的使命是“用戶為本 科技向善”。Founded in 1998, Tencent is an Internet-based platform company using technology to enrich the lives of Internet users and assist the digital upgrade of enterprises. Our mission is &quot;Value for Users, Tech for Good&quot;.收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜