加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 竟然擅長的是這個(gè)?
    •  
    • 三個(gè)月打造中文最強(qiáng)GPT-3
    • 語言模型體系再添一員大將
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

達(dá)摩院用128張GPU燒出“中文版GPT-3”,我試了下,這文風(fēng)不是開往幼兒園的車…

2021/04/20
150
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

首先,請先看一段“正經(jīng)”的文字:

他笑意中的那份溫柔,只想給她好好珍藏,即便這一切不會發(fā)生,至少在他的世界里,她是無憂無慮的快樂的。就連他對她的關(guān)心,她都不在意了,還有什么不放心的呢?“好,我答應(yīng)你。不過,如果我們能有個(gè)孩子,我一定做個(gè)好爸爸。”

橋豆麻袋?。?!

這難道不是什么某某天堂、某江文學(xué)、某點(diǎn)中文上的小說情節(jié)?

誤會了誤會了。

這是最新發(fā)布的全球最大規(guī)模中文預(yù)訓(xùn)練模型“中文版GPT-3”——PLUG的力作。

270億的參數(shù)規(guī)模,跟GPT-3一樣是“萬能寫作神器”。

出于好奇,我第一時(shí)間就去上手試了試,沒想到只是輸入了四個(gè)字。

泛起笑意,

就給出了如此結(jié)果。

這個(gè)PLUG,有點(diǎn)意思啊~

竟然擅長的是這個(gè)?

接下來,我又進(jìn)行了一波嘗試,調(diào)戲一下PLUG的創(chuàng)作實(shí)力。

輸入「他正要離開」,看它怎么接。

PLUG果然很懂!

,卻見他站到了自己身前,一下子拉住了她的手,用一種很奇怪的語調(diào)說道:“我的心情很壞,很生氣,不過“他看著她,一字一句的說道:“你能不能說的快一點(diǎn),我不想傷害你。“看著她一臉的冷漠,他的心中微微一酸,但是很快又笑了,溫柔的笑了笑:“放心……

有一說一,生成長文本的性能還是相當(dāng)不錯(cuò),并且提供了4個(gè)文本長度選項(xiàng)(32~512字)。

不過這內(nèi)容……

難不成,我喜歡XX文的秘密被發(fā)現(xiàn)了?

 

別誤會,其實(shí)PLUG也能生成“克制”一些的。

比如:輸入「阿sir,你看看他」,結(jié)果就顯得很正常嘛~

甚至還特意生成了繁體字小說,營造出一種港片的氛圍感。

(阿sir,你看看他)們幾時(shí)對阿爸、阿媽、阿婆笑過;你再看看他們幾時(shí)對你笑過。阿爸、阿媽、阿婆,你們笑笑就好了。其實(shí),他們有笑,也有淚……(此處省略200+字)阿sir,你是否真的愛你的父母?

除了擅長寫小說,PLUG還能寫專業(yè)文稿、進(jìn)行智能問答、生成詩詞和菜譜等等。

就比如撰寫專業(yè)文稿:

幫你解答生活常識,官網(wǎng)給出了貼心(不是)的示例:

程序員脫發(fā)用什么洗發(fā)水好?

 

三個(gè)月打造中文最強(qiáng)GPT-3

說了這么多,要達(dá)到這樣的效果,這個(gè)中文最強(qiáng)GPT-3究竟如何煉成?

PLUG,Pre-training for Language Understanding and Generation,顧名思義,就是集語言理解(NLU)和生成(NLG)能力于一身。

要實(shí)現(xiàn)這一點(diǎn),據(jù)團(tuán)隊(duì)介紹,這一模型是達(dá)摩院此前提出的兩種自研模型——NLU語言模型StructBERT、NLG語言模型PALM的融合。

此外,跟GPT-3的單向建模方式不同的是,它采用了編碼器-解碼器(encoder-decoder)的雙向建模方式。

具體來說,整個(gè)訓(xùn)練過程分為兩個(gè)階段。

第一階段,以達(dá)摩院自研的語言理解模型——StructBERT作為編碼器。

簡單來說,它是在句子級別和詞級別兩個(gè)層次的訓(xùn)練目標(biāo)中,加強(qiáng)對語言結(jié)構(gòu)信息的建模,從而提高模型的語法學(xué)習(xí)能力。

這也使得PLUG具有輸入文本雙向理解能力,能夠生成和輸入更相關(guān)的內(nèi)容。

這個(gè)過程共訓(xùn)練了300B tokens訓(xùn)練數(shù)據(jù)。

第二階段,將這個(gè)編碼器用于生成模型的初始化,并外掛一個(gè)6層、8192個(gè)隱藏層節(jié)點(diǎn)數(shù)的解碼器,共計(jì)訓(xùn)練了100B tokens的訓(xùn)練數(shù)據(jù)。

此外,PLUG還能為目標(biāo)任務(wù)做針對性優(yōu)化。

上一回說到,GPT-3并沒有利用微調(diào)和梯度更新,而是通過指定任務(wù)、展示少量演示,來與模型文本進(jìn)行交互,完成各種任務(wù)。

因此在面對新任務(wù)時(shí)候,不需要重新收集大量的帶標(biāo)簽數(shù)據(jù)。但不可避免的,生成的效果不足。

比如,犯低級錯(cuò)誤就是GPT-3被人詬病比較多的一點(diǎn)。

而PLUG的能力更加全面,既可以實(shí)現(xiàn)與GPT-3類似的零樣本生成功能,也可以利用下游訓(xùn)練數(shù)據(jù)微調(diào)(finetune)模型,提升特定任務(wù)的生成質(zhì)量。

當(dāng)然,效果實(shí)現(xiàn)的關(guān)鍵,還少不了算力和數(shù)據(jù)。

 

PLUG負(fù)責(zé)人表示,原本計(jì)劃用128張A100訓(xùn)練120天煉成,不過由于阿里云、算法優(yōu)化等達(dá)摩院多方力量的參與,以及加速手段的有效利用,成功將日程縮短到三分之一。

最后,只燒了35天就達(dá)到了這樣的效果。

前面也提到,PLUG的參數(shù)量達(dá)到了270億,中文訓(xùn)練數(shù)據(jù)量也達(dá)到了1T以上。

在語言理解任務(wù)上,PLUG以80.614分刷新了CLUE分類任務(wù)榜單記錄。

而在語言生成任務(wù)上,據(jù)團(tuán)隊(duì)介紹,其多項(xiàng)應(yīng)用數(shù)據(jù)較業(yè)內(nèi)最優(yōu)水平提升了8%以上。

語言模型體系再添一員大將

如果再把PLUG說成是“中文版GPT-3”,似乎就不太準(zhǔn)確了。

耗時(shí)3個(gè)月、270億參數(shù)規(guī)模、一發(fā)布就給體驗(yàn)端口……

但與此同時(shí),這些關(guān)鍵詞的背后,仍然留給讀者一些疑問:

3個(gè)月是如何做到的?當(dāng)前的參數(shù)規(guī)模是終點(diǎn)嗎?為何現(xiàn)階段就免費(fèi)開放?

阿里深度語言模型體系負(fù)責(zé)人永春給出了一一解答。

首先,時(shí)間問題。主要有兩個(gè)方面的原因。

從人力的角度來說,永春沒有談具體的數(shù)字,但此次涉及阿里的多個(gè)團(tuán)隊(duì)群策群力共同完成的,當(dāng)中的訓(xùn)練時(shí)間也就大大縮短。

再加上,阿里以往的自研模型已經(jīng)產(chǎn)生了更多的業(yè)務(wù)需求,促成了PLUG的開發(fā),這也是阿里整體技術(shù)路線中的一環(huán)。

GPT-3的出現(xiàn),給中國的一些玩家觸動很大。

什么時(shí)候我們能出個(gè)中文版的同類模型?

阿里作為其中之一的企業(yè),利用自身的技術(shù)、計(jì)算資源的優(yōu)勢,率先給出Demo。

永春表示,希望通過PLUG的發(fā)布,建立起與技術(shù)同行之間的橋梁。

要知道,GPT-3到目前也還沒有做到完全開放。

不過,團(tuán)隊(duì)似乎并不擔(dān)心PLUG發(fā)布之后的一些不確定性。(手動狗頭)

比如,出現(xiàn)一些低級錯(cuò)誤。

反而笑著說,之前GPT-3不也是因?yàn)榇蠹彝虏鄄呕鸬拿矗縼G給技術(shù)圈去檢驗(yàn),這些問題都是不可避免的。

而這樣的開源開放,正好是這個(gè)技術(shù)團(tuán)隊(duì)的一大底色。

去年,阿里達(dá)摩院發(fā)布了自研深度語言模型體系,包括6大自研模型。

通用語言模型StructBERT、多模態(tài)語言模型StructVBERT、多語言模型VECO、生成式語言模型PALM……他們一直在致力于陸陸續(xù)續(xù)將模型開源出來。

永春透露,在PLUG發(fā)布這段期間,達(dá)摩院宣布將開源阿里巴巴語言模型體系部分重要模型,目前正在走流程中。

至于之后的計(jì)劃,團(tuán)隊(duì)表示2000億級的參數(shù)規(guī)模正在規(guī)劃中,并進(jìn)一步提升文本生成質(zhì)量。

而在應(yīng)用領(lǐng)域,他們還將專門針對醫(yī)療領(lǐng)域做下游數(shù)據(jù)訓(xùn)練。

最終目標(biāo)是希望將這個(gè)模型實(shí)際落地,提升NLP技術(shù)在方方面面的實(shí)力,比如能源、通信、司法等。

也誠如阿里達(dá)摩院語言技術(shù)實(shí)驗(yàn)室負(fù)責(zé)人司羅所說,

達(dá)摩院NLP團(tuán)隊(duì)將進(jìn)一步攻克自然語言處理領(lǐng)域科研難題,完善中文及跨語言人工智能基礎(chǔ)設(shè)施,讓AI沒有難懂的語言,并探索通用人工智能之路。

對了,PLUG剛剛完成最后一波調(diào)控,目前已開放了測試體驗(yàn)接口(僅供學(xué)術(shù)目的測試,需同意其相關(guān)約定)。

相關(guān)推薦