亚洲人成在线观看网站不卡,国产高清视频在线观看

OpenAI硬核研究：用GPT-4打開GPT-2“大腦”。

OpenAI官方博客發(fā)布新的研究進(jìn)展，研究人員正在使用GPT-4來自動解釋GPT-2的行為。

當(dāng)下大型語言模型正在扎堆發(fā)布，但對于它背后的思考過程我們知之甚少。而今天，OpenAI正在打開大型語言模型的思考“黑盒”，讓AI被自己解釋！

這一技術(shù)的具體實(shí)現(xiàn)方式是，研究人員先給定GPT-2一個主題，并讓其生成文本序列，再用GPT-4解釋GPT-2生成的內(nèi)容，再通過GPT-4模擬GPT-2的下一步操作，最后將GPT-4模擬生成的和GPT-2實(shí)際生成的內(nèi)容進(jìn)行對比評分。

目前，OpenAI已經(jīng)通過GPT-4對GPT-2中307200個神經(jīng)元進(jìn)行了書面解釋，從結(jié)果來看，絕大多數(shù)的解釋評分并不高，超過1000個神經(jīng)元的解釋得分高于0.8，不過研發(fā)人員稱，這一結(jié)果意味著基于GPT-4，他們已經(jīng)解釋了神經(jīng)元的大部分激活行為。

雖然目前從結(jié)果來看，OpenAI通過GPT-4解釋GPT-2的效果并不完美，但這一階段性的成果給AI可解釋性研究提供了思路，這一方法會隨著AI的發(fā)展而不斷精進(jìn)。

此外，OpenAI正在開源其307200個神經(jīng)元的書面解釋的數(shù)據(jù)集和可視化工具，以及使用OpenAI API上公開可用的模型進(jìn)行解釋和評分的代碼。

解釋、模擬、評分三步“看透”GPT-2的思考過程

OpenAI解釋神經(jīng)元的過程使用了三種算法，分別是能顯示神經(jīng)元對文本摘錄響應(yīng)的解釋器模型Explain、使用模擬器模型Simulate根據(jù)生成文本解釋模擬神經(jīng)元激活、Score算法對模擬激活內(nèi)容與真實(shí)激活內(nèi)容的匹配程度進(jìn)行評分。

在測試過程中，研究人員使用GPT-2預(yù)訓(xùn)練模型作為被解釋的模型，使用GPT-4作為解釋器和模擬器模型。

研究人員選擇不同的文檔來生成解釋和模擬，這一方法包括在每個神經(jīng)元上運(yùn)行下面3個步驟：

首先，先給定GPT-2一個主題去生成文本，然后使用GPT-4來生成對GPT-2生成文本序列的行為解釋。

如，當(dāng)GPT-2生成“漫威漫畫（Marvel comics vibes）”相關(guān)內(nèi)容時，GPT-4生成的解釋是其文本中有“對電影、角色和娛樂的引用”。給定主題是“明喻（similes）”時，GPT-4生成的解釋是“比較和類比，常用‘like（類似）’這個詞”。

▲測試案例：上圖主題是“漫威漫畫（Marvel comics vibes）”、下圖主題是“明喻（similes）

第二步，使用GPT-4模擬神經(jīng)元的行為。這一步驟想要回答的問題是，假設(shè)GPT-4的解釋準(zhǔn)確而全面地解釋了神經(jīng)元的行為，那么該神經(jīng)元將如何針對特定序列中的每個標(biāo)記激活。

剛開始，研究人員使用了“一次一個（one at a time）”方法，提供給GPT-4的提示由一些小樣本和預(yù)測單個神經(jīng)元激活的單樣本示例組成，但這種方法速度較慢。隨后，研究人員使用少量示例并行化了所有標(biāo)記的概率預(yù)測，使得激活值變?yōu)槲谋拘蛄兄须S機(jī)位置的實(shí)際值，他們將這種方法稱為“一次全部（all at once）”。

經(jīng)驗(yàn)證，這種研究方法在預(yù)測人類偏好方面，與速度較慢的“一次一個”方法效果類似。

第三步，將GPT-4模擬的內(nèi)容與GPT-2真實(shí)生成的內(nèi)容進(jìn)行對比，根據(jù)其匹配程度進(jìn)行評分。

研究人員采用的主要評分方法是相關(guān)性評分，如果模擬神經(jīng)元的行為與真實(shí)神經(jīng)元相同，則得分為1。如果模擬神經(jīng)元的行為是隨機(jī)的，當(dāng)解釋與神經(jīng)元行為無關(guān)得分將趨向于0。
不過，基于模擬的評分實(shí)際上并不能反映人類對解釋的準(zhǔn)確評估。因此他們收集了人類對GPT-4生成解釋質(zhì)量的評估，并與模擬生成的評分結(jié)果相比較。
結(jié)果表明，人類往往更喜歡得分較高的解釋而不是得分較低的解釋，隨著得分差距的擴(kuò)大，這種現(xiàn)象的發(fā)展趨勢也會更加明顯。

開源數(shù)據(jù)集，業(yè)界加速AI可解釋性研究

從整體評分結(jié)果來看，OpenAI測驗(yàn)生成的絕大部分解釋得分都較低。不過同時，研究人員也發(fā)現(xiàn)了一些GPT-4不理解的有趣神經(jīng)元。
如“dollars”的意思，第一層理解為“與貨幣和金錢有關(guān)的詞”；第二層為“‘buck（美元）’一詞或包含‘buck（美元）’的實(shí)例”；第29層為“提及‘美國’及相關(guān)術(shù)語”。

因此，研究人員希望隨著解釋的改進(jìn)，能夠快速理解這些大型語言模型生成的有趣內(nèi)容。研發(fā)人員認(rèn)為，他們可以使用機(jī)器學(xué)習(xí)技術(shù)來進(jìn)一步提高GPT-4解釋的能力。

以下幾種方法可以幫助提高評分結(jié)果：

1、迭代解釋（Iterating on explanations）。研發(fā)人員通過要求GPT-4提出可能的相反案例，然后根據(jù)它們的激活結(jié)果修改解釋來提高分?jǐn)?shù)。

2、使用更大的語言模型來給出解釋（Using larger models to give explanations）。隨著解釋器模型能力的提高，平均分?jǐn)?shù)也會上升。然而，即使是GPT-4這樣參數(shù)規(guī)模的大型語言模型也給出了比人類更差的解釋，這表明還有改進(jìn)的余地。

3、更改已解釋模型的架構(gòu)（Changing the architecture of the explained model）。具有不同激活函數(shù)的訓(xùn)練模型提高了解釋分?jǐn)?shù)。

因此基于上述考慮，OpenAI開源了數(shù)據(jù)集，他們希望研究界能夠開發(fā)新技術(shù)來生成更高分的解釋，并開發(fā)更好的工具來解釋GPT-2。

用GPT-4解釋GPT-2仍有四大局限

目前，OpenAI用于解釋GPT-2的方法還有很多局限性：

研究人員希望GPT-4生成的解釋是簡短的自然語言，但神經(jīng)元可能具有非常復(fù)雜的行為，無法被簡潔清晰的敘述出來。例如，神經(jīng)元可以代表許多不同的概念，或者可以代表人類不理解或無法用語言表達(dá)的單一概念。

他們希望最終自動找到并解釋實(shí)現(xiàn)復(fù)雜行為的整個神經(jīng)回路，使得神經(jīng)元和注意力中樞協(xié)同工作。OpenAI當(dāng)前的方法僅將神經(jīng)元行為解釋為原始文本輸入的函數(shù)，而沒有說明其接下來產(chǎn)生的影響。例如，當(dāng)神經(jīng)元激活的位置是一個句號，這可以指向后面的英文單詞應(yīng)該大寫開頭等。

這一評分系統(tǒng)解釋了神經(jīng)元的行為，但沒有試圖解釋產(chǎn)生這種行為的機(jī)制。由于這一方法更多描述的是測試文本上的相關(guān)性，因此模擬過程中獲得高分的解釋，對于測試外的文本解釋效果可能也很差。

最后，用GPT-4來解釋GPT-2的整個過程是計(jì)算密集型。

不過，OpenAI的研究人員仍對這一方法的推廣感到興奮。最終，他們希望使用大型語言模型來生成、測試和迭代完全通用的預(yù)測。