銀色獨角獸(銀色獨角獸系列的《幻影》讀后感)

時間：2024-02-15 09:49:38 編輯：azu

銀色獨角獸

1.感謝清華大學自然語言處理實驗室對預訓練語言模型框架的梳理。我們將沿著這條線索，探索預訓練語言模型的前沿技術。紅框是之前的足跡，綠框是本期的介紹。歡迎留言討論交流！令人震驚的

2.在詳細閱讀本文之前，讓我們先來看看GPT-2，這也是GPT家族豪門的一次驚人表現。在一項生產任務中，OpenAI給出了這樣一個開頭:

銀色獨角獸

在一項驚人的研究中，科學家們發(fā)現了一群生活在安第斯山脈一個偏遠的未開發(fā)山谷中的獨角獸。更令人驚訝的是，這些獨角獸能說一口流利的英語。

4.用這樣一句話，GPT-2可以寫出下面的故事:

由于它們獨特的角，科學家將其命名為奧維德獨角獸。這些長著四只銀角的獨角獸以前從未被科學家們見過。

銀色獨角獸

6 .....它還描述了這些獨角獸是如何被發(fā)現的，權威人士評論了這些生物是如何出現的。最后，人們認為查明這些獨角獸是否是外星種族的唯一方法是通過DNA。

7.這種嚴重的胡說八道讓編輯感到羞愧。GPT-2如此強大并非沒有道理。接下來，讓我們回到學術界，檢查GPT家庭的戶口本！通過生成性預訓練提高語言理解能力（2018年）

8.GPT是“生成性預訓練”的縮寫，由OpenAI的四位作者于2018年發(fā)表。我想在這篇文章的基礎上談談GPT模型的特點及其與以前模型的相似之處。下圖顯示了GPT和埃爾莫的結構圖。

9.GPT模式與之前的模式不同:

銀色獨角獸

10.GPT模型與以前模型的共同點是:模型細節(jié)。

11.GPT使用多層變換解碼器作為語言模型的分層結構。GPT模型有12層，每層是一個轉換器的解碼器，具有768維隱藏狀態(tài)和12個注意頭。位置式前饋網絡使用3072維內部狀態(tài)。輸入層的Tokens經過單詞嵌入和位置嵌入，最后通過softmax得到輸出的概率分布。使用2000輪預熱來訓練語言模型，最大學習速率為2.5e-4，然后通過余弦調度將其降低為0，通過dropout將其降低為0.1，最大輸入長度為512。該模型在直接達到finetune的目標時已經訓練了三輪。

12.與此同時，GPT使用BPE語音進行了40，000次合并。BPE算法在論文《帶子詞單元的生僻字的神經機器翻譯》中也有具體的代碼。簡單來說，算法將計算相鄰字符的二元模型的出現次數，并合并每次出現次數最多的二元模型。最初的字典是256個unicode，在num_merges的最后一次合并后，字典中出現了更多的num_merges，這在整篇文章中出現了更多的“根”，例如lower中的low和wide中的est。編輯自己運行下面的代碼，最終得到vocab {W5，WER 2，WER 6，東部3}。最常見的字符對是合并的，它們往往具有獨立的含義，而未合并的相鄰字符對顯然很少共同表達某種含義，因此它們被單獨嵌入是合理的。【/h/]語言模型是無監(jiān)督的多任務學習器（2019）

13.GPT-2是GPT家族的杰出后裔，也由OpenAI出版。GPT-2希望在不做任何改變的情況下使模型在下游任務中獲得更好的性能，即零射擊。

14.為了實現這一目標，該模型應該是通用的，不能只在某些任務上進行訓練。它的語言模型目標類似于GPT，但由于該模型可以在多個任務上表現良好，因此該模型的預測不應僅基于前幾個單詞作為條件，還應將任務考慮在內。

15.與GPT相比，GPT2的幾個變化:

16.其最小的模型結構相當于GPT模型，第二個相當于BERT-LARGE，而最大的是真正稱為GPT2的模型具有1.5B個參數。該模型非常龐大，比最先進的預訓練語言模型大12倍，數據集大15倍。作者認為，在龐大的數據集上進行高效訓練后，一個龐大的模型可以在不同的任務中取得優(yōu)異的結果。事實上，在沒有任何標記數據的情況下，GPT2可以在七個任務上超越原始的最先進水平。我驚呆了！

17.更令人驚訝的是，GPT2甚至可以編寫代碼?。。?/p>

18.難怪臉書人工智能研究所的Tim rocktschel在閱讀了GPT2編寫的代碼后會說:我們有大麻煩了！GPT2如此強大，以至于OpenAI的研究人員決定暫時不公布訓練模型中使用的數據或最大的真實GPT2參數，因為他們認為該模型有被惡意濫用的風險= =未完待續(xù)。