亚洲欧洲日产韩国不卡/手机看片1024久久精品你懂的/魔镜号亚洲一区二区三区在线/一本久中文视频播放

找手機游戲就上融易行 專業(yè)手游媒體門戶網站!

游戲更新 | 安卓游戲 | 蘋果游戲 | 推薦游戲 | 軟件更新 | 文章更新 | 熱門文章 | 推薦文章

銀色獨角獸(銀色獨角獸系列的《幻影》讀后感)

時間:2024-02-15 09:49:38    編輯:azu

銀色獨角獸

1.感謝清華大學自然語言處理實驗室對預訓練語言模型框架的梳理。我們將沿著這條線索,探索預訓練語言模型的前沿技術。紅框是之前的足跡,綠框是本期的介紹。歡迎留言討論交流!令人震驚的

2.在詳細閱讀本文之前,讓我們先來看看GPT-2,這也是GPT家族豪門的一次驚人表現。在一項生產任務中,OpenAI給出了這樣一個開頭:

銀色獨角獸

在一項驚人的研究中,科學家們發(fā)現了一群生活在安第斯山脈一個偏遠的未開發(fā)山谷中的獨角獸。更令人驚訝的是,這些獨角獸能說一口流利的英語。

4.用這樣一句話,GPT-2可以寫出下面的故事:

由于它們獨特的角,科學家將其命名為奧維德獨角獸。這些長著四只銀角的獨角獸以前從未被科學家們見過。

銀色獨角獸

6 .....它還描述了這些獨角獸是如何被發(fā)現的,權威人士評論了這些生物是如何出現的。最后,人們認為查明這些獨角獸是否是外星種族的唯一方法是通過DNA。

7.這種嚴重的胡說八道讓編輯感到羞愧。GPT-2如此強大并非沒有道理。接下來,讓我們回到學術界,檢查GPT家庭的戶口本!通過生成性預訓練提高語言理解能力(2018年)

8.GPT是“生成性預訓練”的縮寫,由OpenAI的四位作者于2018年發(fā)表。我想在這篇文章的基礎上談談GPT模型的特點及其與以前模型的相似之處。下圖顯示了GPT和埃爾莫的結構圖。

9.GPT模式與之前的模式不同:

銀色獨角獸

10.GPT模型與以前模型的共同點是:模型細節(jié)。

11.GPT使用多層變換解碼器作為語言模型的分層結構。GPT模型有12層,每層是一個轉換器的解碼器,具有768維隱藏狀態(tài)和12個注意頭。位置式前饋網絡使用3072維內部狀態(tài)。輸入層的Tokens經過單詞嵌入和位置嵌入,最后通過softmax得到輸出的概率分布。使用2000輪預熱來訓練語言模型,最大學習速率為2.5e-4,然后通過余弦調度將其降低為0,通過dropout將其降低為0.1,最大輸入長度為512。該模型在直接達到finetune的目標時已經訓練了三輪。

12.與此同時,GPT使用BPE語音進行了40,000次合并。BPE算法在論文《帶子詞單元的生僻字的神經機器翻譯》中也有具體的代碼。簡單來說,算法將計算相鄰字符的二元模型的出現次數,并合并每次出現次數最多的二元模型。最初的字典是256個unicode,在num_merges的最后一次合并后,字典中出現了更多的num_merges,這在整篇文章中出現了更多的“根”,例如lower中的low和wide中的est。編輯自己運行下面的代碼,最終得到vocab {W5,WER 2,WER 6,東部3}。最常見的字符對是合并的,它們往往具有獨立的含義,而未合并的相鄰字符對顯然很少共同表達某種含義,因此它們被單獨嵌入是合理的。【/h/]語言模型是無監(jiān)督的多任務學習器(2019)

13.GPT-2是GPT家族的杰出后裔,也由OpenAI出版。GPT-2希望在不做任何改變的情況下使模型在下游任務中獲得更好的性能,即零射擊。

14.為了實現這一目標,該模型應該是通用的,不能只在某些任務上進行訓練。它的語言模型目標類似于GPT,但由于該模型可以在多個任務上表現良好,因此該模型的預測不應僅基于前幾個單詞作為條件,還應將任務考慮在內。

15.與GPT相比,GPT2的幾個變化:

16.其最小的模型結構相當于GPT模型,第二個相當于BERT-LARGE,而最大的是真正稱為GPT2的模型具有1.5B個參數。該模型非常龐大,比最先進的預訓練語言模型大12倍,數據集大15倍。作者認為,在龐大的數據集上進行高效訓練后,一個龐大的模型可以在不同的任務中取得優(yōu)異的結果。事實上,在沒有任何標記數據的情況下,GPT2可以在七個任務上超越原始的最先進水平。我驚呆了!

17.更令人驚訝的是,GPT2甚至可以編寫代碼?。。?/p>

18.難怪臉書人工智能研究所的Tim rocktschel在閱讀了GPT2編寫的代碼后會說:我們有大麻煩了!GPT2如此強大,以至于OpenAI的研究人員決定暫時不公布訓練模型中使用的數據或最大的真實GPT2參數,因為他們認為該模型有被惡意濫用的風險= =未完待續(xù)。

最新游戲

玩家評論