完全圖解GPT-2：看完這篇就夠了（一）

在過去的一年中，BERT、Transformer XL、XLNet 等大型自然語言處理模型輪番在各大自然語言處理任務排行榜上刷新最佳紀錄，可謂你方唱罷我登場。其中，GPT-2 由於其穩定、優異的性能吸引了業界的關注

https://zhuanlan.zhihu.com/p/79714797

https://jalammar.github.io/illustrated-gpt2/

選自http://github.io，作者：Jay Alammar，機器之心編譯，參與：郭元晨、Geek AI。

今年涌現出了許多機器學習的精彩應用，令人目不暇接，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着驚豔的表現，其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。僅從模型架構而言，GPT-2 並沒有特別新穎的架構，它和只帶有解碼器的 transformer 模型很像。

然而，GPT-2 有着超大的規模，它是一個在海量數據集上訓練的基於 transformer 的巨大模型。GPT-2 成功的背後究竟隱藏着什麼祕密？本文將帶你一起探索取得優異性能的 GPT-2 模型架構，重點闡釋其中關鍵的自注意力（self-attention）層，並且看一看 GPT-2 採用的只有解碼器的 transformer 架構在語言建模之外的應用。

作者之前寫過一篇相關的介紹性文章「The Illustrated Transformer」，本文將在其基礎上加入更多關於 transformer 模型內部工作原理的可視化解釋，以及這段時間以來關於 transformer 模型的新進展。基於 transformer 的模型在持續演進，我們希望本文使用的這一套可視化表達方法可以使此類模型更容易解釋。

第一部分：GPT-2 和語言建模

首先，究竟什麼是語言模型（language model）？

何爲語言模型

簡單說來，語言模型的作用就是根據已有句子的一部分，來預測下一個單詞會是什麼。最著名的語言模型你一定見過，就是我們手機上的輸入法，它可以根據當前輸入的內容智能推薦下一個詞。

從這個意義上說，我們可以說 GPT-2 基本上相當於輸入法的單詞聯想功能，但它比你手機上安裝的此類應用大得多，也更加複雜。OpenAI 的研究人員使用了一個從網絡上爬取的 40GB 超大數據集「WebText」訓練 GPT-2，該數據集也是他們的工作成果的一部分。

如果從佔用存儲大小的角度進行比較，我現在用的手機輸入法「SwiftKey」也就佔用了 50MB 的空間，而 GPT-2 的最小版本也需要至少 500MB 的空間來存儲它的全部參數，最大版本的 GPT-2 甚至需要超過 6.5GB 的存儲空間。

讀者可以用「AllenAI GPT-2 Explorer」（https://gpt2.apps.allenai.org/?text=Joel%20is）來體驗 GPT-2 模型。它可以給出可能性排名前十的下一個單詞及其對應概率，你可以選擇其中一個單詞，然後看到下一個可能單詞的列表，如此往復，最終完成一篇文章。

使用 Transformers 進行語言建模

正如本文作者在「The Illustrated Transformer 」這篇文章中所述，原始的 transformer 模型由編碼器（encoder）和解碼器（decoder）組成，二者都是由被我們稱爲「transformer 模塊」的部分堆疊而成。這種架構在機器翻譯任務中取得的成功證實了它的有效性，值得一提的是，這個任務之前效果最好的方法也是基於編碼器-解碼器架構的。

Transformer 的許多後續工作嘗試去掉編碼器或解碼器，也就是隻使用一套堆疊得儘可能多的 transformer 模塊，然後使用海量文本、耗費大量的算力進行訓練（研究者往往要投入數百甚至數千美元來訓練這些語言模型，而在 AlphaStar 項目中則可能要花費數百萬美元）。

那麼我們究竟能將這些模塊堆疊到多深呢？事實上，這個問題的答案也就是區別不同 GPT-2 模型的主要因素之一，如下圖所示。「小號」的 GPT-2 模型堆疊了 12 層，「中號」24 層，「大號」36 層，還有一個「特大號」堆疊了整整 48 層。

與 BERT 的區別

機器人第一法則

機器人不得傷害人類，或者目睹人類將遭受危險而袖手旁觀。

GPT-2 是使用「transformer 解碼器模塊」構建的，而 BERT 則是通過「transformer 編碼器」模塊構建的。我們將在下一節中詳述二者的區別，但這裏需要指出的是，二者一個很關鍵的不同之處在於：GPT-2 就像傳統的語言模型一樣，一次只輸出一個單詞（token）。下面是引導訓練好的模型「背誦」機器人第一法則的例子：

這種模型之所以效果好是因爲在每個新單詞產生後，該單詞就被添加在之前生成的單詞序列後面，這個序列會成爲模型下一步的新輸入。這種機制叫做自迴歸（auto-regression），同時也是令 RNN 模型效果拔羣的重要思想。

GPT-2，以及一些諸如 TransformerXL 和 XLNet 等後續出現的模型，本質上都是自迴歸模型，而 BERT 則不然。這就是一個權衡的問題了。雖然沒有使用自迴歸機制，但 BERT 獲得了結合單詞前後的上下文信息的能力，從而取得了更好的效果。XLNet 使用了自迴歸，並且引入了一種能夠同時兼顧前後的上下文信息的方法。

Transformer 模塊的演進

原始的 transformer 論文引入了兩種類型的 transformer 模塊，分別是：編碼器模塊和解碼器模塊。

1. 編碼器模塊

首先是編碼器（encoder）模塊：

原始 transformer 論文中的編碼器模塊可以接受長度不超過最大序列長度（如 512 個單詞）的輸入。如果序列長度小於該限制，我們就在其後填入預先定義的空白單詞（如上圖中的<pad>）。

2. 解碼器模塊

其次是解碼器模塊，它與編碼器模塊在架構上有一點小差異——加入了一層使得它可以重點關注編碼器輸出的某一片段，也就是下圖中的編碼器-解碼器自注意力（encoder-decoder self-attention）層。

解碼器在自注意力（self-attention）層上還有一個關鍵的差異：它將後面的單詞掩蓋掉了。但並不像 BERT 一樣將它們替換成特殊定義的單詞<mask>，而是在自注意力計算的時候屏蔽了來自當前計算位置右邊所有單詞的信息。

舉個例子，如果我們重點關注 4 號位置單詞及其前續路徑，我們可以模型只允許注意當前計算的單詞以及之前的單詞：

能夠清楚地區分 BERT 使用的自注意力（self-attention）模塊和 GPT-2 使用的帶掩模的自注意力（masked self-attention）模塊很重要。普通的自注意力模塊允許一個位置看到它右側單詞的信息（如下左圖），而帶掩模的自注意力模塊則不允許這麼做（如下右圖）。

3. 只包含解碼器的模塊

在 transformer 原始論文發表之後，一篇名爲「Generating Wikipedia by Summarizing Long Sequences」的論文提出用另一種 transformer 模塊的排列方式來進行語言建模——它直接扔掉了所有的 transformer 編碼器模塊……我們姑且就管它叫做「Transformer-Decoder」模型吧。這個早期的基於 transformer 的模型由 6 個 transformer 解碼器模塊堆疊而成：

圖中所有的解碼器模塊都是一樣的，因此本文只展開了第一個解碼器的內部結構。可以看見，它使用了帶掩模的自注意力層。請注意，該模型在某個片段中可以支持最長 4000 個單詞的序列，相較於 transformer 原始論文中最長 512 單詞的限制有了很大的提升。

這些解碼器模塊和 transformer 原始論文中的解碼器模塊相比，除了去除了第二個自注意力層之外，並無很大不同。一個相似的架構在字符級別的語言建模中也被驗證有效，它使用更深的自注意力層構建語言模型，一次預測一個字母/字符。

OpenAI 的 GPT-2 模型就用了這種只包含編碼器（decoder-only）的模塊。

GPT-2 內部機制速成

在我內心，字字如刀；電閃雷鳴，使我瘋癲。——Budgie

接下來，我們將深入剖析 GPT-2 的內部結構，看看它是如何工作的。

GPT-2 可以處理最長 1024 個單詞的序列。每個單詞都會和它的前續路徑一起「流過」所有的解碼器模塊。

想要運行一個訓練好的 GPT-2 模型，最簡單的方法就是讓它自己隨機工作（從技術上說，叫做生成無條件樣本）。換句話說，我們也可以給它一點提示，讓它說一些關於特定主題的話（即生成交互式條件樣本）。在隨機情況下，我們只簡單地提供一個預先定義好的起始單詞（訓練好的模型使用「|endoftext|」作爲它的起始單詞，不妨將其稱爲<s>），然後讓它自己生成文字。

此時，模型的輸入只有一個單詞，所以只有這個單詞的路徑是活躍的。單詞經過層層處理，最終得到一個向量。向量可以對於詞彙表的每個單詞計算一個概率（詞彙表是模型能「說出」的所有單詞，GPT-2 的詞彙表中有 50000 個單詞）。在本例中，我們選擇概率最高的單詞「The」作爲下一個單詞。

但有時這樣會出問題——就像如果我們持續點擊輸入法推薦單詞的第一個，它可能會陷入推薦同一個詞的循環中，只有你點擊第二或第三個推薦詞，才能跳出這種循環。同樣的，GPT-2 也有一個叫做「top-k」的參數，模型會從概率前 k 大的單詞中抽樣選取下一個單詞。顯然，在之前的情況下，top-k = 1。

接下來，我們將輸出的單詞添加在輸入序列的尾部構建新的輸入序列，讓模型進行下一步的預測：

請注意，第二個單詞的路徑是當前唯一活躍的路徑了。GPT-2 的每一層都保留了它們對第一個單詞的解釋，並且將運用這些信息處理第二個單詞（具體將在下面一節對自注意力機制的講解中詳述），GPT-2 不會根據第二個單詞重新解釋第一個單詞。

更加深入瞭解內部原理

1. 輸入編碼

讓我們更加深入地瞭解一下模型的內部細節。首先，讓我們從模型的輸入開始。正如我們之前討論過的其它自然語言處理模型一樣，GPT-2 同樣從嵌入矩陣中查找單詞對應的嵌入向量，該矩陣也是模型訓練結果的一部分。

每一行都是一個詞嵌入向量：一個能夠表徵某個單詞，並捕獲其意義的數字列表。嵌入向量的長度和 GPT-2 模型的大小有關，最小的模型使用了長爲 768 的嵌入向量來表徵一個單詞。

所以在一開始，我們需要在嵌入矩陣中查找起始單詞<s>對應的嵌入向量。但在將其輸入給模型之前，我們還需要引入位置編碼——一些向 transformer 模塊指出序列中的單詞順序的信號。1024 個輸入序列位置中的每一個都對應一個位置編碼，這些編碼組成的矩陣也是訓練模型的一部分。

至此，輸入單詞在進入模型第一個 transformer 模塊之前所有的處理步驟就結束了。如上文所述，訓練後的 GPT-2 模型包含兩個權值矩陣：嵌入矩陣和位置編碼矩陣。

將單詞輸入第一個 transformer 模塊之前需要查到它對應的嵌入向量，再加上 1 號位置位置對應的位置向量。

3. 堆棧之旅

第一個 transformer 模塊處理單詞的步驟如下：首先通過自注意力層處理，接着將其傳遞給神經網絡層。第一個 transformer 模塊處理完但此後，會將結果向量被傳入堆棧中的下一個 transformer 模塊，繼續進行計算。每一個 transformer 模塊的處理方式都是一樣的，但每個模塊都會維護自己的自注意力層和神經網絡層中的權重。

4. 回顧自注意力機制

語言的含義是極度依賴上下文的，比如下面這個機器人第二法則：

機器人第二法則機器人必須遵守人類給它的命令，除非該命令違背了第一法則。

我在這句話中高亮表示了三個地方，這三處單詞指代的是其它單詞。除非我們知道這些詞指代的上下文聯繫起來，否則根本不可能理解或處理這些詞語的意思。當模型處理這句話的時候，它必須知道：

「它」指代機器人
「命令」指代前半句話中人類給機器人下的命令，即「人類給它的命令」
「第一法則」指機器人第一法則的完整內容

這就是自注意力機制所做的工作，它在處理每個單詞（將其傳入神經網絡）之前，融入了模型對於用來解釋某個單詞的上下文的相關單詞的理解。具體做法是，給序列中每一個單詞都賦予一個相關度得分，之後對他們的向量表徵求和。

舉個例子，最上層的 transformer 模塊在處理單詞「it」的時候會關注「a robot」，所以「a」、「robot」、「it」這三個單詞與其得分相乘加權求和後的特徵向量會被送入之後的神經網絡層。

自注意力機制沿着序列中每一個單詞的路徑進行處理，主要由 3 個向量組成：

查詢向量（Query 向量）：當前單詞的查詢向量被用來和其它單詞的鍵向量相乘，從而得到其它詞相對於當前詞的注意力得分。我們只關心目前正在處理的單詞的查詢向量。
鍵向量（Key 向量）：鍵向量就像是序列中每個單詞的標籤，它使我們搜索相關單詞時用來匹配的對象。
值向量（Value 向量）：值向量是單詞真正的表徵，當我們算出注意力得分後，使用值向量進行加權求和得到能代表當前位置上下文的向量。

一個簡單粗暴的比喻是在檔案櫃中找文件。查詢向量就像一張便利貼，上面寫着你正在研究的課題。鍵向量像是檔案櫃中文件夾上貼的標籤。當你找到和便利貼上所寫相匹配的文件夾時，拿出它，文件夾裏的東西便是值向量。只不過我們最後找的並不是單一的值向量，而是很多文件夾值向量的混合。

將單詞的查詢向量分別乘以每個文件夾的鍵向量，得到各個文件夾對應的注意力得分（這裏的乘指的是向量點乘，乘積會通過 softmax 函數處理）。

我們將每個文件夾的值向量乘以其對應的注意力得分，然後求和，得到最終自注意力層的輸出。

這樣將值向量加權混合得到的結果是一個向量，它將其 50% 的「注意力」放在了單詞「robot」上，30% 的注意力放在了「a」上，還有 19% 的注意力放在「it」上。我們之後還會更詳細地講解自注意力機制，讓我們先繼續向前探索 transformer 堆棧，看看模型的輸出。

5. 模型輸出

當最後一個 transformer 模塊產生輸出之後（即經過了它自注意力層和神經網絡層的處理），模型會將輸出的向量乘上嵌入矩陣。

我們知道，嵌入矩陣的每一行都對應模型的詞彙表中一個單詞的嵌入向量。所以這個乘法操作得到的結果就是詞彙表中每個單詞對應的注意力得分。

我們簡單地選取得分最高的單詞作爲輸出結果（即 top-k = 1）。但其實如果模型考慮其他候選單詞的話，效果通常會更好。所以，一個更好的策略是對於詞彙表中得分較高的一部分單詞，將它們的得分作爲概率從整個單詞列表中進行抽樣（得分越高的單詞越容易被選中）。通常一個折中的方法是，將 top-k 設爲 40，這樣模型會考慮注意力得分排名前 40 位的單詞。

這樣，模型就完成了一輪迭代，輸出了一個單詞。模型會接着不斷迭代，直到生成一個完整的序列——序列達到 1024 的長度上限或序列中產生了一個終止符。

第一部分結語：大家好，這就是 GPT-2

本文是 GPT-2 模型工作原理的一個概覽。如果你還是對自注意力層內部深層的細節很好奇，請繼續關注機器之心的系列文章。我們將引入更多可視化語言來試着解釋自注意力層的工作原理，同時也是爲了能夠更好地描述之後基於 transformer 的模型（說的就是你們，TransformerXL 還有 XLNet）。

這篇文章中有一些過分簡化的地方：

混用了「單詞」（word）和「詞」（token）這兩個概念。但事實上，GPT-2 使用字節對編碼（Byte Pair Encoding）方式來創建詞彙表中的詞（token），也就是說詞（token）其實通常只是單詞的一部分。
舉的例子其實是 GPT-2 在「推斷/評價」（inference / evaluation）模式下運行的流程，所以一次只處理一個單詞。在訓練過程中，模型會在更長的文本序列上進行訓練，並且一次處理多個詞（token）。訓練過程的批處理大小（batch size）也更大（512），而評價時的批處理大小隻有 1。
爲了更好地組織空間中的圖像，作者畫圖時隨意轉置了向量，但在實現時需要更精確。
Transformer 模塊使用了很多歸一化（normalization）層，這在訓練中是很關鍵的。我們在「The Illustrated Transformer」（https://jalammar.github.io/illustrated-transformer/）譯文中提到了其中一些，但本文更關注自注意力層。
有時文章需要用更多的小方塊來代表一個向量，我把這些情況叫做「放大」，如下圖所示。

完全圖解GPT-2：看完這篇就夠了（一）

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

2020年上半年數據庫系統工程師考試

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

c 正則

加權交叉熵損失函數：tf.nn.weighted_cross_entropy_with_logits

個性化推薦綜述

Attention 總結

GPT對比GPT-2

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結