壓縮即智能：爲什麼 ChatGPT 擁有智能？（轉）

源地址：

背景

隨着 ChatGPT、GPT4、PaLM2、文心一言各種大模型的爆火，我們在驚訝大模型能力的同時，也在不斷的問自己一個問題，爲什麼 Decode-only 的 ChatGPT 擁有智能？

GPT 其實就是基於 Transformer 的 Decode-only，本質是就是 Next Token Prediction，爲啥如此簡單的結構，訓練出來的大語言模型能夠具備智能。

目前規模夠大的 LLM 模型，在訓練基座模型的時候，都採用 Next Token Prediction 任務。Next Token Prediction 如此簡單的操作，就是通過語言中前面的單詞，來產生下一個單詞，很明顯這樣學到的不就是單詞之間的表層統計關係嗎？怎麼就產生了智能？實在令人費解。

GPT模型

2月28日，OpenAI 的核心研發人員 Jack Rae 在參加 Stanford MLSys Seminar 的訪談時進行了一個名爲 Compression for AGI 的主題分享，其核心觀點爲：AGI 基礎模型的目標是實現對有效信息最大限度的無損壓縮。並同時給出了爲什麼這個目標是合理的邏輯分析，以及 OpenAI 是如何在這個目標下開展工作的行動原則。

來源：Stanford MLSys Seminar
主講人：Jack Rae（OpenAI）
視頻鏈接：
背景：Jack Rae 是 OpenAI 的團隊負責人，主要研究大型語言模型和遠程記憶。此前，他在 DeepMind 工作了 8 年，領導大型語言模型 (LLM) 研究組。

在分享中，Jack Rae 給出了兩個核心觀點：

壓縮即智能
LLM = Compression （GPT 的 Next Token Prediction 本質上是對訓練數據的無損壓縮）

通過論證壓縮即智能，GPT 的訓練過程是對數據的無損壓縮，從而證明了 GPT 擁有智能。

Jack Rae 在 Stanford ML Seminar上的分享，聽完之後感覺醍醐灌頂，通過壓縮理論去論證爲什麼 GPT 擁有智能，是一個很獨特的觀點。

接下來就具體介紹下 Jack Rae 是如何論證的。

1. 壓縮即智能

在介紹爲什麼壓縮是一種實現通用人工智能（Artificial general intelligence， AGI）的方法之前，我們先介紹下什麼是通用人工智能。

1.1 直觀理解AGI

1980年，John Searle提出了一個著名的思想實驗《中文房間》。實驗過程可以表述如下：

將一個對中文毫無瞭解，只會說英語的人關在一個只有一個小窗的封閉房間裏。房間裏有一本記錄着中英文翻譯的手冊。房間裏還有足夠的稿紙、鉛筆。同時，寫着中文的紙片通過小窗口被送入房間中。房間中的人可以使用他的書來翻譯這些文字並用中文回覆。雖然他完全不會中文，但通過這個過程，房間裏的人可以讓任何房間外的人以爲他會說流利的中文。

這樣一個龐大的手冊顯然代表着非常低的智能水平，因爲一旦遇到手冊中沒有的詞彙，這個人就無法應對了。

如果我們能夠從大量的數據中提取出一些語法和規則，那麼手冊可能會變得更加精簡，但是系統的智能水平將會更高（泛化能力更強）。

手冊越厚，智能越弱；手冊越薄，智能越強。就好像公司僱一個人好像能力越強的人，你需要解釋得越少，能力越弱，你需要解釋得越多。

上面的例子比較值觀的解釋了爲什麼壓縮即智能。

1.2 如何實現無損壓縮

假設 Alice 需要把一個（可能無限長）的數據集

Alice 和 Bob 都有足夠的計算資源
假設現在已經傳輸了
Alice 希望最小化傳輸的數據量 S ，以 number of bits 比特數量來衡量

baseline 傳輸方法

由於

例如當

這時需要傳輸的位數

其實，Alice 還要將上面的方法寫成代碼

這樣傳輸一個大小爲

baseline 方法對於

故此時

備註：

2. GPT 是對數據的無損壓縮

那麼根據上面的結論，圖中 LLaMA 65B 的 loss 面積最小，因此壓縮率最高，模型效果往往也越好。

下面討論下壓縮率的變化。

Next Token Prediction 雖然看似簡單，但是卻可以用壓縮理論完美的解釋，這也是爲什麼 OpenAI 堅持 Next Token Prediction 的原因。同時，壓縮理論也印證了，爲什麼 BERT 的 “預測中間詞” 從最終應用效果上比不上 GPT 系列始終堅持的“預測下一個詞”。

3. Jack Rae：Compression for AGI

有了前面的基礎，我們再來回顧 Jack Rae 的演講內容，接下來理解起來就容易得多。

摘要：在本次演講中，我們討論了基礎模型如何開始驗證 70 多年前形成的假設：更好地壓縮源數據的統計模型最終會從中學習更多基礎和通用功能。我們首先介紹壓縮的一些基礎知識，然後描述跨越數千億個參數的更大的語言模型實際上是最先進的無損壓縮器。我們討論了在實現最佳壓縮的過程中可能會出現的一些新興功能和持續限制。

演講主題

深入思考基礎模型的訓練目標
思考我們正在做什麼，爲什麼這樣做是有道理的，侷限性是什麼

要點

找到解決感知問題的最小描述長度
生成模型是無損壓縮器
大語言模型是 SOTA 的無損文本壓縮器
現有壓縮方法的侷限性
侷限性

最小描述長度
用大語言模型進行無損壓縮
具體實現
侷限性和總結

3.1 最小描述長度（Minimum Description Length, MDL）

想象一個電腦軟件需要把英文翻譯成中文，如果它是通過查找字典把所有可能的詞組翻譯成中文，那麼我們可以認爲它對翻譯任務有着最差的理解，因爲任何出現在字典之外的詞組它都無法翻譯。但如果將字典提煉爲較小的規則集（例如一些語法或基本的詞彙），那它將會有更好的理解能力，因此我們可以根據規則集的壓縮程度對其進行評分。實際上，如果我們可以把它壓縮到最小描述長度，那麼我們可以說它對翻譯任務有着最好的理解。

對於給定的數據集 D，我們可以使用使用生成模型 f 對其進行壓縮（在第2節我們已經介紹過如何推導出壓縮公式），如下所示：

目前我們通常使用的基礎模型是生成模型，我們可以使用生成器模型以非常精確的數學格式來表徵數據集的無損壓縮，因此我們可以嘗試使用生成模型來找到最小描述長度。

圖中 | D | 表示數據集 D 的無損壓縮，無損壓縮的大小可以表示爲對 D 評估的生成模型的負對數似然加上估計函數的最小描述長度。

3.2 用大語言模型進行無損壓縮

對於數據集 D，可以使用 LLM f 的 next-token 預測損失加上 f 的描述長度（～100KB）。

上面的公式在前面第2節已經介紹過。

上圖中是 LLaMA 模型的一些訓練曲線，綠線和紅線表示的兩個模型只在數據集上訓練了 1 個 epoch，因此可以把訓練損失視爲 |D| 中的 next-token 預測損失。同時我們也可以粗略地估計模型的描述長度（～1MB）。即便模型的參數量不同，但 LLaMA 33B 和 LLaMA 65B 兩個模型有着相同的數據描述長度（用於訓練的代碼相同）。但 65B 模型顯然有着更低的訓練損失，把兩項相加，可以看出 65B 實際上是更好的壓縮器。

上圖是一些更具體的數據，用於初始化和訓練模型的代碼約爲 1MB，粗略地計算負對數似然大約是 400GB，而用於訓練的原始數據是 5.6TB 的文本，因此該模型的壓縮率爲 14 倍。而 Hutter Prize 上最好的文本壓縮器能實現 8.7 倍的壓縮。實際上我們正在創建更強大的模型，爲我們的訓練數據提供更低的無損壓縮率，即便中間模型本身可能非常大。