壓縮即智能:爲什麼 ChatGPT 擁有智能?(轉)

源地址:

背景

隨着 ChatGPT、GPT4、PaLM2、文心一言各種大模型的爆火,我們在驚訝大模型能力的同時,也在不斷的問自己一個問題,爲什麼 Decode-only 的 ChatGPT 擁有智能?

GPT 其實就是基於 Transformer 的 Decode-only,本質是就是 Next Token Prediction,爲啥如此簡單的結構,訓練出來的大語言模型能夠具備智能。

目前規模夠大的 LLM 模型,在訓練基座模型的時候,都採用 Next Token Prediction 任務。Next Token Prediction 如此簡單的操作,就是通過語言中前面的單詞,來產生下一個單詞,很明顯這樣學到的不就是單詞之間的表層統計關係嗎?怎麼就產生了智能?實在令人費解。

GPT模型

2月28日,OpenAI 的核心研發人員 Jack Rae 在參加 Stanford MLSys Seminar 的訪談時進行了一個名爲 Compression for AGI 的主題分享,其核心觀點爲:AGI 基礎模型的目標是實現對有效信息最大限度的無損壓縮。並同時給出了爲什麼這個目標是合理的邏輯分析,以及 OpenAI 是如何在這個目標下開展工作的行動原則。

來源:Stanford MLSys Seminar
主講人:Jack Rae(OpenAI)
視頻鏈接
背景:Jack Rae 是 OpenAI 的團隊負責人,主要研究大型語言模型和遠程記憶。此前,他在 DeepMind 工作了 8 年,領導大型語言模型 (LLM) 研究組。

在分享中,Jack Rae 給出了兩個核心觀點:

壓縮即智能
LLM = Compression (GPT 的 Next Token Prediction 本質上是對訓練數據的無損壓縮)

通過論證壓縮即智能,GPT 的訓練過程是對數據的無損壓縮,從而證明了 GPT 擁有智能。

Jack Rae 在 Stanford ML Seminar上的分享,聽完之後感覺醍醐灌頂,通過壓縮理論去論證爲什麼 GPT 擁有智能,是一個很獨特的觀點。

接下來就具體介紹下 Jack Rae 是如何論證的。

1. 壓縮即智能

在介紹爲什麼壓縮是一種實現通用人工智能(Artificial general intelligence, AGI)的方法之前,我們先介紹下什麼是通用人工智能。

1.1 直觀理解AGI

1980年,John Searle提出了一個著名的思想實驗《中文房間》。實驗過程可以表述如下:

將一個對中文毫無瞭解,只會說英語的人關在一個只有一個小窗的封閉房間裏。房間裏有一本記錄着中英文翻譯的手冊。房間裏還有足夠的稿紙、鉛筆。同時,寫着中文的紙片通過小窗 口被送入房間中。房間中的人可以使用他的書來翻譯這些文字並用中文回覆。 雖然他完全不會中文,但通過這個過程,房間裏的人可以讓任何房間外的人以 爲他會說流利的中文。

這樣一個龐大的手冊顯然代表着非常低的智能水平,因爲一旦遇到手冊中沒有的詞彙,這個人就無法應對了。

如果我們能夠從大量的數據中提取出一些語法和規則,那麼手冊可能會變得更加精簡,但是系統的智能水平將會更高(泛化能力更強)。

手冊越厚,智能越弱;手冊越薄,智能越強。就好像公司僱一個人好像能力越強的人,你需要解釋得越少,能力越弱,你需要解釋得越多。

上面的例子比較值觀的解釋了爲什麼壓縮即智能。

1.2 如何實現無損壓縮

假設 Alice 需要把一個(可能無限長)的數據集 �={�1,�2,...,��,...} 從遙遠的半人馬座星系傳輸回地球上的 Bob,我們假設:

  • �� 表示一個 token ,詞表大小 �=256 , ��∈{0,1,…,255}
  • Alice 和 Bob 都有足夠的計算資源
  • 假設現在已經傳輸了 �1:�, Alice 會將下一個 ��+1 編碼爲 ��+1 後傳給 Bob
  • Alice 希望 最小化傳輸的數據量 S ,以 number of bits 比特數量來衡量
  •  

baseline 傳輸方法

由於 ��+1 的可能性有 �=256 種,所以 ��+1 可以表示爲一個 8 bit 的整數(即一個 byte)。

例如當 ��+1=7 時, ��+1=00000111 表示 ��+1。

這時需要傳輸的位數 |��+1|=log⁡�=log⁡256=8。

其實,Alice 還要將上面的方法寫成代碼 �0,在一開始傳輸給 Bob。

這樣傳輸一個大小爲 � 的數據集 ��={�1,�2,...,��} 的代價 �0 爲

�0=#����=|�0|+∑�=1�|��|=|�0|+�log⁡�baseline 方法的概率解釋

 

baseline 方法對於��+1的分佈沒有先驗知識,故�(��+1)=1�是一個離散均勻分佈。此時信息內容(Information content)爲:

�=−log⁡�(��+1)=−log⁡1�=log⁡�=|��+1|

故此時 |��+1| 也可以看作是 �(��+1) 的信息內容。

 

備註:

 

 

  •  

 

2. GPT 是對數據的無損壓縮

 

 

 

那麼根據上面的結論,圖中 LLaMA 65B 的 loss 面積最小,因此壓縮率最高,模型效果往往也越好。

下面討論下壓縮率的變化。

 

Next Token Prediction 雖然看似簡單,但是卻可以用壓縮理論完美的解釋,這也是爲什麼 OpenAI 堅持 Next Token Prediction 的原因。同時,壓縮理論也印證了,爲什麼 BERT 的 “預測中間詞” 從最終應用效果上比不上 GPT 系列始終堅持的“預測下一個詞”。

3. Jack Rae:Compression for AGI

有了前面的基礎,我們再來回顧 Jack Rae 的演講內容,接下來理解起來就容易得多。

摘要:在本次演講中,我們討論了基礎模型如何開始驗證 70 多年前形成的假設:更好地壓縮源數據的統計模型最終會從中學習更多基礎和通用功能。我們首先介紹壓縮的一些基礎知識,然後描述跨越數千億個參數的更大的語言模型實際上是最先進的無損壓縮器。我們討論了在實現最佳壓縮的過程中可能會出現的一些新興功能和持續限制。

演講主題

  • 深入思考基礎模型的訓練目標
  • 思考我們正在做什麼,爲什麼這樣做是有道理的,侷限性是什麼

要點

  • 找到解決感知問題的最小描述長度
  • 生成模型是無損壓縮器
  • 大語言模型是 SOTA 的無損文本壓縮器
  • 現有壓縮方法的侷限性
  • 侷限性

目錄

  • 最小描述長度
  • 用大語言模型進行無損壓縮
  • 具體實現
  • 侷限性和總結

3.1 最小描述長度(Minimum Description Length, MDL)

想象一個電腦軟件需要把英文翻譯成中文,如果它是通過查找字典把所有可能的詞組翻譯成中文,那麼我們可以認爲它對翻譯任務有着最差的理解,因爲任何出現在字典之外的詞組它都無法翻譯。但如果將字典提煉爲較小的規則集(例如一些語法或基本的詞彙),那它將會有更好的理解能力,因此我們可以根據規則集的壓縮程度對其進行評分。實際上,如果我們可以把它壓縮到最小描述長度,那麼我們可以說它對翻譯任務有着最好的理解。

對於給定的數據集 D,我們可以使用使用生成模型 f 對其進行壓縮(在第2節我們已經介紹過如何推導出壓縮公式),如下所示:

目前我們通常使用的基礎模型是生成模型,我們可以使用生成器模型以非常精確的數學格式來表徵數據集的無損壓縮,因此我們可以嘗試使用生成模型來找到最小描述長度。

圖中 | D | 表示數據集 D 的無損壓縮,無損壓縮的大小可以表示爲對 D 評估的生成模型的負對數似然加上估計函數的最小描述長度。

3.2 用大語言模型進行無損壓縮

對於數據集 D,可以使用 LLM f 的 next-token 預測損失加上 f 的描述長度(~100KB)。

上面的公式在前面第2節已經介紹過。

上圖中是 LLaMA 模型的一些訓練曲線,綠線和紅線表示的兩個模型只在數據集上訓練了 1 個 epoch,因此可以把訓練損失視爲 |D| 中的 next-token 預測損失。同時我們也可以粗略地估計模型的描述長度(~1MB)。即便模型的參數量不同,但 LLaMA 33B 和 LLaMA 65B 兩個模型有着相同的數據描述長度(用於訓練的代碼相同)。但 65B 模型顯然有着更低的訓練損失,把兩項相加,可以看出 65B 實際上是更好的壓縮器。

上圖是一些更具體的數據,用於初始化和訓練模型的代碼約爲 1MB,粗略地計算負對數似然大約是 400GB,而用於訓練的原始數據是 5.6TB 的文本,因此該模型的壓縮率爲 14 倍。而 Hutter Prize 上最好的文本壓縮器能實現 8.7 倍的壓縮。實際上我們正在創建更強大的模型,爲我們的訓練數據提供更低的無損壓縮率,即便中間模型本身可能非常大。

3.3 具體如何實現

關於 GPT 這樣的大模型是如何實現壓縮機制的,在前面第2節已經具體介紹過,這裏就不再重複介紹。

3.4 侷限性和總結

在分享的最後,Jack Rae介紹了大模型這種壓縮方式的侷限性。

1. 對所有的一切都進行壓縮非常不現實

  • 比如,像素級的圖像建模開銷非常大,對視頻進行像素級別的建模簡直是瘋掉了
  • 一個限制是,可能需要首先確定想要保留和建模的信息片段,然後找到一種方法來過濾掉我們不需要的無關計算和信息片段。這可以幫助我們在無損壓縮之前減少正在處理的數據子集

2. 非常多在現實中的數據可能是無法直接觀測到的

  • 不能指望通過壓縮所有可觀測到的數據實現AGI
  • 以圍棋遊戲AlphaZeroa爲例子,觀察有限數量的人類遊戲不足以實現真實的突破。相反,需要其Agent自行進行對弈並收集數據中間的數據。

總結Jack Rae 在最後的總結中給出了以下幾個觀點:

  1. 最有用的壓縮方法是通過scale實現。But Scale isn’t all you need。
  2. 還有這很多的算法上的進步等待着去發現 (如圖像視頻的壓縮) 。
  3. 壓縮是很好的評價大語言模型LLM能力的指標。
  4. 壓縮是一種實現AGI的方法,但可能不唯一。

總結

Jack Rae 的這次分享向我們揭示了 GPT 爲什麼擁有智能,通過數據壓縮理論給出了量化大模型能力的指標,感覺收穫滿滿。如果大家想具體瞭解,還是建議去看看原視頻。另外北京大學也做過一次 Compression For AGI 爲主題的分享,感興趣的也可以去下載下來看看。

Jack Rae 分享視頻:

北京大學分享:【Compression For AGI:壓縮即智慧,大語言模型LLM是最好的無損壓縮器-嗶哩嗶哩】 

最後我們用一張長圖,來回顧 AGI 的發展歷史。

參考

壓縮即泛化,泛化即智能 (qq.com)

2302.13971.pdf (arxiv.org)

張俊林:世界的參數倒影:爲何GPT通過Next Token Prediction可以產生智能

智慧信息的壓縮:模型智能的湧現之道_經濟學人 - 前瞻網

Compression for AGI(大語言模型進行無損壓縮) - 實時互動網 (nxrte.com)

智慧信息的壓縮:模型智能的湧現之道_經濟學人 - 前瞻網 (qianzhan.com)

智慧信息的壓縮:模型智能的湧現之道 - 文心AIGC (7otech.com)

壓縮下一個 token 通向超過人類的智能 - 知乎 (zhihu.com)

HackMD - Markdown 協作知識庫

爲什麼說 GPT 是無損壓縮 | K.I.S.S (bigeagle.me)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章