【論文摘要】AvgOut A Simple Output Probability Measure to Eliminate Dull Responses

本文僅爲個人對論文的一點理解,如果有不對的地方煩請指正

戳我看論文原文

論文背景

\quad 生成問題面臨着很多的挑戰,其中一個巨大的挑戰就是如何讓模型生成富有多樣性的回覆,模型容易生成安全、簡潔、並且沒有信息量的回覆,比如“I don’t know”,最近很多工作都在嘗試讓模型的輸出變得更加多樣化,這篇論文提出了一個讓模型生成內容更多樣的方法。

\quad 過去有一些工作提出手動標記一些無聊的回覆,然後去避免這些回覆,然是事實上即使使用很稀有的單詞也可以產生很多無聊的回覆。

\quad 強化學習部分可參考教程(我也是第一次學)

論文方法

AVGOUT指標

\quad 論文提出了AVGOUT(Average Output Probability Distribution)指標,以動態追蹤模型對於選詞的偏好。這個指標通過衡量一個batch中每個單詞的平均選擇概率來實現,每次訓練好一個mini-batch之後以較小的比重來更新總的單詞概率(如下圖)
在這裏插入圖片描述
\quad 總體的單詞出現概率越平均,則可以認爲模型生成的多樣性越好。但是這樣也有弊端,比如多個比較常見的單詞可以組合成多樣獨特的表達,但是這樣的行爲在這樣的指標下會被判定爲不好的行爲。

三種應用這種指標的方法

1.Regularization by Minimizing Continuous-AVGOUT

\quad 直接將AVGOUT算入到loss中,通過計算之前的平均概率分佈與當前batch的平均概率分佈的點乘來獲取當前batch的“無聊度”,一個單詞在之前出現的越多那麼它在當前的batch中就會貢獻越多的“無聊度”,用(1-無聊度)來代表當前batch的多樣性,並用超參數α\alpha來平衡它和正常loss所佔的比重。
在這裏插入圖片描述
在這裏插入圖片描述

2.Label-Fine-Tuning Model

\quad 把多樣性得分(0到1之間的連續數值)當成一個先驗知識,通過生成一個控制embedding規模(可能是把embedding所有維度都設置成多樣性得分?)來把多樣性得分作爲一個單詞輸入給模型,訓練數據的多樣性得分由人工標註得到,希望模型可以學習到多樣性得分與ground-truth語句之間的關係,這樣在生成過程中就可以通過手動修改模型輸入的多樣性得分來控制模型輸出的多樣性。

3.Reward-Based Reinforcement Learning

\quad 增強學習部分可以看上面給出的文檔獲得一個基本的認識。簡而言之就是模型已經訓練好,通過繼續的訓練修正一些行爲,與正常的機器學習不同的是增強學習可能沒有ground-truth,讓模型先生成出完整的語句,通過我們對完整語句的打分來讓模型做出修正,這樣可以迫使模型學習到更多的規則,讓模型在應用性上更強大。

\quad 大部分模型在生成過程中很容易會生成重複的話(一句話中反覆說一些詞組,或者重複某個語句),但是之前的方法並不能防止這種情況的發生(傳統訓練可以讓模型知道下一個單詞應該輸出什麼,但是模型很少會有句子層面上的整體認識)。爲此論文提出了Discrete-AVGOUT來進行強化學習,在這裏無聊度計算方式爲模型所有選擇的單詞的概率之和除以出現過的不同單詞總數,也就是說,出現過的單詞越少(重複)句子越無聊,單個單詞所佔概率越大(模型偏向越大)句子也越無聊。
在這裏插入圖片描述

【HINT】

\quad 正常訓練和增強訓練是天然的補充,於是論文又做了同時使用1,3兩種方法訓練的嘗試,詳細內容可以在論文中找到。

結果

\quad 方法2在原有指標上(答案相關性)取得的效果最好,因爲方法2並沒有改變模型Loss的計算方式,因此沒有把模型拉到奇怪的方向,這很好理解。在模型多樣性上來看,第一種方法獲得的結果最好,稍微想想也很好理解。

個人總結

\quad 論文選取了一個當下熱門的研究topic,提出了自己的多樣性指標,並使用了很多不同的方法來應用自己的指標。
\quad 總的來說,奇怪的知識增加了.jpg

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章