NLP中數據集的切割方法研究
ACL 2019傑出論文獎: We need to talk about atandard splits
獲獎理由
- 本文質疑了評估NLP模型性能時公認且廣泛運用的方法。
- 本文使用詞性標註任務說明了問題。
- 本文建議模型排名應當基於使用隨機切割的重複評估方法。
摘要
自然語言處理領域的標準做法是對數據集按照訓練集,驗證集和測試集切割,依據在分離出的測試集上的性能來對系統進行排名。然而很少有研究人員用統計的方法來測試性能之間的差異是否是由偶然原因造成的,且很少有人檢查同一個數據集中分割出不同的訓練-測試集時的系統排名的穩定性。我們使用了2000年至2018年間發佈的九個詞性標註器進行復現實驗,這些標註器每個都聲稱在廣泛使用的標準的分割方式上獲得了最佳性能。然而當我們使用隨機生成的訓練-測試集分割時,根本無法可靠地重現某些排名。我們在此建議使用隨機生成的分割來進行系統比較。
問題背景
- 在進行自然語言處理時,現在的標準做法是在一個留出的測試集上進行評估。
- 它可能導致對訓練集和測試集的過擬合,缺乏一定的普適性。
- 這樣的趨勢很有可能是由一種叫做”出版偏見“的現象導致的。
假設G是一個標準集,是訓練集,是驗證集 ,是測試集。是一個具有任意參數和超參數的模型。是一個度量函數。的值越大,則表明模型的性能越好。 通過最大化和對中的參數和超參數進行調整。通常情況下,和被認爲是一種數值關係,但實際上它們應該被視作一種隨機變量。因此,可以對這兩個隨機變量進行假設檢驗。
是一個表示兩個模型間差異的隨機變量。如果,則兩個模型的性能無差異。
通過分析2017年ACL所有的相關工作後發現,絕大部分工作都沒有進行合適的統計檢驗。缺乏假設檢驗有可能導致第一類錯誤的發生,也就是明明兩個模型間沒有顯著的差異性,卻拒絕了這個假設。
重現實驗
數據集
- The Wall St. Journal(WSJ) portion of Peen Treebank-3
- Peen Treebank WSJ 中部分重新標註過的數據。
模型
作者在英文詞性標註任務上重現了2000-2018年間所有的當時最先進的模型。
實驗結果
實驗1:使用標準切割方法
實驗2:重複20次隨機切割
這個實驗就是將兩個模型的性能進行比較,理論上右邊的模型都比左邊的模型好,但是作者做了實驗後發現並不是如此。
在20次切割中,進行假設檢驗後,第二個模型的性能顯著地超過了第一個模型性能的次數。(假設前提是第二個模型比第一個模型更先進)
解決方法
- 更多地使用隨機切割的方法來驗證模型的性能。
- 在隨機切割的基礎上,建議使用統計檢驗的方法來評估模型和目前最先進的模型的性能差異。
驗證模型的性能。
- 在隨機切割的基礎上,建議使用統計檢驗的方法來評估模型和目前最先進的模型的性能差異。