NLP中數據集的切割方法研究

原創

2020-07-08 04:10

NLP中數據集的切割方法研究

ACL 2019傑出論文獎: We need to talk about atandard splits

獲獎理由

本文質疑了評估NLP模型性能時公認且廣泛運用的方法。
本文使用詞性標註任務說明了問題。
本文建議模型排名應當基於使用隨機切割的重複評估方法。

摘要

自然語言處理領域的標準做法是對數據集按照訓練集，驗證集和測試集切割，依據在分離出的測試集上的性能來對系統進行排名。然而很少有研究人員用統計的方法來測試性能之間的差異是否是由偶然原因造成的，且很少有人檢查同一個數據集中分割出不同的訓練-測試集時的系統排名的穩定性。我們使用了2000年至2018年間發佈的九個詞性標註器進行復現實驗，這些標註器每個都聲稱在廣泛使用的標準的分割方式上獲得了最佳性能。然而當我們使用隨機生成的訓練-測試集分割時，根本無法可靠地重現某些排名。我們在此建議使用隨機生成的分割來進行系統比較。

問題背景

在進行自然語言處理時，現在的標準做法是在一個留出的測試集上進行評估。
它可能導致對訓練集和測試集的過擬合，缺乏一定的普適性。
這樣的趨勢很有可能是由一種叫做”出版偏見“的現象導致的。

假設G是一個標準集， $G_{train}$ 是訓練集， $G_{val}$ 是驗證集， $G_{test}$ 是測試集。 $S$ 是一個具有任意參數和超參數的模型。 $M$ 是一個度量函數。 $M(G,S)$ 的值越大，則表明模型的性能越好。通過最大化 $M(G_{train},S)$ 和 $M(G_{val},S)$ 對 $S$ 中的參數和超參數進行調整。通常情況下， $M(G_{test},S_1)$ 和 $M(G_{test},S_2)$ 被認爲是一種數值關係，但實際上它們應該被視作一種隨機變量。因此，可以對這兩個隨機變量進行假設檢驗。

$\delta=M(G_{test},S_1)-M(G_{test},S_2)$

$\delta$ 是一個表示兩個模型間差異的隨機變量。如果 $\delta = 0$ ，則兩個模型的性能無差異。

通過分析2017年ACL所有的相關工作後發現，絕大部分工作都沒有進行合適的統計檢驗。缺乏假設檢驗有可能導致第一類錯誤的發生，也就是明明兩個模型間沒有顯著的差異性，卻拒絕了 $\delta = 0$ 這個假設。

重現實驗

數據集

The Wall St. Journal（WSJ） portion of Peen Treebank-3
Peen Treebank WSJ 中部分重新標註過的數據。

模型

作者在英文詞性標註任務上重現了2000-2018年間所有的當時最先進的模型。

實驗結果

實驗1：使用標準切割方法

實驗2：重複20次隨機切割

這個實驗就是將兩個模型的性能進行比較，理論上右邊的模型都比左邊的模型好，但是作者做了實驗後發現並不是如此。

在20次切割中，進行假設檢驗後，第二個模型的性能顯著地超過了第一個模型性能的次數。（假設前提是第二個模型比第一個模型更先進）

解決方法

- 更多地使用隨機切割的方法來驗證模型的性能。

- 在隨機切割的基礎上，建議使用統計檢驗的方法來評估模型和目前最先進的模型的性能差異。

驗證模型的性能。

- 在隨機切割的基礎上，建議使用統計檢驗的方法來評估模型和目前最先進的模型的性能差異。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP中數據集的切割方法研究

NLP中數據集的切割方法研究

獲獎理由

摘要

問題背景

重現實驗

數據集

模型

實驗結果

實驗1：使用標準切割方法

實驗2：重複20次隨機切割

解決方法

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

C# 代碼學習

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

一個簡單的MD5加鹽

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

LSTM用於元學習-"Learning to learn by gradient descent by gradient descent"-筆記詳解

MAML模型無關的元學習方法

Learning to Learn without Gradient Descent by Gradient Descent論文解析（黑箱優化問題）

Latex ulem包設置下劃線刪除線強調文本等效果

高斯過程是什麼？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結