資源論文非系統論文,NLP 圈同行評審存在的六大固化誤區!


來源:AI科技評論

本文約5500字,建議閱讀10+分鐘

蘋果是蘋果,橘子是橘子,兩者都有自己的優點。

NLP中的大多數成功案例都是關於監督學習或半監督學習的。從根本上說,這意味着我們的解析器、情感分類器、QA系統和其他一切都和訓練數據一樣好。基於這一事實,數據和模型工程,對於 NLP 進一步的發展來說同樣重要。這就是爲什麼頂級會議 ACL 通常還專設了一個“資源和評估”通道,並頒發最佳資源論文獎。

然而,創建模型和資源這兩項任務所需要的技能集並不相同,往往也來自不同的領域,這兩個領域的研究者往往也對“論文應該是怎樣的”抱有不同的期望。這就使得審稿人的工作進入一個雷區:如果期望得到一個橘子結果得到的卻是一個蘋果,那麼這個蘋果看起來就是錯的。以雙方最大的善意來看,論文被拒絕的原因可能並非論文實際存在任何缺陷,而是它的基本方法論“不合適”。

對於這一點比較失望的作者們在線上或線下展開的討論,是這篇文章的寫作緣由。有一件事很明顯:如果作者和審稿人不能就“論文應該是怎麼樣的”達成一致,那麼提交論文就是浪費彼此的時間。作者希望,本文能幫助那些使用數據的人,更好地理解那些製作數據的人,並對他們的論文做出更好的評價。

同行評審對資源論文的六大誤區

讓我們從消除一些關於資源論文的誤區開始。注:下面所有引用都來自ACL審稿人對論文的真實評論!

誤區1:資源論文不是科學

也許這一觀點最有代表性的例子來自於Rachel Bawden。ACL 2019的一位審稿人對他這篇以機器翻譯爲媒介的雙語對話資源論文提出了以下意見:

本文主要是對語料庫及其集合的描述,幾乎不包含科學上的貢獻。

鑑於ACL 2019有一個專門的“資源和評估”領域,因此,這種觀點的提出看起來甚至是不可能的,而出現在評論中更是不可接受!需要明確的是,資源建設至少以三種方式增加了知識:

  • 它們是從建模中獲得任何知識的先決條件;

  • 除資源外,可能還有註釋準則或新的數據收集方法;

  • 基於註釋的迭代準則開發增加了對長尾現象的瞭解。

論文鏈接:

https://hackingsemantics.xyz/2020/reviewing-data/#bawden2019diabla

誤區2:資源論文更適合LREC或研討會

大多數ACL會議都提供一個專門的“資源和評估”通道,但是資源論文的作者通常被建議將他們的工作提交給語言資源和人類語言技術評測方面的國際頂級會議 LREC或一些專題研討會。我們再次借用下 Rachel Bawden 在ACL 2019 中論文評論裏面的一句話:

我認爲這篇文章不適合ACL。它非常適合LREC和特定的機器翻譯會議和研討會。

人們普遍認爲NLP系統工程相關的工作比資源相關的工作更有聲望,而這一觀點可能正是與此有關。由於ACL是頂級會議,因此,資源論文應該被提交給研討會和級別較低的LREC會議。

這種觀點非常不公平,甚至會適得其反。首先,NLP工程論文每年通常都有好幾次機會提交給NLP領域的主流頂級會議。而LREC是唯一一個專門討論資源的會議,每兩年才舉辦一次。

其次,NLP的進展取決於系統和基準的共同演進。NLP基準並不完美,當我們在其中任何一個基準上停留太久時,我們很可能會開始針對錯誤的事情進行優化,發表許多SOTA論文,但卻並沒有取得真正的進展。因此,開發更具挑戰性的基準與建模工作同等重要。我們至少可以做到的是,在頂級會議上發表此類文章來推動這件事。此外,將數據和模型各自置於不同的會議,不太可能改善這兩個社區之間的思想交流。

誤區3:新資源必須大於競爭

針對這一點,我自己在ACL 2020上收到了以下評論:

本文提出的新語料庫並不比現有語料庫大。

針對資源論文的這一評論,其實就相當於在評審系統論文以“如果不是SOTA,則拒絕”來判定一篇論文的生死。測試性能提供了一種簡單的啓發式方法來判斷新模型的潛在影響,與此同時數據集大小成爲其實用性好壞的指標。在這兩種情況下,來自工業界和資金雄厚的實驗室的論文都有優勢。

由於數據量往往與數據質量成反比,因此這種態度隱晦地鼓勵衆包並阻礙專家註釋。上述提到的向 ACL 2020 提交的論文提供了一個具有專家語言註釋的資源,其中存在着更大、噪聲更多的衆包替代方案。這篇論文特別討論了爲什麼直接比較這些資源的大小是沒有意義的。不過,其中一位評審人認爲,新的語料庫比衆包語料庫要小,這顯然降低了它的價值。

誤區4:資源必須是英語或跨語言較大的

語言的數量似乎與數據集的大小具有大致相同的功能:一種判斷其潛在影響的啓發式方法。以下是 Robert Munro 從另一篇 ACL 論文評論中引用的一段話:

總的來說,沒有好的跡象表明其他語言對能取得好的結果。

這是一個絕對有效的評論,它適用於大多數只關注英語卻探討建模“語言”(#BenderRule)的NLP論文。因此,如果這一觀點被認可,那麼每一篇論文都要求必須是跨語言的研究。然而這一觀點,往往是由非英語資源論文的評審人提出的。

其結果是,這種工作正在被邊緣化,並受到了阻礙。我有幸參加了ESSLLI 2019,並與一些出色的拉脫維亞文研究人員進行了交流,他們研究針對自己的語言的NLP系統。他們告訴我,他們放棄了主要的ACL會議,因爲他們的工作範圍太過狹窄,大多數人沒有興趣。這對每個人來說都是一個損失:要把對英語有用的想法轉移到其他語言上絕非易事,這些拉脫維亞文研究人員想出的訣竅可能在全球範圍內都有很大的用處。此外,如果我們在NLP社區的目標是建立“人類語言”的模型,我們不太可能只關注其中一種語言就獲得成功。

將語言數量與論文的潛在影響混爲一談,會給跨語言研究帶來一個有趣的結果:他們擁有的語言越多,在審稿人眼中就越好。

然而,如果在所有這些語言中執行任何有意義的分析,那麼語言數量通常會隨着作者列表長度的增加而增加:例如有一篇關於通用依賴性的論文就有85位作者,該論文涉及的語言數量就比較多。

論文地址:

https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-1548

一個普通的機器學習實驗室沒有辦法做這樣的事情,所以爲了取悅審稿人,他們使用了機器翻譯來擴增語言數量,甚至在類型聲明中也使用了機器翻譯(以“BERT Is Not an Interlingua and the Bias of Tokenization”論文爲例:https://doi.org/10.18653/v1/D19-6106)。在這種情況下,語言數量並不能完全代表論文的整體質量。

誤區5:已有數據集太多了

針對這一觀點,以下是EMNLP 2019論文評論中的一個例子:

本文提出了另一種問答測試。

爲了保證公平性,這位審稿人隨後提到,如果一個新的基準提供了一些全新的方法,它可能會擁有一席之地。不過,其隱含的假設是,資源論文應該有一個上限,有大量的問答數據多少會適得其反。

有一種觀點認爲,有太多基準會稀釋社區的努力。然而,只有當有一個基準本質上比所有其他基準都好時,這一點纔會成立。如果不是這樣,只關注一個數據集可能會適得其反。有了大量的數據集,我們至少可以進行更好的泛化研究。例如,在SQuAD、CoQA和QuAC上訓練的模型不會相互轉移,即使這三個數據集都基於Wikipedia。

論文地址:

https://arxiv.org/pdf/1809.10735.pdf

有趣的是,對於系統論文也可以提出同樣的觀點:在下一次突破之前,社區應該對BERT進行多少增量修改是否應該有一個上限?(相關論文地址:https://arxiv.org/pdf/2002.12327.pdf

誤區6:每一篇ACL資源論文都必須隨附DL實驗

以上所有的謬論都很容易被駁斥,因爲它們反映了邏輯上的謬誤和一種研究傾向——不喜歡與主流NLP系統論文不一樣。但其中有一個似乎與社區真正的分歧相對應:

繼續進行#NLProc同行評審辯論!

到目前爲止,最棘手的問題是:ACL是否應該要求資源論文進行一些概念驗證的應用?

支持方:沒有 ML實驗=>就投稿到 LREC

反對方:超新的方法論/高影響力的數據就足矣

你的觀點是什麼?

看過幾十條評論,顯而易見人們在聽到“資源論文”時,很明顯會有不同的想法。是否需要進行DL實驗,甚至是否合適,都取決於貢獻的類型。

  • NLP任務/基準:主要觀點通常是,新基準比以前的基準更具挑戰性。這一說法顯然必須得到實驗結果的支持;

  • 計算語言資源(詞彙、詞典、語法):其價值在於從某些角度提供儘可能完整的詳細語言描述。類似VerbNet這樣的語言資源,並不是爲任何特定的DL應用程序創建的,因此不應該要求包含任何這樣的實驗。

介於這兩個極端之間的,是可以很容易地構建爲DL任務/基準的資源類型,但還不清楚它們是否應該是必需的,甚至是最好的選擇。具體而言,這涉及:

  • 非公開數據的發佈:以前非公開的數據資源,如匿名醫療數據或來自私人公司的數據。作者的貢獻是使發佈成爲可能的法律或行政工作;

  • 具有語言註釋的資源(樹庫,共指,照應,時態關係等):這些資源的質量傳統上是由註釋之間的一致性來衡量的。作者的貢獻是註釋工作或註釋方法。

在這兩種情況下,數據可能以多種不同的方式使用。可以只提供標準的訓練/測試拆分,並將資源作爲新任務或基準來呈現,從而使某些實踐者的生活變得更輕鬆——這些實踐者只想尋找新任務來設置自己喜歡的算法。但這可能不是唯一用來思考新數據的方法,甚至不是最好的方法。這時,這場討論演變成了一場不科學的拔河比賽,大致是這樣的:

工程師:這個數據是給我的嗎?如果是,我想看看相關實驗,證明這是可以學習的。

語言學家:這實際上是關於語言而不是深度學習的數據。但如果你願意,歡迎使用這些數據。

在這一灰色地帶,我懇請領域主席定好他們的期望,並向作者和審稿人明確說明這一點。否則我們會陷入一個雷區:一些審稿人認爲基線實驗是一項硬性要求,但作者沒有預料到這一點。不然作者們提交的論文對作者本身以及審稿審得疲憊不堪的審稿人和領域主席來說都是浪費時間。而他們明確說明這一點,則可以很容易地防止這種浪費。

就我個人而言,我反對將基線實驗作爲硬性要求,理由如下:

  • NLP是一個跨學科的項目,我們需要儘可能得到來自各個學科的所有幫助。要求每一次提交都要用機器學習方法打包,這不僅會阻礙擁有不同技能的研究者的數據和想法之間流動,還會影響語言學、社會學和心理學等領域之間的數據和思想流動。

  • 包含這樣的實驗可能不會取悅任何一方。如果作者不是必須在論文中包含基線的話,會給語言學家們留下一些本可以解決的問題。工程師們會變得只關注基線部分,然而最終發現基線部分並沒有那麼引人關注。

以我的一篇論文作爲具體案例,這篇論文提出了一個新的情感標註方案,一個新的數據集,並展示了一些基線實驗。審稿人指出的一個不足之處是:

使用域內單詞嵌入獲得的結果不足爲奇。一個衆所周知的事實是,域內單詞嵌入相對於一般單詞嵌入更具信息性。

我們對域內嵌入的評論只是簡單地描述了結果表,並無意作爲啓示。這篇論文的貢獻在於資源和方法,但在文中出現的這些實驗顯然引發了審稿人的錯誤預期。雖然最終我們的論文被接收了,但其他很多人可能掉進了這個陷阱。

論文地址:

https://www.aclweb.org/anthology/C18-1064.pdf

如何給論文寫出好的評論

1. 我適合當這篇論文的審稿人嗎?

蘋果是蘋果,橘子是橘子,兩者都有自己的優點。因爲資源論文不是系統論文而拒絕它,是沒有意義的。要寫一篇建設性的評論,首先,你需要從與作者同樣的方法論角度來看待它的貢獻。如果有不匹配的地方,也就是說,如果你被分配去審一篇貢獻類型不在你的研究範圍內的論文,最好讓領域主席重新分配。

以下是資源論文的一些主要類型,以及撰寫高質量評論所需的專業知識:

  • 衆包NLP訓練/測試數據集:基礎衆包方法論的知識、對潛在問題(如非自然信號)的認識(論文地址:https://arxiv.org/pdf/1803.02324.pdf)和註釋者偏差(論文地址:https://arxiv.org/abs/1908.07898),以及此任務的其他可用數據集。理想情況下,你至少自己構建了一個此類資源。

  • 帶語言註釋的語料庫(語法、復指、共指、時態關係):有關語言理論和註釋經驗的知識,註釋可靠性估計,以及這一特定子領域的現有資源。理想情況下,你至少自己構建了一個此類資源。

  • 語言知識資源(語法、詞典、詞彙數據庫):語言理論的其他知識和所有其他相關資源。理想情況下,你至少自己構建了一個此類資源。

那麼,非英語資源呢?我們不能指望總是有這樣一批審稿人,他們都是該領域的專家,而且都會說一種特定的稀有語言,所以答案很可能是“分工”。當我們以審稿人的身份註冊會議時,除了專業領域外,我們還可以指定語言。如果一篇資源(或系統)論文不是用英語撰寫的,那麼除了目標領域的兩位專家外,領域主席最好能找到至少一位會說這種語言的審稿人。

不懂這門語言的人仍然可以評估能判斷部分的貢獻(方法、分析、與其他工作的有意義的比較)。只要領域主席在你的評論中清楚地知道論文的哪些部分超出了你的範圍,都將能夠做出明智的決定,並在必要時招募額外的審稿人。當然,作者應該通過添加註釋來幫助應對這一問題。

2. 在ACL 中,什麼樣的資源論文才是有價值的?

一旦你確定你看待這篇論文的角度與作者的方法論一致,你就需要判斷它的實際貢獻。當然,並不是所有的資源論文都值得發表在一個頂級的NLP會議上!對於系統和資源論文來說,接收標準並沒有太大的不同。大多數會議都對這種方法的新穎性、貢獻大小、潛在影響的大小感興趣。在 ACL 中具有價值的論文,無論是任何一種類型,論文作者都需要對其中的至少一項進行有力的論證。

下面是一些符合(或不符合)這些標準的資源論文類型的示例:

  • 高新穎度:重大概念創新

     示例:新任務,新註釋方法;

     反例:使用現有框架收集更多數據或更新現有資源,或只是將現有資源轉換爲其他語言。

  • 高影響力:解決一個普遍存在的問題,提出具有高度概括性的新方法(跨語言或任務)。

     示例:發現影響多個數據集的偏差,發佈時間敏感的數據(例如,有關冠狀病毒最新研究數據集);

     反例:減小由一個特定數據集中註釋器準則引起的特定偏差。

  • 高質量、豐富性或規模:重要的公共數據發佈,能在語言描述,數據質量或資源量方面提供明顯的優勢。

     示例:語言數據庫(如VerbNet),帶有語言註釋的語料庫,在特定情況下有機收集的數據(如匿名醫療數據);

     反例:沒有明顯優勢的噪聲數據,不公開的數據。

重申一下,只要滿足其中一個標準,一篇論文就是值得發表的:一個狹窄的問題可以用一種非常新穎的方式來解決;如果噪聲數據集非常完整,那麼會產生很大的影響;如果論文表明瞭爲英語版本開發的技術完全無法推廣,僅僅簡單地將資源改寫爲另一種語言也可能會引起巨大轟動。

但作者確實需要證明至少有一個標準適用性很強,並使審稿人相信沒有嚴重的缺陷(例如,通過丟棄大部分數據來放大內部註釋器的一致性)。

相關參考文獻詳見原文:

https://hackingsemantics.xyz/2020/reviewing-data/

編輯:黃繼彥

校對:林亦霖

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章