NLP文本分類缺少訓練數據?IBM提出基於語言模型的數據增強新方法

VentureBeat消息,IBM Research 的研究人員在近期發表的一篇論文中,提出了一種文本分類任務的數據擴充新方法。該方法被研究人員稱爲基於語言模型的數據增強(LAMBADA),原理是使用一個預先訓練過的機器學習模型來合成文本分類任務所需要的標記數據。IBM研究人員聲稱,LAMBADA可以提高分類器在各種數據集上的性能,並顯著地改進了數據擴充的最新技術,特別是那些適用於數據很少的文本分類任務的技術。

文本分類是 NLP 中的一個基礎研究領域。它包含有很多其他的任務,比如意圖分類、情感分析、話題分類、關係分類等。想要爲分類器模型獲得一個良好的擬合,需要大量的標記數據。然而,在很多情況下,尤其是在爲特定應用開發人工智能系統時,帶標籤的數據往往是稀缺且昂貴的。

那麼,怎樣才能擁有足夠多且可供深度學習模型訓練用的數據呢?

IBM 研究人員在近期發表的一篇論文中給出了一個有些“特別”的答案。

預訓練模型是解決文本數據擴充的新途徑?

當數據不足時,數據擴充是處理該情況的常用策略,它從現有的訓練數據中合成新的數據,藉此提高下游模型的性能。然而擴充訓練數據在文本領域往往比在視覺領域更具挑戰性。

文本數據擴充時,所採用的通常方法(如:用同義詞替換單個單詞、刪除一個單詞、改變詞序等),往往會使文本無效或者產生歧義,在語法和語義上都有可能出現錯誤。

對此,IBM 研究人員表示:儘管在這種情況下通過使用深度學習方法來改善文本分類看起來有些自相矛盾,但預訓練模型爲解決該任務開闢了新途徑。

IBM 研究人員在近期的論文中提出了一種新的方法——基於語言模型的數據擴充(LAMBADA)。該方法可以用於綜合標記數據,進而改進文本分類任務。研究人員聲稱,當只有少量標記數據可用時,LAMBADA的表現非常優秀。

據瞭解,LAMBADA利用了一個生成模型(OpenAI的GPT),它預先訓練了大量的文本,使自身能夠捕獲語言的結構,從而產生連貫的句子。研究人員會在現有的小數據集上對模型進行微調,並使用微調後的模型合成新的標記句。再然後,研究人員會在相同的原始小型數據集上訓練分類器,並讓它過濾合成數據語料庫,只保留那些看起來“足夠定性”的數據,然後在“現有的”以及“合成後的數據”上重新訓練分類器。

測試結果

IBM 研究人員使用三種不同的分類器(BERT、LSTM、SVM)將LAMBADA方法與Baseline進行比較,同時也對比了在訓練樣本數量不同的情況下分類器的表現(每個類別分別爲5、10、20、50和100)。

爲了進一步驗證結果的準確性,IBM 的研究人員在5個樣本的前提下,將Baseline與LAMBADA在三個數據集(ATIS、TREC、WVA)和三個分類器(每個類別使用五個樣本)進行了比較,並得到下面的數據。

Airline Travel Information Systems (ATIS)
提供有關語言理解研究中廣泛使用的與飛行有關的信息的查詢的數據集。 由於大多數數據屬於航班類別,因此ATIS被描述爲不平衡數據集。

Text Retrieval Conference (TREC)
信息檢索社區中用於問題分類的著名數據集,由基於事實的開放域問題組成,分爲廣泛的語義類別。

IBM Watson Virtual Assistant (WVA) 
用於意圖分類的商業數據集,包括來自電信客戶支持聊天機器人系統的數據。

接下來,研究人員又將LAMBADA與其他的數據擴充方法進行了比較。結果顯示,LAMBADA的測試結果明顯優於ATIS和WVA數據集中的其他生成算法。

在帶有BERT分類器的數據集中,LAMBADA的測試結果明顯優於其他方法;在帶有SVM分類器的TREC數據集上,LAMBADA的測試結果與EDA相當;在具有LSTM分類器的TREC數據集,LAMBADA的測試結果與CVAE相當。

總結

“LAMBADA不需要額外的未標記數據……令人驚訝的是,與簡單的弱標記方法相比,對於大多數分類器來說,LAMBADA實現了更好的準確性,”IBM研究人員在論文中寫道。“顯然,生成的數據集比從原始數據集提取的樣本更有助於提高分類器的準確性。”

總而言之,LAMBADA的作用主要體現在三個方面:

  1. 統計上提高分類器的準確性。
  2. 在缺乏數據的情況下,性能優於最先進的數據擴充方法。
  3. 當不存在未標記的數據時,建議使用一種更令人信服的方法替代半監督技術。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章