2019年關於主動學習的三篇論文

https://zhuanlan.zhihu.com/p/78350546

 

目前推廣應用的機器學習方法或模型主要解決分類問題,即給定一組數據(文本、圖像、視頻等),判斷數據類別或將同類數據歸類等,訓練過程依賴於已標註類別的訓練數據集。在實驗條件下,這些方法或模型可以通過大規模的訓練集獲得較好的處理效果。然而在應用場景下,能夠得到的數據實際上都沒有進行人工標註處理,對這些數據進行類別標註所耗費的人力成本和時間成本非常巨大。在一些專門的應用領域,例如醫學圖像處理,只有專門學科的專業醫生能夠完成對醫學影像圖像的數據標註。顯然,在這種情況下必須依賴大規模訓練集才能使用的方法或模型都不再適用。爲了減少對已標註數據的依賴,研究人員提出了主動學習(Active Learning)方法。主動學習通過某種策略找到未進行類別標註的樣本數據中最有價值的數據,交由專家進行人工標註後,將標註數據及其類別標籤納入到訓練集中迭代優化分類模型,改進模型的處理效果。

根據最有價值樣本數據的獲取方式區分,當前主動學習方法主要包括基於池的查詢獲取方法(query-acquiring/pool-based)和查詢合成方法(query-synthesizing)兩種。近年來提出的主動學習主要都是查詢獲取方法,即通過設計查詢策略(抽樣規則)來選擇最具有價值信息的樣本數據。與查詢獲取方法「選擇(select)」樣本的處理方式不同,查詢合成方法「生成(generate)」樣本。查詢合成方法利用生成模型,例如生成式對抗網絡(GAN, Generative Adversarial Networks)等,直接生成樣本數據用於模型訓練。

我們從 2019 年機器學習會議中選出三篇關於主動學習方法的文章進行鍼對性的分析,這三篇文章爲:

        1、Learning loss for active learning(CVPR 2019,oral)

原文地址:https://arxiv.org/abs/1905.03677?context=cs.CV

        2、Variational Adversarial Active Learning (ICCV 2019,oral) 

原文地址:https://arxiv.org/pdf/1904.00370

        3、Bayesian Generative Active Deep Learning (ICML 2019)

原文地址:https://arxiv.org/pdf/1904.11643.pdf

其中,前兩篇提出基於池的查詢獲取方法:《Learning loss for active learning》通過添加損失函數設計一種任務不可知的主動學習方法,《Variational Adversarial Active Learning》設計了一種利用 VAE 和對抗網絡來學習潛在空間中已標註數據分佈情況的查詢策略。第三篇 ICML 的文章《Bayesian Generative Active Deep Learning》介紹了一種利用對抗性網絡的查詢合成方法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章