NeurIPS 2018 | 基於學習的多任務框架L2MT,爲多任務問題選擇最優模型

 

由騰訊AI Lab 和香港科技大學的研究者合作完成的論文,提出一種新型框架 L2MT(learning to multitask),用基於學習的方法爲多任務問題選擇最優模型,本文爲NeurIPS 2018收錄文章。

 

論文鏈接:https://arxiv.org/abs/1805.07541

 

多任務學習旨在利用多個任務中包含的有用信息來幫助提高這些任務的泛化性能。最近幾十年誕生了衆多多任務模型。根據最近的一項調查,這些模型可以分爲兩大類:基於特徵的方法和基於參數的方法。

 

基於特徵的方法用數據特徵作爲媒介,在所有任務中共享知識,通常會學習所有任務的共同特徵表示。這種方法可以進一步分爲兩類:淺層共享和深層共享。不同於基於特徵的方法,基於參數的方法通過使用正則化項或貝葉斯先驗處理模型參數來實現不同任務之間的知識遷移,從而連接不同任務。

 

該方法可以細分爲五類:低秩法、任務聚類法、任務關係學習法、髒方法和多層法。

 

多任務模型如此之多,如何爲給定的多任務問題選擇最優模型呢?一種解決方案是做模型選擇,即使用交叉驗證或其變體。該解決方案的侷限性之一是計算量很大,因爲每個候選模型都需要進行多次訓練。

 

本論文提出了一個學習多任務(learning to multitask,L2MT)的框架,以基於學習的方法解決這個問題。L2MT 的主要思想是利用已有的多任務經驗來學習如何爲新的多任務問題選擇合適的多任務模型。爲了實現這一目的,研究者把已有的多任務經驗表示爲由元組組成的訓練集,其中每個元組都有三個條目:一個多任務問題、一個多任務模型和相對測試誤差,該誤差等於多任務問題的多任務模型的平均測試誤差與單任務學習模型的平均測試誤差的比率。

 

基於該訓練集,研究者提出了一個端到端的方法來學習從多任務問題和多任務模型到相對測試誤差的映射關係,這裏需要確定多任務問題和多任務模型的表徵。首先,研究者提出一種分層圖神經網絡(LGNN)來學習作爲多任務問題中單個任務表徵的任務嵌入,並將聚合所有任務嵌入得來的任務嵌入矩陣作爲多任務問題的表徵。對於那些公式統一的多任務模型,由於任務協方差矩陣扮演重要的角色且揭示了成對任務間的關係,所以使用協方差矩陣來表示任務。然後,將多任務問題和模型的表徵都編碼進評估函數以估計相對測試誤差。對於一個新的多任務問題,我們可以通過 LGNN 學習任務嵌入矩陣,然後通過優化評估函數來學習任務協方差矩陣以及整個多任務模型,以取得較低的相對測試誤差。在基準數據集上的實驗結果顯示了 L2MT 框架的有效性。

 

 

圖 1:L2MT 框架圖示,該框架由兩個階段組成。訓練階段基於訓練數據集和特定多任務模型學習評估函數 f(·, ·),以逼近相對測試誤差。測試部分則通過最小化相對測試誤差(即來學習任務協方差矩陣。表示第 i 個多任務問題 S_i 中第 j 個任務的訓練數據集,Si 和表示測試多任務問題 S˜ 中第 i 個任務的訓練數據集。LGNN 基於訓練數據集進行訓練學習,且被訓練和測試多任務問題中的所有任務共享,研究者繪製了多個副本以便清晰呈現。

 

L2MT 框架有一些相關的學習範例,包括多任務學習、遷移學習和終身學習。但是,L2MT 框架與這些相關範例相去甚遠。在多任務學習中,訓練集只包含一個多任務問題,即 S_1,其目標是在給定多任務模型的情況下學習模型參數。遷移學習和 L2MT 的區別與多任務學習和 L2MT 的區別類似。終身學習可以看作是在線遷移/多任務學習,因此它也與 L2MT 不同。

 

圖 2:訓練數據量改變時,不同模型在四個數據集上的結果

 

圖 3:使用 30% 的數據進行訓練時,L2MT 在 20newsgroup 數據集上的靈敏度分析

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章