DeepMind提出多任務強化學習新方法Distral

選自arXiv

機器之心編譯

參與:蔣思源、黃小天

深度強化學習因爲複雜的環境而很難進行有效的訓練,通常我們會簡化環境或使用共享神經網絡參數的方法進行多任務學習,但採用這種方法的學習並不穩定。因此 DeepMind 近日發表了一篇論文,並提出了一種用於多任務的聯合訓練的新方法—Distral(提取&遷移學習)。

 

論文鏈接:https://arxiv.org/pdf/1707.04175.pdf

摘要:在複雜的富環境中,大多數深度強化學習算法的數據使用效率並不高,限制了其在諸多場景之中的應用。解決該問題的一個方向是通過共享神經網絡參數實現多任務學習,藉助關聯任務之間的遷移提升數據使用效率。然而在實際中,這不容易被觀察到,因爲來自不同任務的梯度可以消極干預,使得學習不穩定,有時甚至效率更低。另一個問題是任務之間的不同獎勵方案,這可以輕易導致一個任務主導共享模型的學習。我們提出了一種用於多任務的聯合訓練的新方法——Distral(提取&遷移學習)。我們沒有共享不同工作站之間的參數,而是通過共享「提取的」策略捕捉任務之間的共同行爲。每個工作站被訓練以解決其自己的任務,同時被限制接近於共享策略,儘管共享策略是通過提取被訓練從而成爲所有任務策略的中心(centroid)。學習過程的兩個方面都來自於優化一個聯合目標函數。我們表明該方法支持複雜 3D 環境中的高效遷移,並優於多個相關方法。然而,該學習過程更魯棒更穩定——這對深度強化學習尤其關鍵。

新框架 Distral 可用於多任務之間的同步強化學習。圖 1 是一個包含 4 個任務的圖示。該方法聚焦於共享策略的理念上(如圖中心所示),它從具體任務的策略中提取(在 Bucila and Hinton et al. [5, 11] 的意義上)共同行爲或表徵。

圖 1: Distral 框架

圖 2: 不同算法和基線的描述。左側是 Distral 算法中的兩個,右側是 3 個 A3C 基線。熵(entropy)在括號之內,因爲它是可選擇的,且只用於 KL+ent 2col 和 KL+ent 1col。

Distral 框架允許大量可能的算法例示,以目標、算法和架構結合的方式出現,我們將在下文述及,並總結在表 1 和圖 2 中。

表 1: 實驗中評估的 7 個不算法。每一列描述一個不同的架構,每列的標題指示任務策略的 logit。行定義 KL 與 熵正則化損失函數的相關量,第一行包括 A3C 基線(沒有 KL 損失函數)。

圖 3: 左圖:兩個空間網格世界中的學習曲線。DisTraL 智能體(藍色)學習的更快,並向更好的策略收斂,從整體上證明了更穩定的學習。中圖:任務的實例。綠色代表目標位置,爲了每一任務統一被採樣。在每一個 episode 開始之時,開始位置統一被採樣。右圖:習得的提取策略 π0 只在走廊之中,並受限於之前向左/向右的行動,沒有先前的獎勵。箭頭的大小描述行動的概率。注意向上/向下行動的概率可以忽略。模型在走廊中學習保持行進的方向。

圖 4:上圖 A1、C1 和 D1 展示了任務具體型(分別爲迷宮、導航和 laser-tag 任務)策略性能(所有任務的均值),其中這幾幅圖 x 軸代表每個任務訓練環境步的總數。B1 圖展示了由使用提取策略(distilled policies)所獲得的均分值。對於每個算法,我們基於曲線下面積展示了最優超參數設定。A1、B1、C1 和 D1 中的粗線爲四次運行的均值,而彩色的區域爲每個任務的平均標準差。圖 A2、B2、C2 和 D2 展示了每個算法 36 次運行的最終性能,並且從好到壞排序(9 個超參數設定,且運行了四次)。

結語

我們提出了 Distral,一種用於提取(distilling)和遷移多任務強化學習中一般行爲的通用框架。在實驗中,該最終算法不僅能更迅速地學習、產生更好的性能,同時還能更加穩健和魯棒地設置超參數。我們發現 Distral 能顯著地優於爲多任務和遷移強化學習共享神經網絡參數的標準方法。

該論文最重要的兩個發現:即我們發現使用 KL 散度正則化任務模型的輸出爲已提取模型(distilled model)時,提取(distillation)可自然地作爲優化過程的一半。另一半則相應於使用已提取模型作爲任務模型訓練的正則器(regularizer)。另一個發現是深度神經網絡中的參數通常不具備語義意義,所以我們並不在參數空間內正則化(regularizing)網絡,因此我們有必要考慮在更加具備語義信息的空間中正則化神經網絡,如在策略空間中正則化神經網絡。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章