論文筆記:Dueling Network Architectures for Deep Reinforcement Learning

題目:Dueling Network Architectures for Deep Reinforcement Learning

來源:ICML 2016 Best Paper

 

摘要

在最近幾年中,在強化學習中使用深度學習的表示取得了很大的成功。這些應用依然使用了比較傳統的架構。比如卷積網絡,LSTM或者自動編碼器。在本文中,作者提出了一個新的用於model free強化學習的神經網絡結構,在dueling network中,作者設計了兩個獨立的estimator,一個是狀態價值函數(state value function),一個是狀態依存動作優勢函數(state-dependent action adantage function)。這樣做的好處是可以在不改變底層強化學習算法的條件下在動作間歸納學習。實驗結果顯示,這種構架在多種價值相似的動作面前能帶來更好的評估策略。這一構架使得我們的強化學習智能體達到了在Atari 2600最先進的結果。

基本思想

文中提到,伴隨着強化學習和深度學習的結合,我們在相關領域取得了很多進步,比如DQN等等。但是,最近的研究專注於設計和改善像化學系算法,並沒有想到創新一種適合於model free的神經網絡架構。這樣做可以在不改變強化學習算法的基礎上提升其表現。

下面講state-dependent action adantage function是個什麼東西。我們看下圖,也是論文中給出的例子:

 

 

通過這個例子,我們可以看到value function和state-dependent action adantage function關注點是不一樣的。value function無論周圍車況,其始終關注的是路,而state-dependent action adantage function則有所區別,周圍沒有車的時候其什麼都不關注,有車的時候開始關注周圍的車。

從直覺上講,state-dependent action adantage function關注的是一個動作有沒有價值,且不需要學習每個動作對每個狀態的影響。在那些動作不會以任何相關方式影響到環境的狀態中,這就特別有用。

 

。。。看不懂了,等看懂了接着寫。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章