原创 TOPOLOGICAL EXPERIENCE REPLAY

發表時間:2022(ICLR 2022) 文章要點:這篇文章指出根據TD error來採樣是低效的,因爲估計TD error的target Q就不準(since a state's correct Q-value precondition

原创 Regret Minimization Experience Replay in Off-Policy Reinforcement Learning

發表時間:2021 (NeurIPS 2021) 文章要點:理論表明,更高的hindsight TD error,更加on policy,以及更準的target Q value的樣本應該有更高的採樣權重(The theory suggest

原创 Effective Diversity in Population-Based Reinforcement Learning

發表時間:2020 (NeurIPS 2020) 文章要點:這篇文章提出了Diversity via Determinants (DvD)算法來提升種羣裏的多樣性。之前的方法通常都考慮的兩兩之間的距離,然後設計一些指標或者加權來增加種羣多

原创 MODEL-AUGMENTED PRIORITIZED EXPERIENCE REPLAY

發表時間:2022(ICLR 2022) 文章要點:這篇文章想說Q網絡通常會存在under- or overestimate,基於TD error的experience replay通常都是無效的,因爲TD error是基於Q網絡的值計算

原创 Remember and Forget for Experience Replay

發表時間:2019(ICML 2019) 文章要點:這篇文章想說如果replay的經驗和當前的policy差別很大的話,對更新是有害的。然後提出了Remember and Forget Experience Replay (ReF-ER)算

原创 LEARNING TO SAMPLE WITH LOCAL AND GLOBAL CONTEXTS FROM EXPERIENCE REPLAY BUFFERS

發表時間:2021(ICLR 2021) 文章要點:這篇文章想說,之前的experience replay的priority比如PER,都是單個transition獨立設置的,並沒有考慮transition之間的關係。這篇文章提出了一個叫

原创 Prioritized Sequence Experience Replay

發表時間:2020 文章要點:這篇文章提出了Prioritized Sequence Experience Replay (PSER),一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的pri

原创 Revisiting Fundamentals of Experience Replay

發表時間:2020(ICML2020) 文章要點:這篇文章研究了experience replay in Q-learning,主要考慮了兩個方面:replay capacity(buffer的大小,the total number of

原创 Revisiting Prioritized Experience Replay: A Value Perspective

發表時間:2021 文章要點:這篇文章想說Prioritized experience replay這類方法通過surprise (the magnitude of the temporal-difference error)來採樣,但是

原创 Muesli: Combining Improvements in Policy Optimization

發表時間:2021(ICML 2021) 文章要點:這篇文章提出一個更新policy的方式,結合regularized policy optimization 以及model learning as an auxiliary loss。最

原创 POLICY IMPROVEMENT BY PLANNING WITH GUMBEL

發表時間:2022(ICLR 2022) 文章要點:AlphaZero在搜索次數很少的時候甚至動作空間都不能完全被訪問到,這個時候AlphaZero的效果是不好的。文章提出了Gumbel AlphaZero算法,利用policy impr

原创 The Difficulty of Passive Learning in Deep Reinforcement Learning

發表時間:2021(NeurIPS 2021) 文章要點:這篇文章提出一個tandem learning的實驗範式來研究爲什麼offline RL很難學。對於offline RL來說,一個很嚴重的問題就是extrapolation err

原创 Off-Policy Deep Reinforcement Learning without Exploration

發表時間:2019(ICML 2019) 文章要點:這篇文章想說在offline RL的setting下,由於外推誤差(extrapolation errors)的原因,標準的off-policy算法比如DQN,DDPG之類的,如果數據的分

原创 A Deeper Look at Experience Replay

發表時間:2017(Deep Reinforcement Learning Symposium, NIPS 2017) 文章要點:這篇文章主要研究了replay buffer大小對Q-learning的影響,得出的結論是大的buffer會

原创 DisCor: Corrective Feedback in Reinforcement Learning via Distribution Correction

發表時間:2020 (NeurIPS 2020) 文章要點:這篇文章想說,對於監督學習來說就算剛開始訓的不準,後面的新數據也會給你正確的feedback,這樣的話隨着訓練進行,總會修正之前的錯誤。但是對於像Q-learning這樣的強化學