台部落initial

發表時間：2022（ICLR 2022）文章要點：這篇文章指出根據TD error來採樣是低效的，因爲估計TD error的target Q就不準（since a state's correct Q-value precondition

2023-07-14 13:34:01

發表時間：2021 (NeurIPS 2021) 文章要點：理論表明，更高的hindsight TD error，更加on policy,以及更準的target Q value的樣本應該有更高的採樣權重（The theory suggest

2023-07-10 13:37:46

發表時間：2020 (NeurIPS 2020) 文章要點：這篇文章提出了Diversity via Determinants (DvD)算法來提升種羣裏的多樣性。之前的方法通常都考慮的兩兩之間的距離，然後設計一些指標或者加權來增加種羣多

2023-07-07 13:32:28

發表時間：2022（ICLR 2022）文章要點：這篇文章想說Q網絡通常會存在under- or overestimate，基於TD error的experience replay通常都是無效的，因爲TD error是基於Q網絡的值計算

2023-07-03 13:32:31

發表時間：2019（ICML 2019）文章要點：這篇文章想說如果replay的經驗和當前的policy差別很大的話，對更新是有害的。然後提出了Remember and Forget Experience Replay (ReF-ER)算

2023-07-02 13:32:37

發表時間：2021（ICLR 2021）文章要點：這篇文章想說，之前的experience replay的priority比如PER，都是單個transition獨立設置的，並沒有考慮transition之間的關係。這篇文章提出了一個叫

2023-06-25 13:32:29

發表時間：2020 文章要點：這篇文章提出了Prioritized Sequence Experience Replay (PSER)，一個新的經驗回放機制來提升訓練速度和效果。主要的出發點就是不僅要給重要的transition高的pri

2023-06-23 13:32:17

發表時間：2020（ICML2020）文章要點：這篇文章研究了experience replay in Q-learning，主要考慮了兩個方面：replay capacity（buffer的大小，the total number of

2023-06-09 13:32:24

發表時間：2021 文章要點：這篇文章想說Prioritized experience replay這類方法通過surprise (the magnitude of the temporal-difference error)來採樣，但是

2023-06-04 13:32:31

發表時間：2021（ICML 2021）文章要點：這篇文章提出一個更新policy的方式，結合regularized policy optimization 以及model learning as an auxiliary loss。最

2023-06-03 13:32:56

發表時間：2022（ICLR 2022）文章要點：AlphaZero在搜索次數很少的時候甚至動作空間都不能完全被訪問到，這個時候AlphaZero的效果是不好的。文章提出了Gumbel AlphaZero算法，利用policy impr

2023-05-28 13:35:23

發表時間：2021(NeurIPS 2021) 文章要點：這篇文章提出一個tandem learning的實驗範式來研究爲什麼offline RL很難學。對於offline RL來說，一個很嚴重的問題就是extrapolation err

2023-05-25 13:32:29

發表時間：2019（ICML 2019）文章要點：這篇文章想說在offline RL的setting下，由於外推誤差（extrapolation errors）的原因，標準的off-policy算法比如DQN，DDPG之類的，如果數據的分

2023-05-21 13:40:45

發表時間：2017（Deep Reinforcement Learning Symposium, NIPS 2017）文章要點：這篇文章主要研究了replay buffer大小對Q-learning的影響，得出的結論是大的buffer會

2023-05-18 13:32:33

發表時間：2020 (NeurIPS 2020) 文章要點：這篇文章想說，對於監督學習來說就算剛開始訓的不準，後面的新數據也會給你正確的feedback，這樣的話隨着訓練進行，總會修正之前的錯誤。但是對於像Q-learning這樣的強化學

2023-05-14 13:32:31