Improved deep reinforcement learning for robotics through distribution-based experience retention


發表時間:2016(IROS 2016)
文章要點:這篇文章提出了experience replay方法的改進,讓experience的分佈介於當前policy和均勻分佈之間,作者做實驗發現這個時候的效果是最好的(the ideal distribution is likely to be somewhere between the distribution that results from simply following the most recent policy with some exploration and a uniform distribution over the state-action space.)。
具體的,作者保留了兩個buffer,一個是標準的replay buffer \(D_\pi\)。另一個buffer \(D_U\)用同樣的樣本通過overwritten的方式來近似狀態動作空間的均勻分佈,相當於避免了在環境中探索就得到了一個均勻分佈。然後訓練的時候從兩個buffer裏一起採樣。因爲訓練過程中,探索下降的很快(during the training the amount of exploration is reduced too far, the performance of the controller policy will decrease.),這樣既可以保證樣本多樣性,避免overfitting(RL with deep neural network function approximators can fail when the experiences that are used to train the neural networks are not diverse enough. most minibatch optimization algorithms are based on the assumption of independent and identically distributed data),而且可以減少高的探索帶來的危害(Maintaining high levels of exploration might place infeasible demands on physical systems such as robots.)。
而這個用來近似均勻分佈的buffer \(D_U\),通過overwritten來實現,具體就是等buffer滿了之後,新來的experience會覆蓋掉當前buffer裏和其他experience最相似的樣本。作者通過計算平均相似度得到

然後採樣的時候從\(D_U\)裏採\(\alpha\)的比例,從\(D_\pi\)裏採\(1-\alpha\)的比例,作者直接取的0.5。作者說,這其實也是generalization和task performance的一種trade-off。作者在一個物理問題上做的實驗,效果還可以

最後畫了一下狀態的分佈情況

總結:可能有一定的道理,不過文章的符號有點混亂,有的圖也沒有解釋清楚。
疑問:裏面比較了TDE算法,但是沒介紹。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章