[轉載]李宏毅RL網課筆記

李宏毅深度強化學習課程 https://www.bilibili.com/video/av24724071

李宏毅深度強化學習筆記(一)Outline
概述強化學習,及policy-based、value-based的方法

李宏毅深度強化學習筆記(二)Proximal Policy Optimization (PPO)
episide、trajectory等術語,policy gradient的原理,on-policy和off-policy
important sampling,PPO算法

李宏毅深度強化學習筆記(三)Q-Learning
引入狀態價值函數和動作價值函數,提到了估計狀態價值函數的兩種方法:基於蒙特克羅的方法(MC)和時序差分方法(TD)。
Q-learning的算法流程,Target network和replay Buffer的方法
Double DQN、Dueling DQN、Prioritized Experience Replay、Multi-step:Combination of MC and TD
Distributional Q-function、Rainbow
連續行動下的QL

李宏毅深度強化學習筆記(四)Actor-Critic
結合Policy gradient和Q-learning,用QL的V函數和Q函數來替換policy gradient公式裏面的累積reward和baseline
Advantage Actor-Critic、Asynchronous Advantage Actor-Critic (A3C)
Pathwise Derivative Policy Gradient

李宏毅深度強化學習筆記(五)Sparse Reward
處理動作空間太大,大部分動作的reward均爲0的情況。
好奇法、ICM函數、課程式學習、級聯強化學習

李宏毅深度強化學習筆記(六)Imitation Learning
模仿學習 Imitation Learning、Inverse Reinforcement Learning (IRL)


李宏毅深度強化學習課件
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章