[轉載]李宏毅RL網課筆記

原創

2020-07-06 15:17

李宏毅深度強化學習課程 https://www.bilibili.com/video/av24724071

李宏毅深度強化學習筆記（一）Outline
概述強化學習，及policy-based、value-based的方法

李宏毅深度強化學習筆記（二）Proximal Policy Optimization (PPO)
episide、trajectory等術語，policy gradient的原理，on-policy和off-policy
important sampling，PPO算法

李宏毅深度強化學習筆記（三）Q-Learning
引入狀態價值函數和動作價值函數，提到了估計狀態價值函數的兩種方法：基於蒙特克羅的方法（MC）和時序差分方法（TD）。
Q-learning的算法流程，Target network和replay Buffer的方法
Double DQN、Dueling DQN、Prioritized Experience Replay、Multi-step:Combination of MC and TD
Distributional Q-function、Rainbow
連續行動下的QL

李宏毅深度強化學習筆記（四）Actor-Critic
結合Policy gradient和Q-learning，用QL的V函數和Q函數來替換policy gradient公式裏面的累積reward和baseline
Advantage Actor-Critic、Asynchronous Advantage Actor-Critic (A3C)
Pathwise Derivative Policy Gradient

李宏毅深度強化學習筆記（五）Sparse Reward
處理動作空間太大，大部分動作的reward均爲0的情況。
好奇法、ICM函數、課程式學習、級聯強化學習

李宏毅深度強化學習筆記（六）Imitation Learning
模仿學習 Imitation Learning、Inverse Reinforcement Learning (IRL)

李宏毅深度強化學習課件

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

[轉載]李宏毅RL網課筆記

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

[轉載]Reinforcement Learning：Sarsa和Q-learning

[環境配置]給遠端服務器配置tensorflow環境

[環境配置]給遠端服務器安裝screen

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems

[轉載]李宏毅RL網課筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結