深度強化學習－－第一講

原創

水的只能学

2020-07-02 23:02

deep reinforcement learning

deep: 能夠處理複雜的場景輸入以及計算真實複雜函數

reinforcement learning：能夠選擇複雜的actions

強化學習遇到的問題

* 人類可以快速學習 －－－ 深度強化學習很慢
* 人類可以重複使用過去的知識 －－－遷移學習是深度強化學習的一個開放問題
* 不清楚reward函數是什麼
* 不清楚預測規則是什麼

什麼是強化學習

機器學習的分支，主要關注的是一系列的動作
通常是用來描述根據agent與一個預測未知環境的交互從而嘗試給出最大累計reward
部分可觀察馬爾科夫決策過程 POMDP

什麼是深度強化學習

強化學習使用神經網絡來近似函數

Policies (選擇下要個action)
value functions (測量states優度或者狀state－action 對)
Dynamics Models （預測下一個states 和 rewards）

強化學習與監督學習的區別

無法獲得優化的函數
與狀態世界交互，輸入依賴於之前的actions

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

深度強化學習系列(5): Double Q-Learning原理詳解

論文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf 本論文由DeepMind發表於2015年NIPS的一篇論文，作者Hasselt。前言： Q-Lear

2020-07-03 21:00:41

深度強化學習系列: 最全深度強化學習資料

關於這項工作: 本工作是一項由深度強化學習實驗室(Deep Reinforcement Learning Laboratory, DeepRL-Lab)發起的項目。文章同步於Github倉庫： https://github.c

2020-07-03 21:00:41

深度強化學習系列之(13): 深度強化學習實驗中應該使用多少個隨機種子？

How Many Random Seeds Should I Use? Statistical Power Analysis in (Deep) Reinforcement Learning Experiments 前言不斷檢

2020-07-03 21:00:41

深度強化學習系列(15): TRPO算法原理及Tensorflow實現

深入淺出理解TRPO算法1、論文思想與原理1.1 Surrogate function(替代函數)1.2 目標函數1.3 一階近似： L函數1.3.1 技巧一：一階近似1.3.2 重要性採樣1.3.3 步長的選擇1.4 單調遞增

2020-07-03 21:00:41

深度強化學習系列(4): Q-Learning原理與實現

論文地址： http://www.gatsby.ucl.ac.uk/~dayan/papers/cjch.pdf Q-Learning是發表於1989年的一種value-based，且model-free的特別經典的off-p

2020-07-03 21:00:41

深度強化學習系列(7): Double DQN(DDQN)原理及實現

論文地址： https://arxiv.org/pdf/1509.06461.pdf 本文是Google DeepMind於2015年12月提出的一篇解決Q值"過估計(overestimate)"的文章，發表在頂級會議AAAI

2020-07-03 21:00:36

深度強化學習系列(8): Prioritized Experience Replay(PER-DQN)原理及實現

論文地址： https://arxiv.org/abs/1511.05952 本論文是由DeepMind操刀，Schaul主導完成的文章，發表於頂會ICLR2016上，主要解決經驗回放中的”採樣問題“（在DQN算法中使用了經典

2020-07-03 21:00:36

深度強化學習系列(10): NoisyNet-DQN原理及實現

論文地址： https://arxiv.org/pdf/1706.10295v1.pdf 本篇論文是DeepMind發表於頂會ICLR2018上的論文，第一作者Meire，裏面也有熟悉的Mnih等大佬，還是往常的閱讀順序：本

2020-07-03 21:00:36

強化學習(三）：馬爾可夫決策過程MDP【下篇】

目錄馬爾可夫決策過程MDP： a Markov reward process with decisions 策略值函數 Bellman 期望公式 Bellman期望公式的矩陣形式最優值函數 Optimal Value Funct

2020-07-01 18:56:35

強化學習【三】：動態規劃問題

·目錄 Policy Evaluation（策略評估） Iterative Policy Evaluation （迭代策略估計）例子：方格遊戲策略迭代 policy iteration 策略改進 Policy Improvement

2020-07-01 18:56:24

論文《Human-level control through deep reinforcement learning》PPT

前言由於實驗室要求每週PPT分享彙報，在這一過程中，體會到新手需要花費時間去整理論文思路，耗時較長，因此將相關PPT上傳，供有需要的遊客查閱。下載網址：Human-level.ppt …

2020-06-30 06:50:31

【深度學習】交叉熵方法

文章目錄前言第四章交叉熵方法強化學習方法的分類實用的交叉熵交叉熵法實踐：玩CartPole小遊戲交叉熵的理論背景總結前言重讀《Deep Reinforcemnet Learning Hands-on》，常讀常新，極其深入

B417科研笔记

2020-06-29 21:54:33

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門

1. 2020年DeepMind＆UCL_深度學習講座_機器學習和AI入門在此講座中，DeepMind研究科學家和UCL教授Thore Graepel解釋了DeepMind基於機器學習的AI方法。他舉例說明了如何結合使用

守望者白狼

2020-06-26 18:07:48

深度強化學習（資源篇）（更新於2020.06.9）

理論 ICLR2020 || 106篇深度強化學習頂會論文彙總前沿技術 || UC Berkeley開源RAD來改進強化學習算法加速RL探索效率，CMU、谷歌、斯坦福提出以弱監督學習解糾纏表徵強化學習如何使用內在動機？邊做

守望者白狼

2020-06-26 18:07:37

基於NAS的GCN網絡設計(AAAI2020)

知乎同步發佈：https://www.zhihu.com/people/ikerpeng/activities 介紹下我們 AAAI2020的工作：Learning Graph Convolutional Network for Skel

2020-06-24 22:32:30

24小時熱門文章

最新文章

最新評論文章