Deep Q-learning

https://www.bilibili.com/video/av16921335?p=14

DQN

兩種模型

在這裏插入圖片描述

  • 狀態和動作作輸入,得到動作的Q值
  • 狀態作輸入,所有動作的Q值作輸出,選擇Q值最大的對應的動作作爲接下來要做的動作。
  • 作業是第二種

神經網絡的更新

在這裏插入圖片描述
在這裏插入圖片描述

DQN強大的根本原因

  • DQN有記憶庫用於學習之前的經歷
  • Q-learning是一種off-poilcy的離線學習法,可以學習當前經歷着的,也可以學習過去經歷過的,甚至可以學習別人的經歷。
  • DQN更新時,每次隨機抽取一些之前的經歷進行學習。隨機抽取可以打亂經歷之間的相關性,也使得神經網絡更新更有效率。
  • Fixed Q-targets是一種打亂相關性的機理。
    在這裏插入圖片描述
  • 使用fixed Q-target,我們在DQN中使用兩個結構相同但是參數不同的神經網絡,預測Q估計得網絡有最新的參數,預測Q現實的參數是很久以前的。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章