https://www.bilibili.com/video/av16921335?p=14
DQN
兩種模型
- 狀態和動作作輸入,得到動作的Q值
- 狀態作輸入,所有動作的Q值作輸出,選擇Q值最大的對應的動作作爲接下來要做的動作。
- 作業是第二種
神經網絡的更新
DQN強大的根本原因
- DQN有記憶庫用於學習之前的經歷
- Q-learning是一種off-poilcy的離線學習法,可以學習當前經歷着的,也可以學習過去經歷過的,甚至可以學習別人的經歷。
- DQN更新時,每次隨機抽取一些之前的經歷進行學習。隨機抽取可以打亂經歷之間的相關性,也使得神經網絡更新更有效率。
- Fixed Q-targets是一種打亂相關性的機理。
- 使用fixed Q-target,我們在DQN中使用兩個結構相同但是參數不同的神經網絡,預測Q估計得網絡有最新的參數,預測Q現實的參數是很久以前的。