deep reinforcement learning
deep: 能夠處理複雜的場景輸入以及計算真實複雜函數
reinforcement learning: 能夠選擇複雜的actions
強化學習遇到的問題
* 人類可以快速學習 --- 深度強化學習很慢
* 人類可以重複使用過去的知識 ---遷移學習是深度強化學習的一個開放問題
* 不清楚reward函數是什麼
* 不清楚預測規則是什麼
什麼是強化學習
- 機器學習的分支,主要關注的是一系列的動作
- 通常是用來描述根據agent與一個預測未知環境的交互 從而嘗試給出最大累計reward
- 部分可觀察馬爾科夫決策過程 POMDP
什麼是深度強化學習
強化學習使用神經網絡來近似函數
- Policies (選擇下要個action)
- value functions (測量states優度或者狀state-action 對)
- Dynamics Models (預測下一個states 和 rewards)
強化學習與監督學習的區別
- 無法獲得優化的函數
- 與狀態世界交互,輸入依賴於之前的actions