深度強化學習--第一講

deep reinforcement learning

deep: 能夠處理複雜的場景輸入以及計算真實複雜函數

reinforcement learning: 能夠選擇複雜的actions

強化學習遇到的問題

* 人類可以快速學習 --- 深度強化學習很慢
* 人類可以重複使用過去的知識 ---遷移學習是深度強化學習的一個開放問題
* 不清楚reward函數是什麼
* 不清楚預測規則是什麼

什麼是強化學習

  • 機器學習的分支,主要關注的是一系列的動作
  • 通常是用來描述根據agent與一個預測未知環境的交互 從而嘗試給出最大累計reward
  • 部分可觀察馬爾科夫決策過程 POMDP

]![這裏寫圖片描述

什麼是深度強化學習

強化學習使用神經網絡來近似函數

  • Policies (選擇下要個action)
  • value functions (測量states優度或者狀state-action 對)
  • Dynamics Models (預測下一個states 和 rewards)

強化學習與監督學習的區別

  • 無法獲得優化的函數
  • 與狀態世界交互,輸入依賴於之前的actions
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章