CS294-112:Introduction and Course overview

一、課程內容

  • 從監督學習到決策
  • 強化學習中的無模型算法:Q-LearningPolicy Gradients, Actor Critic
  • 高級模型學習與預測
  • 遷移學習,多任務學習,元學習
  • 開放性問題研究與探索

二、什麼是深度強化學習

強化學習擁有一個學習者(Agent), 其處在一個環境中,其對環境狀態有一個觀測,據此其做出決策(行動),決策會改變環境狀態,環境會反饋給Agent獎勵。強化學習即用數學建模了這一過程,使得Agent能夠做出最優決策。
在這裏插入圖片描述

深度學習提供了一種處理非結構數據的方法,也就能夠更好地從環境中提取特徵。

兩者結合,我們便能夠實現能夠更加靈活處理現實環境並進行決策的Agent。個人認爲,強化學習核心是決策,而深度學習爲其提供了一種特徵提取的方法,使得Agent能夠更加靈活地對現實做出反應。

三、真實世界中的決策需要解決什麼問題

傳統強化學習是希望最大化獎勵,但是這不是僅僅重要的。這裏仍然有一些高級的主題

  • 學習獎勵函數(逆強化學習)
  • 在不同領域中遷移知識(遷移學習、元學習)。
  • 學習如何預測並根據預測行動。

四、應該如何構建一個智能體

方案一:硬編碼實現各個部位(如腦)的功能。困難
在這裏插入圖片描述
方案二: 建模Agent接受環境輸入(深度學習)和根據該輸入進行決策功能(強化學習)。稍簡單方案二的思想,就是深度強化學習

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child’s? If this were then subjected to an appropriate course of education one would obtain the adult brain。 —圖靈
在這裏插入圖片描述

參考資料

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章