CS294-112:Introduction and Course overview

文章目錄

一、課程內容

從監督學習到決策
強化學習中的無模型算法:Q-Learning，Policy Gradients, Actor Critic
高級模型學習與預測
遷移學習，多任務學習，元學習
開放性問題研究與探索

二、什麼是深度強化學習

強化學習擁有一個學習者(Agent), 其處在一個環境中，其對環境狀態有一個觀測，據此其做出決策(行動)，決策會改變環境狀態，環境會反饋給Agent獎勵。強化學習即用數學建模了這一過程，使得Agent能夠做出最優決策。

深度學習提供了一種處理非結構數據的方法，也就能夠更好地從環境中提取特徵。

兩者結合，我們便能夠實現能夠更加靈活處理現實環境並進行決策的Agent。個人認爲，強化學習核心是決策，而深度學習爲其提供了一種特徵提取的方法，使得Agent能夠更加靈活地對現實做出反應。

三、真實世界中的決策需要解決什麼問題

傳統強化學習是希望最大化獎勵，但是這不是僅僅重要的。這裏仍然有一些高級的主題

學習獎勵函數(逆強化學習）
在不同領域中遷移知識(遷移學習、元學習)。
學習如何預測並根據預測行動。

四、應該如何構建一個智能體

方案一：硬編碼實現各個部位（如腦）的功能。困難

方案二: 建模Agent接受環境輸入(深度學習)和根據該輸入進行決策功能(強化學習)。稍簡單， 方案二的思想，就是深度強化學習

Instead of trying to produce a program to simulate the adult mind, why not rather try to produce one which simulates the child’s? If this were then subjected to an appropriate course of education one would obtain the adult brain。 —圖靈

參考資料

官方PDF

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

CS294-112:Introduction and Course overview

文章目錄

一、課程內容

二、什麼是深度強化學習

三、真實世界中的決策需要解決什麼問題

四、應該如何構建一個智能體

參考資料

如何在低代碼平臺中引用 JavaScript ？

探究職業發展的關鍵：能力模型解讀

高效率使用windows

如何使用 JavaScript 獲取當前頁面幀率 FPS

工程款拖欠，農民工怎麼了？就得一直忍着委屈求全嗎？

HarmonyOS 實現下拉刷新，上拉加載更多

語音信號處理中的“窗函數”

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

CS294-112: Introduction to Reinforcement Learning

排列問題的重參數技巧

論文筆記：Simplify the Usage of Lexicon in Chinese NER Minlong

CS294-112: Policy Gradients

自然語言處理名言

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結