強化學習1 高斯賽德爾迭代

開始看《深入淺出強化學習——原理入門》,由於時間有限,做個簡要的筆記。

“深度學習如圖像識別和語音識別解決的是感知問題,強化學習解決的是決策問題,人工智能的終極目標就是經過感知進行智能決策。”

1、區分有模型 無模型: 狀態轉移概率Pss'已知,是有模型的強化學習;

2、(有模型的強化學習)值函數是怎麼來的:高斯賽德爾迭代,用前一次的值計算後一次的值,直到收斂!

以下是高斯賽德爾迭代求值函數內容:

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章