開始看《深入淺出強化學習——原理入門》,由於時間有限,做個簡要的筆記。
“深度學習如圖像識別和語音識別解決的是感知問題,強化學習解決的是決策問題,人工智能的終極目標就是經過感知進行智能決策。”
1、區分有模型 無模型: 狀態轉移概率Pss'已知,是有模型的強化學習;
2、(有模型的強化學習)值函數是怎麼來的:高斯賽德爾迭代,用前一次的值計算後一次的值,直到收斂!
以下是高斯賽德爾迭代求值函數內容:
開始看《深入淺出強化學習——原理入門》,由於時間有限,做個簡要的筆記。
“深度學習如圖像識別和語音識別解決的是感知問題,強化學習解決的是決策問題,人工智能的終極目標就是經過感知進行智能決策。”
1、區分有模型 無模型: 狀態轉移概率Pss'已知,是有模型的強化學習;
2、(有模型的強化學習)值函數是怎麼來的:高斯賽德爾迭代,用前一次的值計算後一次的值,直到收斂!
以下是高斯賽德爾迭代求值函數內容:
一、幾個基本概念 登錄用戶(login user):通過登錄方式進入系統的用戶,強調登錄身份。 當前用戶(current user):執行一個進程或者命令時所使用的用戶身份,強調執行身份。 舉