強化學習(Reinforcement Learning, RL)

強化學習(Reinforcement Learning, RL),又稱再勵學習、評價學習或增強學習。描述和解決智能體(agent)在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題 。

強化學習的常見模型是標準的馬爾科夫鏈,馬爾科夫決策過程(Markov Decision Process, MDP),他是在假設下一個狀態由上一個確定的狀態來決定(條件概率),每一步都是上一步狀態到當前狀態的轉移。  一階馬爾科夫,還有多階。。VAE就有這種思想

 

轉移概率,由某種狀態轉移到其他狀態的概率和爲1,今天下雨,通過經驗值確定明天晴天概率可能0.2,下雨0.5,陰天0.3,多種狀態的互相轉換組合起來叫轉移概率,又叫轉移矩陣

馬爾科夫隨機過程,各個狀態的改變是根據概率隨機的,晴雨天轉換

馬爾可夫決策過程,狀態的改變是通過動作完成的,比如喫完早飯,你可以去刷微博,也可以打遊戲, 動作選取的往往是根據是價值最大化,趨利避害,價值是所有執行狀態總回報,貝爾曼方程Bellman,會有打折係數,一般0-1,越往後的事情價值確定性越不確定,打折越高。  

總回報並不是總價值,走不通的路線總回報是不穩定的,但是價值實際是總回報的期望(所有路徑的平均值),價值是穩定的,也是通過採樣來求期望,逼近真實

 

強化學習是一種歸化的問題,要等結果產生了才能知道是給每個動作怎樣的獎懲。

 

Q學習:

策略學習:

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章