RL筆記:RL_1

1. RL介紹

強化學習(Reinforcement Learning,RL),又稱再勵學習,評價學習或增強學習,是機器學習的範式和方法論之一,用於描述和解決智能體在於環境的交互過程中通過學習策略以達成回報最大化或實現特性目標的問題。

  • 基本要素
    AActionspace)SStatespcae)RReward)PTransition\begin{aligned} &A:動作空間(Action space) \\ &S:狀態空間(State spcae) \\ &R:獎勵(Reward) \\ &P:狀態轉移概率矩陣(Transition)\\ \end{aligned}

2.馬爾科夫決策過程(Markov Decision Process, MDP )

2.1 馬爾科夫過程(Markov Process)

在一個隨機過程s0,s1,...,sns_0,s_1,...,s_n中,已知時刻tit_i所處的狀態sis_i,如果在時刻ti+1t_{i+1}時的狀態si+1s_{i+1}至於狀態sis_i相關,耳語tit_i時刻之前的狀態無關,則稱這個過程爲馬爾科夫過程。

具有馬爾科夫性質的隨機過程s0,s1,...,sns_0,s_1,...,s_n成爲馬爾科夫鏈。

2.2 馬爾科夫回報過程(Markov Reward Process)

狀態s的期望獎勵值表示爲
V(s)=E[GtSt=s],V V(s)=E[G_t|S_t=s],其中V表示獎勵的期望
計算累計獎勵的方式

  • 計算從當前狀態到結束狀態的所有獎勵之和,適合有限時界強庫抗下的強化學習
    V(s)=E[GtSt=s]=E[rt+1+rt+2+...+rt+T]=E[rt+1+V(St+1)St=s]=sP(ss)(R(s)+V(s))\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+r_{t+2}+...+r_{t+T}] \\ &=E[r_{t+1}+V(S_{t+1})|S_t=s] \\ &=\sum _{s^·}P(s^`|s)(R(s^`)+V(s^`)) \end{aligned}

  • 增加折扣因子,適合無限時界
    V(s)=E[GtSt=s]=E[rt+1+γrt+1+γ2rt+3+...]=E[rt+1+γV(St+1)St=s]=sP(ss)(R(s)+γV(s))\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+\gamma r_{t+1}+\gamma^2r_{t+3}+...] \\ &=E[r_{t+1}+\gamma V(S_{t+1})|S_t=s] \\ &=\sum _{s^`}P(s^`|s)(R(s^`)+\gamma V(s^`)) \end{aligned}

2.3 馬爾科夫決策過程(Markov Decision Process,MDP)

將馬爾科夫決策過程定義爲一個五元組:
M=(S,A,R,P,γ)S:AR:SAR,P:SAS,\begin{aligned} &M=(S,A,R,P,\gamma) \\ &S:狀態空間,表示所有的狀態 \\ &A:動作空間,表示每個狀態下可執行的動作 \\ &R:S*A \rightarrow R,獎勵函數 \\ &P:S*A \rightarrow S,狀態轉移規則 \end{aligned}
強化學習要解決的問題是:agent(智能體)需要學習一個策略(policy)π\pi ,這個策略π\pi定義了從狀態到動作的一個映射關係π:SA\pi :S \rightarrow A,也就是說,agent在任意狀態sts_t下所能執行的動作爲:at=π(st)a_t=\pi (s_t),並且有
atAπ(atst)=1 \sum _{a_t \in A} \pi (a_t|s_t)=1



持續學習中…

附:CSDN博客中的公式顯示問題

  • 行內的公式不能有空格,如$公式$
  • 段間的公式在有其他的語法應用時,也不能有空格,如$$\begin{aligned} 公式 \end{aligned},作用是將公式利用“&”進行對齊。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章