1. RL介紹
強化學習(Reinforcement Learning,RL),又稱再勵學習,評價學習或增強學習,是機器學習的範式和方法論之一,用於描述和解決智能體在於環境的交互過程中通過學習策略以達成回報最大化或實現特性目標的問題。
- 基本要素
A:動作空間(Actionspace)S:狀態空間(Statespcae)R:獎勵(Reward)P:狀態轉移概率矩陣(Transition)
2.馬爾科夫決策過程(Markov Decision Process, MDP )
2.1 馬爾科夫過程(Markov Process)
在一個隨機過程s0,s1,...,sn中,已知時刻ti所處的狀態si,如果在時刻ti+1時的狀態si+1至於狀態si相關,耳語ti時刻之前的狀態無關,則稱這個過程爲馬爾科夫過程。
具有馬爾科夫性質的隨機過程s0,s1,...,sn成爲馬爾科夫鏈。
2.2 馬爾科夫回報過程(Markov Reward Process)
狀態s
的期望獎勵值表示爲
V(s)=E[Gt∣St=s],其中V表示獎勵的期望
計算累計獎勵的方式
-
計算從當前狀態到結束狀態的所有獎勵之和,適合有限時界強庫抗下的強化學習
V(s)=E[Gt∣St=s]=E[rt+1+rt+2+...+rt+T]=E[rt+1+V(St+1)∣St=s]=s⋅∑P(s‘∣s)(R(s‘)+V(s‘))
-
增加折扣因子,適合無限時界
V(s)=E[Gt∣St=s]=E[rt+1+γrt+1+γ2rt+3+...]=E[rt+1+γV(St+1)∣St=s]=s‘∑P(s‘∣s)(R(s‘)+γV(s‘))
2.3 馬爾科夫決策過程(Markov Decision Process,MDP)
將馬爾科夫決策過程定義爲一個五元組:
M=(S,A,R,P,γ)S:狀態空間,表示所有的狀態A:動作空間,表示每個狀態下可執行的動作R:S∗A→R,獎勵函數P:S∗A→S,狀態轉移規則
強化學習要解決的問題是:agent(智能體)需要學習一個策略(policy)π ,這個策略π定義了從狀態到動作的一個映射關係π:S→A,也就是說,agent在任意狀態st下所能執行的動作爲:at=π(st),並且有
at∈A∑π(at∣st)=1
持續學習中…
附:CSDN博客中的公式顯示問題
- 行內的公式不能有空格,如
$公式$
- 段間的公式在有其他的語法應用時,也不能有空格,如
$$\begin{aligned} 公式 \end{aligned}
,作用是將公式利用“&”進行對齊。