RL筆記：RL_1

原創

King_key

2020-07-04 17:44

1. RL介紹

強化學習（Reinforcement Learning，RL)，又稱再勵學習，評價學習或增強學習，是機器學習的範式和方法論之一，用於描述和解決智能體在於環境的交互過程中通過學習策略以達成回報最大化或實現特性目標的問題。

基本要素
$\begin{aligned} &A：動作空間（Action space) \\ &S：狀態空間（State spcae) \\ &R：獎勵（Reward) \\ &P：狀態轉移概率矩陣（Transition）\\ \end{aligned}$

2.馬爾科夫決策過程（Markov Decision Process, MDP ）

2.1 馬爾科夫過程（Markov Process)

在一個隨機過程 $s_0,s_1,...,s_n$ 中，已知時刻 $t_i$ 所處的狀態 $s_i$ ，如果在時刻 $t_{i+1}$ 時的狀態 $s_{i+1}$ 至於狀態 $s_i$ 相關，耳語 $t_i$ 時刻之前的狀態無關，則稱這個過程爲馬爾科夫過程。

具有馬爾科夫性質的隨機過程 $s_0,s_1,...,s_n$ 成爲馬爾科夫鏈。

2.2 馬爾科夫回報過程（Markov Reward Process)

狀態s的期望獎勵值表示爲
$V(s)=E[G_t|S_t=s],其中V表示獎勵的期望$
計算累計獎勵的方式

計算從當前狀態到結束狀態的所有獎勵之和,適合有限時界強庫抗下的強化學習
$\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+r_{t+2}+...+r_{t+T}] \\ &=E[r_{t+1}+V(S_{t+1})|S_t=s] \\ &=\sum _{s^·}P(s^`|s)(R(s^`)+V(s^`)) \end{aligned}$
增加折扣因子，適合無限時界
$\begin{aligned} V(s)&=E[G_t|S_t=s] \\ &=E[r_{t+1}+\gamma r_{t+1}+\gamma^2r_{t+3}+...] \\ &=E[r_{t+1}+\gamma V(S_{t+1})|S_t=s] \\ &=\sum _{s^`}P(s^`|s)(R(s^`)+\gamma V(s^`)) \end{aligned}$

2.3 馬爾科夫決策過程（Markov Decision Process，MDP）

將馬爾科夫決策過程定義爲一個五元組：
$\begin{aligned} &M=(S,A,R,P,\gamma) \\ &S:狀態空間，表示所有的狀態 \\ &A：動作空間，表示每個狀態下可執行的動作 \\ &R:S*A \rightarrow R,獎勵函數 \\ &P:S*A \rightarrow S,狀態轉移規則 \end{aligned}$
強化學習要解決的問題是：agent(智能體)需要學習一個策略（policy） $\pi$ ,這個策略 $\pi$ 定義了從狀態到動作的一個映射關係 $\pi :S \rightarrow A$ ,也就是說，agent在任意狀態 $s_t$ 下所能執行的動作爲： $a_t=\pi (s_t)$ ,並且有
$\sum _{a_t \in A} \pi (a_t|s_t)=1$

持續學習中…

附：CSDN博客中的公式顯示問題

行內的公式不能有空格，如 $公式$
段間的公式在有其他的語法應用時，也不能有空格，如$$\begin{aligned} 公式 \end{aligned},作用是將公式利用“&”進行對齊。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

RL筆記：RL_1

1. RL介紹

2.馬爾科夫決策過程（Markov Decision Process, MDP ）

2.1 馬爾科夫過程（Markov Process)

2.2 馬爾科夫回報過程（Markov Reward Process)

2.3 馬爾科夫決策過程（Markov Decision Process，MDP）

持續學習中…

公司剛入職了一名 Java 中級開發，短短 4 行代碼居然湊齊了 3 個 bug！我哭了~~

Nginx R31 doc-13-Limiting Access to Proxied HTTP Resources 訪問限流

python包：pandas

中外程序員到底有啥區別？

Python數據分析與挖掘實戰（5章）

一、什麼是Docker

C++文件/流

二、Docker 組件

揹包九講一 01揹包

今天！通義靈碼在北京、成都、杭州三城開講啦

RL筆記：RL_1

Pyinstaller打包程序

Sublime Text中自定義代碼片段爲Python文件添加作者信息

tf-faster-rcnn[cpu]實現目標檢測（二）模型測試

CNN之LeNet

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結