《強化學習Sutton》讀書筆記（二）——有限馬爾科夫決策過程（Finite Markov Decision Processes）

原創

2020-07-03 08:22

此爲《強化學習》第三章 Finite Markov Decision Processes。

用戶-環境接口

馬爾科夫決策過程 (Markov Decision Process, MDP) 是建模在交互中學習的一種直觀框架。學習者和決策者被稱爲用戶 (Agent) ，其他和用戶無關的但能和用戶進行交互的部分被稱爲環境 (Environment) 。第 $t$ 時刻，用戶處於狀態 $S_{t}$ ，得到獎勵 $R_{t}$ ，在某個策略下選擇了行爲 $A_{t}$ ，從而進入下一個狀態 $S_{t + 1}$ ，得到下一個狀態的獎勵 $R_{t + 1}$ ，如下圖所示。

注意，有的時候環境並不會根據 $(S_{t}, A_{t})$ 提供一組固定的 $(S_{t + 1}, R_{t + 1})$ ，而是按概率分佈隨機選擇一個，因此有

p (s^{'}, r | s, a) ≐ Pr {S_{t + 1} = s^{'}, R_{t + 1} = r | S_{t} = s, A_{t} = a}

概率顯然滿足

\sum_{s^{'} \in S} \sum_{r \in R} p (s^{'}, r | s, a) = 1, (\forall s \in S, a \in A)

目標和獎勵

在學習決策過程中，目標 (Goal) 是最大化累計獎勵的期望值。

離散時刻下的回報

離散時刻 (Episodic) 下，我們可以把整個過程分解爲一個個時刻。在 $t$ 時刻，我們定義期望回報 (Expected Return) $G_{t}$ 爲未來各個時刻（直到最終時刻 $T$ ）得到的獎勵，即

G_{t} ≐ R_{t + 1} + R_{t + 2} + . . . + R_{T}

通常，我們認爲較近時刻得到的獎勵應賦予更大的權重，因此我們給每個時刻的獎勵加上一個衰減比例 (Discount Rate) $γ \in [0, 1]$ ，即

G_{t} ≐ R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + . . . = \sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k}

顯然有

G_{t} = R_{t + 1} + γ G_{t + 1}

離散和連續任務下的統一記號語言

略。

策略與值函數

類似上一篇中的定義，策略 (Policy) $π (a | s)$ 定義爲狀態 $s$ 下選擇行爲 $a$ 的概率，即

π (a | s) ≐ Pr {A_{t} = a | S_{t} = s}

在策略 $π$ 下狀態 $s$ 的值函數 (Value Function) 定義爲以狀態 $s$ 爲起點，然後遵循策略 $p i$ ，得到的期望回報（由於策略和環境都可能是概率分佈，因此爲回報也是一個概率分佈），即

v_{π} (s) ≐ E_{π} [G_{t} | S_{t} = s] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k} | S_{t} = s]

類似的，我們也可以定義在策略 $π$ 下狀態 $s$ 採取行爲 $a$ 的值函數 (Action-Value Function) ，即

q_{π} (s, a) ≐ E_{π} [G_{t} | S_{t} = s, A_{t} = a] = E_{π} [\sum_{k = 0}^{\infty} γ^{k} R_{t + 1 + k} | S_{t} = s, A_{t} = a]

將值函數的期望展開，得到

\begin{aligned} v_{π} (s) & = E_{π} [R_{t + 1} + γ G_{t + 1} | S_{t} = s] \\ = \sum_{a} π (a | s) \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ E [G_{t + 1} | S_{t + 1} = s^{'}]] \\ = \sum_{a} π (a | s) \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{π} (s^{'})] \end{aligned}

此爲值函數的貝爾曼等式 (Bellman Equation) 。類似的，對於行爲值函數，有

\begin{aligned} q_{π} (s, a) = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ \sum_{a^{'}} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'})] \end{aligned}

顯然，狀態值函數 $v_{π} (s)$ 和行爲值函數 $q_{π} (s, a)$ 之間是緊密相聯繫的。對於狀態值函數，有

\begin{aligned} v_{π} (s) & = E_{π} [G_{t} | S_{t} = s] \\ = \sum_{a} π (a | s) E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{a} π (a | s) q_{π} (s, a) \end{aligned}

對於行爲值函數，有

\begin{aligned} q_{π} (s, a) & = E_{π} [G_{t} | S_{t} = s, A_{t} = a] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ E_{π} [G_{t + 1} | S_{t + 1} = s^{'}]] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{π} (s^{'})] \\ = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s, A_{t} = a] \end{aligned}

這一節中還提到了回溯圖 (Backup Diagram) 的表示方法，它用空心圓表示狀態和值函數，用實心圓表示行爲和行爲值函數，空心到實心的連線表示策略下選擇各個行爲的概率，實心到空心的連線表示環境中由上一狀態和上一行爲選擇下一狀態和獎勵的概率。如下圖所示。

可以用回溯圖法表示出值函數和行爲值函數的貝爾曼等式，如下圖所示。

下一節中可以看到，在策略選擇行爲時，可以在空心到實心的張角中加一弧線，表示選擇最大的期望回報作爲下一步的行爲。

最優策略與最優值函數

我們定義最優狀態值函數 (Optimal State-Value Function) $v_{*} (s)$ 爲最優策略 $π_{*}$ 下的狀態值函數，最優策略即能使值函數取到最大值的策略，即

v_{*} (s) ≐ v_{π_{*}} (s) ≐ max_{π} v_{π} (s)

類似地，我們定義最優行爲值函數 (Optimal Action-Value Function) $q_{*} (s, a)$ 爲最優策略下的行爲值函數，即

q_{*} (s, a) ≐ q_{π_{*}} (s, a) ≐ max_{π} q_{π} (s, a)

這裏需要注意最佳策略 $π_{*}$ 和普通的策略 $π$ 之間的區別。普通的策略 $π$ 可以是一個概率分佈，而最優策略則用了貪心算法，因此它的形式更加接近於 $π_{*} (s) = a_{b e s t}$ 。

最優狀態值函數和最優行爲值函數也滿足貝爾曼等式。推導如下（參考上一節中兩種值函數的互推）：

\begin{aligned} v_{*} (s) & = max_{π} v_{π} (s) = max_{π} \sum_{a} π (a | s) q_{π} (s, a) = max_{a} q_{*} (s, a) \\ = max_{a} \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{*} (s^{'})] \\ q_{*} (s, a) & = max_{π} q_{π} (s, a) \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ v_{*} (s^{'})] \\ = \sum_{s^{'}} \sum_{r} p (s^{'}, r | s, a) [r + γ max_{a^{'}} q_{*} (s^{'}, a^{'})] \end{aligned}

最優狀態值函數和最優行爲值函數也可以用回溯圖表示，如下圖。

最優化與近似

略。

參考文獻

《Reinforcement Learning: An Introduction (second edition)》Richard S. Sutton and Andrew G. Barto

上一篇：《強化學習Sutton》讀書筆記（一）——多臂賭博機（Multi-armed Bandits）
下一篇：《強化學習Sutton》讀書筆記（三）——動態規劃（Dynamic Programming）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

《強化學習Sutton》讀書筆記（二）——有限馬爾科夫決策過程（Finite Markov Decision Processes）

用戶-環境接口

目標和獎勵

離散時刻下的回報

離散和連續任務下的統一記號語言

策略與值函數

最優策略與最優值函數

最優化與近似

參考文獻

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

嵌入式汽車電子學習路線

Mac卸載 Node npm，升級 Node

uni.showModel內容換行

Blowing Bubbles論文閱讀

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

《強化學習Sutton》讀書筆記（三）——動態規劃（Dynamic Programming）

SPPR閱讀筆記：單張圖片的3D平面重建

正義之心讀書筆記：第9章我們自私，我們也無私——支持羣體選擇的證據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結