深度增強學習David Silver（七）——Policy Gradient

本文主要內容：

Finite Difference Policy Gradient
Monte-Carlo Policy Gradient

上節課我們使用參數估計了價值函數和行動-價值函數，而當講到策略時，我們只提到 $\epsilon$ -greedy。在這節課，我們將會直接參數化策略 $\pi_\theta(s,a)=\sf{P}(a|s,\theta)$ 。

增強學習可分爲Value-Based、Policy-Based以及二者結合的Actor-Critic。Value-Based的增強學習的策略（比如 $\epsilon$ -greedy）是不變的，即在某個狀態，選擇哪種行動是固定的。Policy-Based的增強學習會學習不同的策略，即在某個狀態下多少的概率怎麼做，這個概率可能會不斷地調整。policy-based和value-based如下圖所示：

Policy-Based的增強學習優點有：

能收斂到能達到的最優解
在高維空間或連續的行爲空間中高效
能學習隨機策略

缺點：

通常收斂到局部最優而非全局最優
評估一個策略通常低效（這個過程可能慢，但是具有更高的可變性，其中也會出現很多並不有效的嘗試），而且方差高

那麼給定一個具有參數 $\theta$ 的策略 $\pi_\theta(s,a)$ ，判斷這個策略的優劣？通常有三種方法：

使用初始價值來判斷： $J_1(\theta)=V^{\pi_\theta}(s_1)=\sf{E}_{\pi_\theta}[v_1]$
使用平均價值： $J_{avV}(\theta)=\sum_sd^{\pi_\theta}(s)V^{\pi_\theta}(s)$
使用每次time-step的平均獎勵： $J_{avR}(\theta)=\sum_sd^{\pi_\theta}(s)\sum_a\pi_\theta(s,a)R_s^a$ ，其中 $d_{\pi_\theta}(s)$ 是策略 $\pi_\theta$ 的馬爾科夫鏈的平穩分佈（也就是當應用策略 $\pi_\theta$ ，達到收斂的分佈）。

通常使用梯度下降法通過最大化 $J(\theta)$ 來確定 $\theta$ 的取值。定義策略梯度爲：
$\nabla_\theta J(\theta)=\begin{pmatrix} \frac{\partial J(\theta)}{\partial \theta_1} \\ \vdots \\ \frac{\partial J(\theta)}{\partial \theta_n} \end{pmatrix}$

假設策略 $\pi_\theta$ 爲零的時候可微，並且已知梯度 $\nabla_\theta \pi_\theta(s,a)$ ，定義 $\nabla_\theta log \pi_\theta(s,a)$ 爲得分函數（score function）。二者關係如下：
因爲 $\nabla_\theta log \pi_\theta(s,a)=\frac{\nabla_\theta \pi_\theta(s,a)}{\pi_\theta(s,a)}$
所以
$\nabla_\theta \pi_\theta(s,a)=\pi_\theta(s,a) \frac{\nabla_\theta \pi_\theta(s,a)}{\pi_\theta(s,a)}=\pi_\theta(s,a) \nabla_\theta log \pi_\theta(s,a)$

接下來我們考慮一個只走一步的MDP，對它使用策略梯度下降。 $\pi_\theta(s,a)$ 表示關於參數 $\theta$ 的函數，映射是 $p(a|s,\theta)$ 。它在狀態s向前走一步，獲得獎勵 $r=R_{s,a}$ 。那麼選擇行動a的獎勵爲 $\pi_\theta (s,a)R_{s,a}$ ，在狀態s的加權獎勵爲 $\sum_{a \in A} \pi_\theta(s,a) R_{s,a}$ ，應用策略所能獲得的獎勵期望及梯度爲：
$J(\theta)=\mathbb{E}_{\pi_\theta}[r]=\sum_{s \in S}d(s)\sum_{a \in A} \pi_\theta(s,a) R_{s,a} \\ \nabla_\theta J(\theta)=\color{red}{\sum_{s \in S}d(s)\sum_{a \in A} \pi_\theta(s,a)} \nabla_\theta log \pi_\theta(s,a) R_{s,a}=\mathbb{E}_{\pi_\theta}[\nabla_\theta log \pi_\theta(s,a)r]$

再考慮走了多步的MDP，使用 $Q^\pi(s,a)$ 代替獎勵值r，對於任意可微的策略，策略梯度爲：
$\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}[\nabla_\theta log \pi_\theta(s,a)Q^{\pi_\theta}(s,a)]$

Monte-Carlo策略梯度通過採樣episode來更新參數：
使用隨機梯度上升法更新參數；使用策略梯度法；使用return $v_t$ 作爲 $Q^{\pi_\theta}(s_t,a_t)$ 的無偏估計。則 $\Delta \theta_t=\alpha \nabla_\theta log \pi_\theta(s_t,a_t)v_t$ ，具體如下：

Monte-Carlo策略梯度的方差較高，因此放棄用return來估計行動-價值函數Q，而是使用critic來估計Q。 $Q^{\pi_\theta}(s,a) \approx Q_w(s,a)$ 。這是一個名爲actor-critic的算法，具有兩套參數。（1）critic的參數爲w。（2）actor的參數爲 $\theta$ ，根據critic建議的方向更新。

critic其實就是在評估策略。假設Q約爲特徵的線性組合： $Q_w(s,a)=\phi(s,a)^T w$ 。critic根據線性TD(0)來更新w，actor通過策略梯度來更新 $\theta$ 。

在actor-critic算法中，對策略進行了估計，這會產生誤差，但是當滿足以下兩個條件時，策略梯度是準確的

價值函數的估計值沒有和策略相違背。 $\nabla _w Q_w(s,a)=\nabla_\theta log \pi_\theta(s,a)$
價值函數的參數w能夠最小化誤差： $\epsilon = \mathbb{E}_{\pi_\theta}[(Q^{\pi_\theta}(s,a)-Q_w(s,a))^2]$

另外，通過將策略梯度減去一個基線函數B(s)，可以在不改變期望的情況下，降低方差。證明不改變期望，就是證明相加和爲0。
$\mathbb{E}_{\pi_\theta}[\nabla_\theta log \pi_\theta(s,a)B(s)]=\sum_{s \in S}d^{\pi_\theta}(s)\sum_a \nabla_\theta \pi_\theta(s,a)B(s)\\ =\sum_{s \in S}d^{\pi_\theta}(s)B(s) \nabla_\theta \sum_{a \in A} \pi_\theta(s,a)=0$

狀態價值函數 $V^{\pi_\theta}(s)$ 是一個好的基線。因此可以通過使用優勢函數**（advantage function）** $A^{\pi_\theta}(s,a)$ 重寫價值梯度函數。
$A^{\pi_\theta}(s,a)=Q^{\pi_\theta}(s,a)-V^{\pi_\theta}(s)\\ \nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}[\nabla_\theta log \pi_\theta(s,a)A^{\pi_\theta}(s,a)]$

設 $V^{\pi_\theta}(s)$ 是真實的價值函數，TD算法利用bellman方程來逼近真實值，誤差爲 $\delta^{\pi_\theta}=r+\gamma V^{\pi_\theta}(s')-V^{\pi_\theta}(s)$ 。該誤差是優勢函數的無偏估計。因此我們可以使用該誤差計算策略梯度：
$\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}[\nabla_\theta log \pi_\theta(s,a) \delta^{\pi_\theta}]$
該方法只需要critic，不需要actor。

最後總結一下策略梯度算法：

深度增強學習David Silver（七）——Policy Gradient

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

Windows10+Ubuntu16

深度增強學習David Silver（四）——Model-Free Prediction

從GBDT到Xgboost

深度增強學習David Silver（五）——Model-Free Control

深度增強學習David Silver（七）——Policy Gradient

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結