CS294-112: Policy Gradients

一、策略梯度法

1、評估策略

在前面的學習中,我們已經瞭解到了,強化學習的目標是求解下式:

θ=argmaxθEτpθ(τ)[tr(st,at)](1)\theta^*=arg \max_{\theta}E_{\mathcal{\tau} \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)] \tag{1}

其中:pθ(τ)=p(s1)Πt=1Tπθ(atst)p(st+1st,at)(2)p_{\theta}(\tau) = p(s_1)\Pi_{t=1}^T\pi_{\theta}(a_t|s_t)p(s_{t+1}|s_t,a_t) \tag{2}

要推導出梯度策略法,我們先研究如何評估目標函數:
J(θ)=Eτpθ(τ)[tr(st,at)](3)J(\theta) = E_{\tau \sim p_{\theta}(\tau)}[\sum_tr(s_t,a_t)] \tag{3}

由於不清楚pθ(τ)p_{\theta}(\tau)的解析式,因此我們沒法直接求解,但是我們能夠使用蒙特卡洛方法抽樣近似,即:

J(θ)=1Nitr(si,t,ai,t)(4)J(\theta) = \frac{1}{N}\sum_i\sum_tr(s_{i,t},a_{i,t}) \tag{4}

其中NN表示抽樣的樣本數。si,t,ai,ts_{i,t}, a_{i,t}分別表示第ii個樣本在時刻tt的狀態和行動。

這裏的抽樣即在橘色框中完成,抽樣的結果可以理解爲下圖右方的多條路徑。

在這裏插入圖片描述
而計算(4)式的過程即在綠色框中完成。

現在我們利用蒙特卡洛抽樣的方法能夠評估策略的好快,那麼我們如何完成藍色框中的任務,即優化策略呢?

2、優化策略

在優化中,最常見的方法便是根據梯度優化目標函數,在這裏我們仍然採用該方法。令:
r(τ)=tr(st,at)(5)r(\tau)=\sum_tr(s_t,a_t) \tag{5}
則目標函數(3)式可寫爲:
J(θ)=pθ(τ)r(τ)dτ(6)J(\theta) = \int p_{\theta}(\tau)r(\tau)d\tau \tag{6}
其梯度爲:
θJ(θ)=θpθ(τ)r(τ)dτ(7)\nabla_{\theta}J(\theta)=\int \nabla_{\theta} p_{\theta}(\tau)r(\tau)d\tau \tag{7}

同樣,不知道pθ(τ)p_{\theta}(\tau)的表達式,且該處有積分,我們無法直接計算(7)式。 但是我們有以下的重要恆等式:

pθ(τ)θlogpθ(τ)=θpθ(τ)(8)p_{\theta}(\tau) \nabla_{\theta}logp_{\theta}(\tau)=\nabla_{\theta}p_{\theta}(\tau) \tag{8}

(7)(8)式,我們得到
θJ(θ)=pθ(τ)θlogpθ(τ)r(τ)dτ(9)\nabla_{\theta}J(\theta)=\int p_{\theta}(\tau) \nabla_{\theta}logp_{\theta}(\tau)r(\tau)d\tau \tag{9}

(9)式,現在我們可以使用蒙特卡洛方法近似梯度(數學實在神奇), 可寫爲:

θJ(θ)=pθ(τ)θlogpθ(τ)r(τ)dτ=1Ni=1Nθlog pθ(τi)r(τi)(10)\nabla_{\theta}J(\theta)=\int p_{\theta}(\tau) \nabla_{\theta}logp_{\theta}(\tau)r(\tau)d\tau =\frac{1}{N} \sum_{i=1}^N\nabla_{\theta}log \ p_{\theta}(\tau_i)r(\tau_i) \tag{10}

現根據(2)式求出:
logpθ(τ)=logp(s1)+t=1T[logπθ(atst)+log p(st+1at,st)](11)logp_{\theta}(\tau)=logp(s_1) + \sum_{t=1}^T[log\pi_{\theta}(a_t|s_t)+log \ p(s_{t+1}|a_t,s_t)] \tag{11}

因此有:
θlog pθ(τ)=t=1Tθlog πθ(atst)(12)\nabla_{\theta}log \ p_{\theta}(\tau)=\sum_{t=1}^T \nabla_{\theta}log \ \pi_{\theta}(a_t|s_t) \tag{12}

根據(10)(12)式,並將r(τ)r(\tau)展開,我們可以寫出梯度的最終形式:

θJ(θ)=1Ni=1N[(t=1Tθlog πθ(atst))(t=1Tr(si,t,ai,t))](13)\nabla_{\theta}J(\theta)=\frac{1}{N}\sum_{i=1}^N\left[\left(\sum_{t=1}^T \nabla_{\theta}log \ \pi_{\theta}(a_t|s_t)\right) \left( \sum_{t=1}^Tr(s_{i,t}, a_{i,t}) \right) \right] \tag{13}

可以看到,這個梯度竟然既不依賴初始分佈,也不依賴轉移概率,實在驚喜,這樣,只要我們能夠求出θlogπθ(atst)\nabla_{\theta}log\pi_{\theta}(a_t|s_t), 我們便能夠求得梯度,進而實現策略的優化。而這,就是最簡單的梯度策略法:REINFORCE (Williams, 1992)

3、直觀理解

推導到這裏,我們再簡單小結一下算法流程:

(1) 黃色框: 運行策略πθ(as)\pi_{\theta}(a|s), 抽樣得到{τ}i=1N\{ \tau\}_{i=1}^N
(2) 綠色框: 根據(4)式計算總的獎勵,衡量當前策略的好壞
(3) 藍色框:根據(13)式計算參數梯度,然後走一個梯度上升步θθ+λθJ(θ)\theta \leftarrow \theta+\lambda \nabla_{\theta}J(\theta)

但是,如果我們僅僅使用該算法進行學習,學習的效果往往是不太好的。要分析爲什麼不太好,以及如何改進,我們先進一步理解θlog πθ(atst)\nabla_{\theta}log \ \pi_{\theta}(a_t|s_t)究竟代表什麼

回顧我們所做的工作,我們使用軌跡樣本近似了目標函數梯度
θJ(θ)=1Ni=1Nθlog pθ(τi)r(τi)(14)\nabla_{\theta}J(\theta) = \frac{1}{N}\sum_{i=1}^N \nabla_{\theta}log \ p_{\theta}(\tau_i)r(\tau_i) \tag{14}
而我們知道,對於普通的監督學習,如果我們採用極大似然估計學習策略,最終我們的梯度爲:
θJML(θ)=1Ni=1Nθlog pθ(τi)(15)\nabla_{\theta}J_{ML}(\theta)=\frac{1}{N}\sum_{i=1}^N \nabla_{\theta}log \ p_{\theta}(\tau_i) \tag{15}
觀察(14)(15)式,可以看到策略梯度算法在做和極大似然估計非常相似的事情。只是策略梯度算法多了一個獎勵函數的權重r(τi)r(\tau_i).

這也很容易理解,對於極大似然問題,我們認爲每一個樣本都是合理的,因此都需要最大化其出現概率。對於策略梯度算法,有的樣本是好的,有的樣本是壞的,是好是壞我們根據獎勵函數決定,當一個樣本對應的獎勵函數的值爲正時,那麼策略梯度算法便會增大其概率,爲負,則減少其概率。

當然,如果我們只有部分觀測信息,即不能得到狀態ss而只能得到觀測oo, 我們同樣可以使用(13)式得到基於觀測的梯度

θJ(θ)=1Ni=1N[(t=1Tθlog πθ(atot))(t=1Tr(oi,t,ai,t))](16)\nabla_{\theta}J(\theta)=\frac{1}{N}\sum_{i=1}^N\left[\left(\sum_{t=1}^T \nabla_{\theta}log \ \pi_{\theta}(a_t|o_t)\right) \left(\sum_{t=1}^Tr(o_{i,t}, a_{i,t}) \right) \right] \tag{16}

這是策略梯度法一個很好的性質,但是在我們以後介紹的基於Q函數之類的學習算法,這個性質往往是不成立的。

瞭解了策略梯度算法和極大似然估計實際在做類似的事情,只是其多了一個權重r(τi)r(\tau_i)來指導概率分佈的更新,這樣,我們便能夠分析其存在的問題了。

4、高方差問題

由於本質上我們計算(13)的過程是抽樣,而抽樣可能是不充分的,因此會導致結果不穩定,可以從此方面預感到高方差的問題。

下面從直觀來理解:

在這裏插入圖片描述
如上圖所示,藍色的實曲線是當前概率分佈pθ(τ)p_{\theta}(\tau), 若我們經過一次抽樣得到3個樣本,其獎勵函數值如綠色實線所示,那麼根據(14)式,由於最左放的綠色實線獎勵函數爲負,因此策略梯度算法會急劇地將概率分佈拉向右邊的兩個獎勵分佈爲正的樣本。 但是, 若我們對三個獎勵函數同時加一個常數得到黃色實線,同樣根據(14)式,算法卻不會那麼急劇的移動。而且更嚴重的,如果較好的樣本對應的獎勵函數剛好是0,則其對梯度的貢獻也是0,因此是不會產生優化效果的。

就這樣加一個常數,就能夠很大地改變梯度,影響分佈的優化,因此策略梯度算法優化是極不穩定的,也就是說它是高方差的。

再囉嗦一點,觀察(6)式,其實如果對獎勵函數加一個函數,我們將常數提出來,最後是不會影響梯度的。但是最後實踐卻產生了影響,這本質還是因爲採樣不充分。

二、方差削減

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章