Policy Evaluation之Sequencial DR論文講解

● 每週一言

如果覺得自己掙錢能力還不錯,很可能只是因爲年輕。

導語

在上一篇文章裏,小鬥給大家講解了ICML2011那篇關於DR的經典論文,那篇論文所述場景是“多臂老虎機”遊戲。在多臂老虎機遊戲過程中雖然要連續嘗試多次,但其相鄰兩次之間是滿足i.i.d.的,而增強學習很多場景並不滿足i.i.d.性質。所以,在ICML2016出現了Sequencial DR,滿足了這些場景的需求。

Sequencial DR

paper link: https://arxiv.org/pdf/1511.03722.pdf

論文講解前,先介紹一下多臂老虎機和i.i.d.。

我相信大部分人在電玩城都玩過這個多臂老虎機,它就是一個有多個拉桿的賭博機,不同拉桿的中獎概率不一樣。轉化成增強學習問題就是:重複選擇k個不同動作中的一個,每次動作都會從一個固定概率分佈中,得到相應的獎勵回報。目標則是在有限時間內最大化期望獎勵(因爲遊戲不可能一直玩下去)。

上圖就是一個三臂老虎機,k = 3。自然而然我們能想到,這三個老虎機都有自己固定的中獎概率,且同一個老虎機前後操作兩次是獨立事件,互不影響。然而,在很多其他場景下,前後發生的動作之間是有關聯的,比如自動駕駛、下棋、打牌等。

i.i.d.(independent and identically distributed,獨立同分布),在概率統計理論中,指隨機過程中的任何時刻取值都爲隨機變量,如果這些隨機變量服從同一個分佈,並且互相獨立,那麼這些隨機變量就是獨立同分布的。

上面的Related Work部分,交代了這篇論文和上一篇所講論文的區別與聯繫。這裏說個話外音,“多臂老虎機”在英文裏面叫“Contextual bandit”,這個命名着實有點意思(直譯“上下文強盜”?)。由於在很多增強學習應用場景中,樣本序列並不滿足i.i.d.,所以這篇論文講的就是如何把DR運用到序列評估當中。

序列決策是一個馬爾科夫決策過程(Markov Decision Processes,MDP)。一個MDP是一個五元組,其中:S代表狀態空間,A代表動作空間,P代表概率轉移函數,R代表期望獎勵函數,γ代表折扣因子。如論文描述,如下:

一個滿足MDP的樣本序列(軌跡)就是上文的 г,假設序列長度爲H步,在一個狀態下采取動作然後得到相應的回報,如此循環產生直到結束狀態或停止動作。

有了樣本序列,我們就可以用DR來評估策略了。同樣是使用重要性權重,有別於上一篇論文的IPS,論文描述 IS(Importance Sampling) 的評估方式如下。其中 step-wise版本的IS,是在每次遍歷序列的時候,遍歷到哪一步就計算到哪,然後分別乘以相應的重要性權重,這比原始版本的IS計算更準確。

仔細思考公式會發現,上述IS公式其實就是IPS在序列計算中的變種。IS的分母 π0 相當於IPS的分母p,都是產生樣本的來源;IS的分子是新策略執行動作的概率,IPS的分子 I 也是一樣。這兩個分式作爲重要性權重,都與當前得到的獎勵r相乘。只是序列決策考慮了衰減,額外乘了一個折扣因子γ。關於IS和IPS的關係,如果不理解或者有其它問題,歡迎留言討論。

論文還給我們介紹了一種帶權重的IS公式,雖然沒有用在後面的SDR,但是參與了論文後面實驗部分評估效果的對比。

有了這個基礎的序列公式,論文爲了簡化實際計算,去掉了累加符號和連乘符號,把 step-IS公式改寫成了遞推形式,如下:

這樣就得到了序列決策最終版IS公式。從上一篇文章我們知道,DR由DM和IPS/IS結合而成。SDR當然也是如此,加入DM部分,SDR公式如下所示,其中:Q是狀態動作獎勵的估計函數,可以使用有監督的方法來訓練;等式右邊帶尖號的V,就是DM的計算值。SDR從形式上看,和DR含義一致。

同樣的,SDR滿足DR的性質,也是Doubly Robust(雙重魯棒)的。

論文中還用了幾節專門講方差(Variance)和置信區間(Confidence Intervals),由於篇幅關係,小鬥就不在此繼續講解。對推導感興趣的讀者,可以點開原文鏈接進一步閱讀。

限於理解能力有限,本文有講解謬誤之處還請留言交流指出。以上便是對Sequencial Doubly Robust論文的講解,敬請期待下節內容。

結語

感謝各位的耐心閱讀,後續文章於每週日奉上,敬請期待。歡迎大家關注小鬥公衆號 對半獨白

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章