Learning Policy Representations in Multiagent Systems

ICML18關於對手策略建模的文章：

主要順一下思路：

其中Ei是agent i與其餘n個agent對弈，sample出來條軌跡（obs和action對），然後將其中第一條軌跡進行上面一個f（x）映射函數的學習，學得一個映射，這個映射就是對對手的策略建模embedding，然後以這個embedding爲基礎，在第二條軌跡上進行模仿學習，即基於embedding的基礎上在第二條軌跡上的obs和action對進行模仿學習，即最大化P（action | obs，embedding），下面的for循環主要是希望這個policy embedding能夠儘可能區分自己的策略和其他人的策略。

以上就是學習策略表徵，

下面說一下其中一個對手建模的實驗：

實驗的說明，主要關注的是怎麼進行policy embedding的，因爲一條軌跡包含多個action obs對，這裏明確說明，是將整條軌跡所有的action obs都進過f然後加和去平均值。

該實驗主要包括15個agent，已經預訓練好的，其中5個用來train，5個用來test，5個用來val

然後重新訓練一個新的基於對手建模的模型，基於對手建模主要包含兩種主要形式，一種是onpolicy的對手建模，一種是off policy的對手建模

其中on policy的對手建模，每次使用該新模型前一次與對手博弈的軌跡，其中要注意的是這個f模型也是預訓練的，並不再進行訓練。

而off policy的對手建模。policy embedding是提前計算好的，不需要與新模型交互，只需要在5個train的對手中採樣，對策略建模。

可以看到上圖左側的模型（基於on policy的），紅色（全部結構）訓練的時候沒有什麼區別，但是在測試的時候表現要好很多。

右側的圖片，展示出了off policy表現要好，作者給出的解釋是，對手池中的模型可能和我們訓練的模型存在較大的差異，無法正確的匹配我們新模型對弈時對手的策略，也就是無法很好地表徵。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Learning Policy Representations in Multiagent Systems

Learning deep representations by mutual information estimation and maximization

由Adversarially Learned Inference引發

GAN裏面的一個小坑

A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

AphaStar設計技巧與方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結