Learning Policy Representations in Multiagent Systems

ICML18關於對手策略建模的文章:

主要順一下思路:

其中Ei是agent i與其餘n個agent對弈,sample出來條軌跡(obs和action對),然後將其中第一條軌跡進行上面一個f(x)映射函數的學習,學得一個映射,這個映射就是對對手的策略建模embedding,然後以這個embedding爲基礎,在第二條軌跡上進行模仿學習,即基於embedding的基礎上在第二條軌跡上的obs和action對進行模仿學習,即最大化P(action | obs,embedding),下面的for循環主要是希望這個policy embedding能夠儘可能區分自己的策略和其他人的策略。

以上就是學習策略表徵,

下面說一下其中一個對手建模的實驗:

實驗的說明,主要關注的是怎麼進行policy embedding的,因爲一條軌跡包含多個action obs對,這裏明確說明,是將整條軌跡所有的action obs都進過f然後加和去平均值。

該實驗主要包括15個agent,已經預訓練好的,其中5個用來train,5個用來test,5個用來val

然後重新訓練一個新的基於對手建模的模型,基於對手建模主要包含兩種主要形式,一種是onpolicy的對手建模,一種是off policy的對手建模

其中on policy的對手建模,每次使用該新模型前一次與對手博弈的軌跡,其中要注意的是這個f模型也是預訓練的,並不再進行訓練。

 

而off policy的對手建模。policy embedding是提前計算好的,不需要與新模型交互,只需要在5個train的對手中採樣,對策略建模。

可以看到上圖左側的模型(基於on policy的),紅色(全部結構)訓練的時候沒有什麼區別,但是在測試的時候表現要好很多。

右側的圖片,展示出了off policy表現要好,作者給出的解釋是,對手池中的模型可能和我們訓練的模型存在較大的差異,無法正確的匹配我們新模型對弈時對手的策略,也就是無法很好地表徵。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章