A Deep Hierarchical Approach to Lifelong Learning in Minecraft

把之前讀的一篇HRL的文章也補上。

這個文章的代碼,我看了兩天,表示看的不大明白,只能找到一個lua腳本寫出來的版本,感覺讀起來很吃力

網絡模型:

先介紹一下文章的總體思想:

主要由兩部分組成,一個控制器,一個以往獲得的經驗。

這裏提到了一個蒸餾法,也就是有一個T net 有一個 S net , S net可以不斷地學習T net,不斷擬合。

控制器主要是決定採用一個單獨的步驟,還是採用策略。然後就和hdqn一樣了。不過這個算法出現的比較晚,所以他用的double-dqn。以上。代碼有興趣的可以看一下,lua寫的,好多地方沒註釋,看着很費力。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章