A Deep Hierarchical Approach to Lifelong Learning in Minecraft

把之前讀的一篇HRL的文章也補上。

這個文章的代碼，我看了兩天，表示看的不大明白，只能找到一個lua腳本寫出來的版本，感覺讀起來很吃力

網絡模型：

先介紹一下文章的總體思想：

主要由兩部分組成，一個控制器，一個以往獲得的經驗。

這裏提到了一個蒸餾法，也就是有一個T net 有一個 S net ， S net可以不斷地學習T net，不斷擬合。

控制器主要是決定採用一個單獨的步驟，還是採用策略。然後就和hdqn一樣了。不過這個算法出現的比較晚，所以他用的double-dqn。以上。代碼有興趣的可以看一下，lua寫的，好多地方沒註釋，看着很費力。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.