Hierarchical Macro Strategy Model for MOBA Game AI 筆記

前言

作者認爲遊戲ai的下一個挑戰在於實時策略遊戲(RTS)。RTS比圍棋困難的方面有:1)計算複雜度。動作空間與狀態空間比較大。2)多智能體。他們的協作很關鍵。3)不完美信息。戰爭迷霧增加了遊戲的不確定性。4)稀疏與延時獎賞。遊戲長度太長了。OpenAI Five直接在micro 級別動作空間上使用PPO結合團隊獎賞進行學習,缺乏宏觀策略。相關工作宏觀策略主要是導航——提供目的地以及路由。使用influence map,通過handcrafted等式量化單位,多個地圖進行融合輸出單值導航agent。導航最重要的目標是提供目的地。planning也用於宏觀策略操作,比如AHTN,搜索層次化任務,但是效率不行。
之前的文獻沒能提供徹底的解決方案:

  1. 通過微觀動作空間隱式地學習宏觀策略或許太難了。僅僅通過微觀動作以及獎賞讓模型搞清楚高層策略或許過於樂觀,作者考慮明確地建模宏觀策略。
  2. 明確宏觀策略的太依賴handcrafted等式,太多數值參數需要人爲決定是這變得不實際。planning方法效率低下。
  3. 宏觀策略中最具挑戰性的問題之一是agent之間的協作,但是之前的方法沒有顯式的考慮。OpenAI Five通過team reward,但是做決策時不管別
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章