DeepMind推出Agent57,在所有雅達利遊戲上超越人類

谷歌旗下DeepMind的研究人員開發了一款名爲Agent57的強化學習(RL)系統,該系統在街機學習環境下的全部57款雅達利2600遊戲中得分都超過了人類。Agent57是第一個在這種最難的遊戲上全面超越人類的系統。

研究人員在arXiv上發表的一篇論文中介紹了這個系統以及一系列的實驗。Agent57基於的是DeepMind之前關於永不放棄(NGU)算法強化學習的工作成果。其底層架構由一個神經網絡組成,該網絡編碼一組策略,範圍從探索到利用,使用自適應機制在整個培訓過程中對不同的策略進行優先級排序。另外的改進是,通過增加訓練的穩定性來解決長期的可信度賦值問題。通過這些改進,Agent57在所有遊戲中的得分中值都高於NGU。此外,在之前的人工智能系統根本不能玩的遊戲中,Agent57的得分表現也優於人類。

儘管DeepMind的大部分研究都集中玩遊戲的AI上,包括像AlphaGo研究的經典棋盤遊戲,據該團隊他們的說法,其目標是“使用遊戲作爲系統開發的墊腳石,讓AI應對更廣泛的挑戰。”研究人員認爲雅達利2600系列遊戲是用於評定RL表現的一個很好的基準,因爲每款遊戲都足以代表一個實際的挑戰,而整個系列包含非常多品種,提供足夠的多樣化。儘管經過多年的研究,深度Q-Networks (Deep Q-Networks,首個在多款遊戲中實現人類水平表現的系統)也進行了多項改進,“所有深度強化學習代理始終未能在四款遊戲中得分:蒙特祖瑪的復仇(Montezuma’s Revenge)、陷阱(Pitfall)、飛向太空(Solaris)和滑雪(Skiing)。”若要玩好這些遊戲,需要系統解決RL中的兩個難題:探索-利用問題和長期信度分配問題。

探索-利用權衡是行爲人在選擇已經學習的策略和探索新的策略之間所必須達到的平衡。像《陷阱》和《蒙提祖瑪的復仇》這樣的遊戲要求玩家在獲得任何獎勵之前先探索遊戲“世界”。Agent57的前身NGU使用了一種通過檢測新的遊戲狀態而產生內在獎勵的方式。於是,它學習了一套探索和利用政策。Agent57使用一個多臂bandits 元控制器改進了這一點,該控制器在訓練期間調整了探索-利用平衡。

當代理採取的行動有延遲的報酬時,就會出現長期信度分配問題。例如,在滑雪遊戲中,直到遊戲結束纔會給出分數,因此係統無法輕鬆學習遊戲開始後不久所採取的動作的效果。Agent57對NGU的改進是將agent的神經網絡分爲兩部分:一部分學習預測行爲的內在獎勵,另一部分學習預測行爲的外在獎勵。研究人員發現,這“顯著”提高了訓練的穩定性。

DeepMind團隊將Agent57的性能與其他幾個系統進行了比較,包括NGU、循環回放分佈式DQN (R2D2)和MuZero。儘管MuZero在整個套件中擁有最高的平均值和中位數得分,但有一些遊戲它“根本”就不會玩,得到的分數並不比隨機策略好多少。Agent57在最難的20%的遊戲中獲得了最好的分數,並且是唯一在所有遊戲中都超過人類表現的系統。

駭客新聞關於Agent57的討論中,一名用戶指出:

整個進化過程看起來越來越像20世紀80年代的專家系統,人們不斷地添加越來越多的複雜性來“解決”一個特定的問題。對於強化學習,開始的時候,是簡單而優雅的DQN,而現在新的算法看起來像一個巨大的修修補補的大雜燴。事實上,NGU極度複雜,看起來像是打滿各種補丁的臨時組合。現在在NGU的頂部,我們還加入了元控制器,甚至是bandits ,最終成就了一款幾乎無所不包的工具。

DeepMind成立於2010年,2014年被谷歌收購。DeepMind開發的AlphaGo在2016年擊敗了最優秀的人類圍棋選手之一。

原文鏈接:

DeepMind’s Agent57 Outperforms Humans on All Atari 2600 Games

譯者簡介:

冬雨,小小技術宅一枚,關注編程、軟件工程、敏捷、DevOps、雲計算等領域,非常樂意將國外新鮮的IT資訊和深度技術文章翻譯分享給大家。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章