DeepMind最新論文:探索智能體對齊,使AI用符合用戶意圖的方式解決問題

編譯:chux

出品:ATYUN訂閱號

DeepMind發佈了新論文,概述瞭解決智能體對齊問題的研究方向。我們的方法依賴於獎勵建模的遞歸應用,以符合用戶意圖的方式解決複雜的現實問題。

近年來,強化學習在複雜的遊戲環境中取得了令人矚目的成績,從Atari,Go和國際象棋到Dota 2和星際爭霸II,AI智能體在日益複雜的領域迅速超越了人類水平。遊戲是開發和測試機器學習算法的理想平臺。他們提出了具有挑戰性的任務,需要一系列的認知能力來完成,反映出解決現實世界中問題所需的技能。機器學習研究人員可以在雲上並行運行數千個模擬實驗,生成系統學習所需的訓練數據。

至關重要的是,遊戲通常具有明確的目標,並且得分近似於實現該目標的進展。該分數爲強化學習智能體提供了有用的獎勵信號,並使我們能夠快速反饋哪些算法和架構選擇最有效。

智能體對齊問題

最終,AI的目標是讓我們能夠應對現實世界中日益複雜的挑戰,使人類受益。但現實世界並沒有內置的獎勵機制。這帶來了一些挑戰,因爲這些任務的性能不易定義。我們需要一種很好的方式來提供反饋並使人工智能體能夠可靠地理解我們想要的東西,以幫助我們實現它。換句話說,我們希望以人類反饋的方式訓練AI系統,使系統的行爲與我們的意圖保持一致。出於我們的目的,我們定義智能體對齊問題如下:

我們如何創建符合用戶意圖的智能體?

對齊問題可以在強化學習框架中構建,除了代替接收數字獎勵信號,智能體可以通過允許用戶將其意圖傳達給智能體的交互協議與用戶交互。該協議可以採用多種形式:例如,用戶可以提供演示,偏好,最佳動作或傳達獎勵功能。智能體對齊問題的解決方案之一是根據用戶的意圖行事的策略。

通過新論文,正面解決智能體對齊問題的研究方向。基於對AI安全問題分類的研究,以及對AI安全問題的論述,我們描繪的是如何在這些領域的進展可能會產生一個解決智能體對齊問題的方法。這爲構建系統打開了大門,系統可以更好地瞭解如何與用戶交互,從他們的反饋中學習並預測他們的偏好。

通過獎勵建模進行對齊

我們研究方向的主旨是基於獎勵建模:我們訓練獎勵模型,其中包含來自用戶的反饋,以捕捉他們的意圖。與此同時,訓練一項強化學習策略,以最大限度地提高獎勵模式的獎勵。換句話說,我們把學習做什麼(獎勵模式)和學習怎麼做(策略)分開。

獎勵建模的示意圖:根據用戶的反饋訓練獎勵模型捕捉意圖;這種獎勵模式爲受過強化學習訓練的智能體提供獎勵。

例如,在以前的工作中,我們教智能體執行從用戶偏好的後空翻,到對象安排與目標狀態的例子的形狀,以從用戶的喜好和專家演示玩Atari遊戲。在未來,我們希望設計能夠適應用戶提供反饋方式的算法(例如使用自然語言)。

擴大

從長遠來看,我們希望將獎勵建模擴展到太複雜以致人類無法直接評估的領域。爲此,我們需要提高用戶評估結果的能力。我們討論如何遞歸應用獎勵建模:我們可以使用獎勵建模來訓練智能體,以幫助用戶進行評估過程本身。如果評估比行爲更容易,這可以讓我們從簡單的任務引導到越來越普遍和更復雜的任務。這可以被認爲是迭代擴大(iterated amplification)的實例。

遞歸獎勵建模的示意圖:使用遞歸獎勵建模訓練的代理(右側較小的圓圈)幫助用戶評估當前正在訓練的智能體(大圓)產生的結果的過程。

例如,假設我們想訓練智能體來設計計算機芯片。爲了評估提議的芯片設計,我們使用獎勵建模訓練其他“輔助”智能體,以評估芯片在仿真中的性能,計算散熱,估計芯片的壽命,嘗試查找安全漏洞等等。

總的來說,這些輔助代理的輸出使用戶能夠通過協助評估所提出的芯片設計來訓練芯片設計者智能體。雖然每個輔助代理都必須解決當今ML系統無法實現的非常困難的任務,但這些任務比設計芯片更容易執行:因爲設計一個計算機芯片,你必須要了解每個評估任務,反之則不然。在這個意義上,遞歸獎勵建模可以讓我們“支持”我們的代理人來解決越來越難的任務,同時保持與用戶意圖保持一致。

研究挑戰

爲了將獎勵建模擴展到如此複雜的問題,需要解決幾個挑戰。下面列出了其中五項挑戰,並在文中進行了更深入的描述,以及解決這些挑戰的方法。

我們期望在擴大獎勵建模時遇到的挑戰(左)和有前景的解決方法(右)。

這將我們帶到了智能體對齊的最後一個重要組成部分:在現實世界中部署智能體時,我們需要向用戶提供證據,證明我們的代理確實已經充分對齊。本文討論了五種不同的研究途徑,可以幫助增加對智能體的信任:設計選擇,測試,可解釋性,形式驗證和理論保證。一個雄心勃勃的目標是製作安全證書:可用於證明負責任的技術開發的工件,並使用戶有信心依靠受過訓練的智能體。

展望

雖然我們認爲遞歸獎勵建模是訓練協調智能體的一個非常有前景的方向,但我們目前還不知道它的擴展程度如何。幸運的是,還有一些其他研究方向可以並行追求智能體對齊:

  • 模仿學習
  • 短視強化學習
  • 逆強化學習
  • 合作逆強化學習
  • 迭代擴大
  • 辯論
  • 智能體基金會

本文進一步探討了它們的相似與不同。

正如對主動輸入的計算機視覺系統的魯棒性進行主動研究對於當今的ML應用而言至關重要,因此對齊研究對於在複雜的現實領域中部署ML系統也是關鍵。我們有理由保持樂觀:雖然我們希望在擴大獎勵建模時面臨挑戰,但這些挑戰是我們可以取得進展的具體技術研究問題。從這個意義上講,我們的研究方向已經準備就緒,可以對深層強化學習智能體進行實證研究。

論文:arxiv.org/abs/1811.07871

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章