強化學習(1)

第一節:強化學習的基本概念

1. 背景介紹

強化學習(Reinforce Learning)又稱增強學習,再勵學習。是一個多學科交叉的概念。 它也是機器學習的一個重要分支,主要用來解決連續決策的問題強化學習可以在複雜的,不確定的環境中學習如何實現我們設定的目標。強化學習的應用場景非常廣,幾乎包括了所有需要做一系列決策的問題,比如控制機器人的電機讓它執行特定任務,給商品定價或者庫存管理、玩視頻遊戲或棋牌遊戲等。也可以應用到有序列的輸出的問題,因爲它可以針對一系列變化的環境狀態,輸出一系列對應得動作。強化學習不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的絕對正確的目標(Label),強化學習的目標一般是變化的,不明確的,甚至可能不存在絕對正確的標籤。
強化學習已經有幾十年的歷史,但是直到最近幾年深度學習技術的突破,強化學習纔有了比較大的進展。例如,Google DeepMind 將深度學習技術與強化學習結合,提出了DQN(Deep Q-Network, 深度Q網絡),該網絡可以自動玩Atari 2006系列的遊戲,並取得超越人類頂級玩家的水平。最著名的莫過於DeepMind的AlphaGo, 它結合了策略網絡(Policy Network)、估值網絡(Value Network)與蒙卡洛搜索樹(Monte Carlo Tree Search),實現了具有超高水平的圍棋對戰程序,幾乎戰勝了所有的人類高手。由此可見深度強化學習的威力。
在這裏插入圖片描述
Figure 1-1 Reinforcement Learning is a Multidisciplinary concept

2.強化學習可以解決哪些問題*

強化不僅能夠應用到非線性控制,下棋,機器人動作學習等方向,還可以應用到其他領域,如視頻遊戲,人機對話,無人駕駛,機器翻譯,文本序列預測等。用一句話來概括就是:強化學習能解決智能決策問題。更確切的說是序貫決策問題,即需要連續不斷地做出決策,才能實現最終目標的問題。如經典的二級擺問題,它需要在每個狀態下都有一個只能決策(應該施加給臺車什麼方向,多大的力),以便使得整個系統逐漸收斂到目標點,即兩個豎擺直的狀態。AlphaGo則需要根據當前棋局狀態做出該下哪個子的決策,以便贏得比賽。因此強化學習是用來解決序貫決策(連續決策問題)。

3.強化學習如何解決問題以及一些相關概念

強化學習不同於有監督學習和無監督學習,它不關心輸入長什麼樣子,只關心當前輸入下應該採用什麼樣的動作才能實現最終目標。當前採用什麼動作與最終目標有關。也就是說當前採用什麼動作,可以是的整個任務序列達到最優。如何使整個任務序列達到最優呢?這就需要智能體不斷地與環境交互,不斷嘗試,因爲智能體剛開始也不知道在當前狀態下哪個動作有利於實現目標。智能體通過執行動作與環境進行交互,環境會返回給智能體一個當前回報,智能體則根據當前的回報評估所採取的動作:有利於實現目標的動作被保留,不利於實現目標的動作被摒棄。
具體來說,強化學習是指智能體(Agent)以不斷試錯的方式進行學習,通過與環境交互獲得的獎勵來指導行爲,最終的目標是使得智能體能夠獲得最大獎勵。簡單來說就是智能體在與環境不斷交互的過程中,逐漸提高自己的決策能力的過程。
基本概念:強化學習中有5個主要的基本概念,智能體(Agent), 環境狀態(State), 回報(Reward), 策略(Policy)。
學習過程:首先(Env)環境會給智能體一個初始狀態(State),智能體在接收到此狀態後會作出一個動作(Action),該動作將會對環境產生一定的影響(好的影響或者不好的影響),環境會根據該動作的好壞給予一個獎勵(Reward),並更新自己的狀態。再將狀態反饋給智能體,以此類推,直到學習結束。

在這裏插入圖片描述
Figure 1-2 The learning process of reinforcement learning

4.強化學習算法分類

1)根據強化學習算法是否依賴模型可以分爲基於模型的強化學習算法和無模型的強化學習算法。基於模型的強化學習算法利用與環境交互得到的數據學習系統或者環境模型,再基於模型進行序貫決策。無模型的強化學習算法則是直接利用與環境交互獲得的數據改善自身的行爲。
2)根據策略的更新和學習方法,強化學習算法可以分爲基於值函數的強化學習算法、基於直接策略搜索的強化學習算法以及AC的方法。基於值函數的強化學習方法是指學習值函數,最終的策略根據值函數貪婪得到。基於直接測咯搜索的強化學習算法,一般是將策略參數化,學習實現目標的最優參數。基於AC的方法則是聯合使用值函數和直接策略搜索。
3)根據環境返回的回報函數是否已知強化學習算法可以分爲正向強化學習算法和逆向強化學習算法。回報函數指定的強化學習算法稱爲正向強化學習。但是很多時候回報無法人爲指定,如無人機的特效表演,這時可以通過機器學習的方法由函數自己學習出來回報。

先到這裏,後續會持續更新。。。。

參考資料:
百度百科
Tensorflow實戰 黃文堅
21個項目玩轉深度學習 何之源
強化學習核心概念
深入淺出強化學習原理入門
Online Courses of Reforcement Learning by David Silver

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章