百度飛槳 強化學習7日打卡營-世界冠軍帶你從零實踐 學習心得
大家好! 第一次跟大家一起了解強化學習,真的覺得 PARL強化學習 很強大。跟老師幾個例子走下來,基本概念瞭解的七七八八,算是入門了。
PARL
PARL 是一個高性能、靈活的強化學習框架。
特點
可復現性保證。我們提供了高質量的主流強化學習算法實現,嚴格地復現了論文對應的指標。
大規模並行支持。框架最高可支持上萬個CPU的同時併發計算,並且支持多GPU強化學習模型的訓練。
可複用性強。用戶無需自己重新實現算法,通過複用框架提供的算法可以輕鬆地把經典強化學習算法應用到具體的場景中。
良好擴展性。當用戶想調研新的算法時,可以通過繼承我們提供的基類可以快速實現自己的強化學習算法。
依賴
- Python 2.7 or 3.5+. (Windows系統目前僅支持python3.6+以上的環境)
- paddlepaddle>=1.6.1 (非必須的,如果你只用並行部分的接口不需要安裝paddle)
pip install parl
歷程
七天時間說短也不短,短時間內集中掌握某一方面知識,概念理論基本進門了,但是擴展應用還有很長的路要走,下面講下自己的歷程。
- 學習全程有老師扶着過河,需要提前預備什麼知識,都提前講好了,需要提前學習做準備。
- 遇到問題,基本上都在羣裏解決了 各位老師、助教和同學非常熱心有問必答。
- 我自己存在的問題,最近太忙了,有幾節課沒趕上,加上其他原因,注意力不集中,最近課後一直在補課,幾節課的視頻、聯繫一直在反覆看,希望創意賽能摸頭用好理論。
感悟
- 一是框架的學習。在瞭解了基本功能原理的基礎上,需要從整體上對源碼進行一個瞭解。
- 二是其他擴展學習。此次學習用到gym環境,剛剛接觸,許多有趣的環境,有待摸索,有時候急於求成,看文檔不認真,走了許多彎路。
- 三是創意賽。原本準備弄flappy bird,後來發現有人已經做了,特別漂亮,就轉陣地了,希望能夠又快又好的完成。
- 四是很感謝各位老師的辛苦付出。講課容易,講好不容易,同樣,組織好就更辛苦了。再此,特別感謝各位老師,要是不掌握好,都對不起付出了。
- 五是立一個flag。以後不論多忙,都要保質保量完成學習任務。