原创 強化學習經典算法筆記(十):使用粒子羣算法訓練Policy智能體

強化學習經典算法筆記(十):使用粒子羣算法訓練Policy智能體 本文使用粒子羣算法訓練了一個小型Actor網絡,共226個參數,完美解決了CartPole遊戲。 粒子羣算法實現 羣體智能算法採用最簡單的粒子羣優化算法(PSO)。

原创 強化學習經典算法筆記(八):LSTM加持的A2C算法解決POMDP問題

強化學習經典算法筆記(八):LSTM加持的A2C算法解決POMDP問題 最近用到LSTM構建Agent,找到了一個非常簡明易讀的示例代碼。 https://github.com/HaiyinPiao/pytorch-a2clstm

原创 強化學習經典算法筆記(九):LSTM加持的PolicyGradient算法

強化學習經典算法筆記(九):LSTM加持的PolicyGradient算法 在上文《強化學習經典算法筆記(八):LSTM加持的A2C算法解決POMDP問題》的基礎上,實現了LSTM+MLP的Policy Gradient算法。 實

原创 AlphaGo Zero強化學習簡易教程(譯)

  本教程介紹了一個同步的單線程單GPU的game-agnostic的AlphaZero復現工作。這是一部很漂亮的作品,它訓練了一個僅通過自己和自己下棋的方式來學習的智能體,除了遊戲規則之外,智能體沒有利用任何的人類知識。與Dee

原创 讓你手裏的Ubuntu系統爽到飛起——記Ubuntu系統的Windows化(未完待續)

記錄這篇筆記的目的是讓Ubuntu系統的適用性逼近Windows系統,也是爲了以後裝Ubuntu系統的時候,能有個常用軟件的安裝指南。 之前不瞭解這些個解決方案的時候,我只能忍受切換系統、重新啓動之苦,現在逐漸摸索出了常用軟件如微

原创 一張圖讀懂AlphaGo Zero背後的強化學習算法原理

一張圖讀懂AlphaGo Zero背後的強化學習算法原理 https://pan.baidu.com/s/1AWyQNtHl4qIdplxZ0vFFbA

原创 Windows10安裝Gym[atari]和Gym[box2d]失敗的解決辦法

安裝gym[atari] pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py 安裝Gym[box2d] 首先到http

原创 利用Keras實現常用CNN結構——LeNet、AlexNet、ZFNet、VGGNet、GoogLeNet、ResNet(修正版)

在代碼最前面加上 from keras.models import Sequential from keras.layers import Input,Dense,Conv2D,MaxPooling2D,UpSampling2D,

原创 強化學習經典算法筆記(七):策略梯度算法Policy Gradient

目錄策略梯度Policy Gradient原理與公式推導代碼 策略梯度Policy Gradient 本文介紹策略梯度算法Policy Gradient在連續動作空間上的實例。 以OpenAI Gym上的LunarLanderCo

原创 構建深度神經網絡,我有20條「不成熟」的小建議

構建深度神經網絡,我有20條「不成熟」的小建議 轉載自 https://mp.weixin.qq.com/s/8DlnAKM94mgNoGd4opJD8A 在我們的機器學習實驗室中,我們已經在許多高性能的機器上進行了成千上萬個小時的訓

原创 精選26個Python實用技巧,想秀技能先Get這份技術列表!

轉載自 https://mp.weixin.qq.com/s/ttuB63_N5SQdOhIwLFGYgg 精選26個Python實用技巧,想秀技能先Get這份技術列表! 1. all 或 any 人們經常開玩笑說 Python 是“

原创 Windows10安裝Gym[atari]失敗的解決辦法

pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py

原创 強化學習經典算法筆記(六):深度Q值網絡 Deep Q Network

前期回顧 強化學習經典算法筆記(零):貝爾曼方程的推導 強化學習經典算法筆記(一):價值迭代算法Value Iteration 強化學習經典算法筆記(二):策略迭代算法Policy Iteration 強化學習經典算法筆記(三):蒙特

原创 強化學習資源——Hands-On Reinforcement Learning、Deep Reinforcement Learning Hands-On等

Hands-On Reinforcement Learning with Python PDF 鏈接:https://pan.baidu.com/s/1CzplQERRjwgi0b9pQTebFw 密碼:u3v5 代碼 鏈接:htt

原创 強化學習經典算法筆記(四):時間差分算法Temporal Difference(Q-Learning算法)

強化學習經典算法筆記——時間差分算法之 Q-Learning 強化學習經典算法筆記(零):貝爾曼方程的推導 強化學習經典算法筆記(一):價值迭代算法Value Iteration 強化學習經典算法筆記(二):策略迭代算法Policy