台部落赛艇队长

強化學習經典算法筆記(十)：使用粒子羣算法訓練Policy智能體本文使用粒子羣算法訓練了一個小型Actor網絡，共226個參數，完美解決了CartPole遊戲。粒子羣算法實現羣體智能算法採用最簡單的粒子羣優化算法（PSO）。

2020-06-16 13:11:10

強化學習經典算法筆記(八)：LSTM加持的A2C算法解決POMDP問題最近用到LSTM構建Agent，找到了一個非常簡明易讀的示例代碼。 https://github.com/HaiyinPiao/pytorch-a2clstm

2020-06-11 16:23:48

強化學習經典算法筆記(九)：LSTM加持的PolicyGradient算法在上文《強化學習經典算法筆記(八)：LSTM加持的A2C算法解決POMDP問題》的基礎上，實現了LSTM+MLP的Policy Gradient算法。實

2020-06-11 16:23:48

本教程介紹了一個同步的單線程單GPU的game-agnostic的AlphaZero復現工作。這是一部很漂亮的作品，它訓練了一個僅通過自己和自己下棋的方式來學習的智能體，除了遊戲規則之外，智能體沒有利用任何的人類知識。與Dee

2020-06-04 08:13:36

記錄這篇筆記的目的是讓Ubuntu系統的適用性逼近Windows系統，也是爲了以後裝Ubuntu系統的時候，能有個常用軟件的安裝指南。之前不瞭解這些個解決方案的時候，我只能忍受切換系統、重新啓動之苦，現在逐漸摸索出了常用軟件如微

2020-06-04 08:13:36

一張圖讀懂AlphaGo Zero背後的強化學習算法原理 https://pan.baidu.com/s/1AWyQNtHl4qIdplxZ0vFFbA

2020-06-04 08:13:36

安裝gym[atari] pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py 安裝Gym[box2d] 首先到http

2020-06-04 08:13:36

在代碼最前面加上 from keras.models import Sequential from keras.layers import Input,Dense,Conv2D,MaxPooling2D,UpSampling2D,

2020-06-04 08:13:36

目錄策略梯度Policy Gradient原理與公式推導代碼策略梯度Policy Gradient 本文介紹策略梯度算法Policy Gradient在連續動作空間上的實例。以OpenAI Gym上的LunarLanderCo

2020-06-04 08:13:26

構建深度神經網絡，我有20條「不成熟」的小建議轉載自 https://mp.weixin.qq.com/s/8DlnAKM94mgNoGd4opJD8A 在我們的機器學習實驗室中，我們已經在許多高性能的機器上進行了成千上萬個小時的訓

2019-04-25 04:23:51

轉載自 https://mp.weixin.qq.com/s/ttuB63_N5SQdOhIwLFGYgg 精選26個Python實用技巧，想秀技能先Get這份技術列表！ 1. all 或 any 人們經常開玩笑說 Python 是“

2019-04-25 04:23:51

pip install --no-index -f https://github.com/Kojoley/atari-py/releases atari_py

2019-04-19 22:34:33

前期回顧強化學習經典算法筆記(零)：貝爾曼方程的推導強化學習經典算法筆記(一)：價值迭代算法Value Iteration 強化學習經典算法筆記(二)：策略迭代算法Policy Iteration 強化學習經典算法筆記(三)：蒙特

2019-04-17 20:41:41

Hands-On Reinforcement Learning with Python PDF 鏈接：https://pan.baidu.com/s/1CzplQERRjwgi0b9pQTebFw 密碼：u3v5 代碼鏈接：htt

2019-04-13 21:03:11

強化學習經典算法筆記——時間差分算法之 Q-Learning 強化學習經典算法筆記(零)：貝爾曼方程的推導強化學習經典算法筆記(一)：價值迭代算法Value Iteration 強化學習經典算法筆記(二)：策略迭代算法Policy

2019-04-11 20:52:35