原创 FeUdal Networks for Hierarchical Reinforcement Learning

這篇文章和hdqn,我個人感覺差別還是很明顯的。 最明顯的是我沒有感受到時間維度的差異,也就是什麼提供goal的時間維度小,施行者時間維度大,這一個特點。 我花了三天吧(前兩天感覺沒有集中精神),把文章代碼都讀了幾遍。 除了文章中的dil

原创 Addressing Function Approximation Error in Actor-Critic Methods

TD3算法,這個論文的名字一眼就看出,這個的目的是爲了解決函數模擬的誤差。 按照spinningup的說法,這個算法是基於DDPG的,做了三個方面的改進: 第一點:Clipped Double Q-learning  第二點:Delaye

原创 exploration by random network distillation

看了半天這篇文章給的源碼,大概思路能理解,但是要完全讀明白OpenAI的代碼,感覺有點難,沒什麼註釋,還缺少文件。 這篇文章讀下來是基於18年Deepmind提出的一種不確定性度量法。 隨後OpenAI,就是用這個這個思想在這個內部獎勵/

原创 Soft Actor-Critic:Off-Policy Maximum Entropy Deep ReinforcementLearning with a Stochastic Actor

18年的SAC算法,這篇論文讀了一遍,在看openai的spinup的時候,回來再讀一遍,結合兩者,提出一些要點。 首先要指出現在存在的問題: 1:現在多數model free的算法需要的樣本sample的複雜度過高。 2:然後就是需要大

原创 Surprise-based intrinsic motivation for deep reinforcement learning

最近讀論文一直沒怎麼寫博客,以前讀論文注重結論,現在轉向了過程。 這篇論文,是看了一篇18年openai的論文裏面的reference。17年的,比較新。 這篇論文主要涉及了一個內在R,用於在sparse state下更好的去和環境交互。

原创 似然函數和reparemerization

似然函數鏈接:https://www.cnblogs.com/zhsuiy/p/4822020.html 解釋的很好。 今天又看到了VAE,於是對裏面的一個方法reparemerization以及變分又進行了查詢。 https://www

原创 難以積分的函數的估計方法

前幾天看了一篇論文,提到了變分,隨後進行了一波大的補習課。 全是關於難以積分問題的解決方法。 一種是Sampling 隨機性的解決方法。 一種是變分         確定性的解決方法。 同時多一嘴EM算法(用來解決含有隱變量的參數估計的方

原创 極大似然

之前看了好幾遍,總是忘,這次記下地址: https://blog.csdn.net/zengxiantao1994/article/details/72787849

原创 MCMC

轉載:http://www.cnblogs.com/pinard/p/6645766.html

原创 強化學習基本算法總結

總結轉發 也可以直接去看李弘毅的RL課程,這個總結就是來自他的課程。

原创 重要性採樣

之前再看pr DQN的時候,還有pg的時候都會說到重要性採樣,儘管目前我對其應用還有一些疑惑。 但是今天看了一篇博客,大概算是看懂了。轉自https://blog.csdn.net/wangpeng138375/article/detai

原创 Learning to Communicate with Deep Multi-Agent Reinforcement Learning

2017Nips的文章,看了一篇18的一篇相關方向的,但是沒太明白,第一次看communicate的文章(multi-agent RL with communication),理解的也不太透徹。 大概簡要介紹一下: 在MA的環境中,age

原创 Factorized Q-Learning for Large-Scale Multi-Agent Systems

這篇是19年AAAI的文章。 和我上一篇寫的文章思想上很相似。主要還是解決大規模agent的合作或者競爭問題。 這篇文章的靈感來源於被廣泛用於推薦系統的(Rendle 2012; Rendle and Schmidt-Thieme 201

原创 Mean Field Multi-Agent Reinforcement Learning

這是18 ICML的文章,文中的證明推理很多,主要借鑑一下思想。 文章首先闡述了以前的一些找Nash平衡等方法對於大規模agent合作或者對抗的計算量要求很大。因此提出了這個算法。 首先介紹了Stochastic Game的環境: 第一

原创 Learning Against Non-Stationary Agents withOpponent Modelling & Deep Reinforcement Learning

17年nips beach的文章,這個文章是通過爲對手建模,然後更好的切換自己的對戰策略的一個方法。 這篇文章,主要是對裏面不確定度有了很好的應用,才能正確的在不同的策略之間比較正確的切換。 主要是對兩種方式進行了實驗: 首先我們針對第