台部落这梦想不休不止

這篇文章和hdqn，我個人感覺差別還是很明顯的。最明顯的是我沒有感受到時間維度的差異，也就是什麼提供goal的時間維度小，施行者時間維度大，這一個特點。我花了三天吧（前兩天感覺沒有集中精神），把文章代碼都讀了幾遍。除了文章中的dil

2018-11-28 13:57:59

TD3算法，這個論文的名字一眼就看出，這個的目的是爲了解決函數模擬的誤差。按照spinningup的說法，這個算法是基於DDPG的，做了三個方面的改進：第一點：Clipped Double Q-learning 第二點：Delaye

2018-11-22 10:24:19

看了半天這篇文章給的源碼，大概思路能理解，但是要完全讀明白OpenAI的代碼，感覺有點難，沒什麼註釋，還缺少文件。這篇文章讀下來是基於18年Deepmind提出的一種不確定性度量法。隨後OpenAI，就是用這個這個思想在這個內部獎勵/

2018-11-20 11:22:30

18年的SAC算法，這篇論文讀了一遍，在看openai的spinup的時候，回來再讀一遍，結合兩者，提出一些要點。首先要指出現在存在的問題： 1：現在多數model free的算法需要的樣本sample的複雜度過高。 2：然後就是需要大

2018-11-20 11:22:19

最近讀論文一直沒怎麼寫博客，以前讀論文注重結論，現在轉向了過程。這篇論文，是看了一篇18年openai的論文裏面的reference。17年的，比較新。這篇論文主要涉及了一個內在R，用於在sparse state下更好的去和環境交互。

2018-11-14 11:13:11

似然函數鏈接：https://www.cnblogs.com/zhsuiy/p/4822020.html 解釋的很好。今天又看到了VAE，於是對裏面的一個方法reparemerization以及變分又進行了查詢。 https://www

2018-11-12 22:17:30

前幾天看了一篇論文，提到了變分，隨後進行了一波大的補習課。全是關於難以積分問題的解決方法。一種是Sampling 隨機性的解決方法。一種是變分確定性的解決方法。同時多一嘴EM算法（用來解決含有隱變量的參數估計的方

2018-11-12 22:17:30

之前看了好幾遍，總是忘，這次記下地址： https://blog.csdn.net/zengxiantao1994/article/details/72787849

2018-11-12 22:17:30

轉載：http://www.cnblogs.com/pinard/p/6645766.html

2018-11-07 22:30:14

總結轉發也可以直接去看李弘毅的RL課程，這個總結就是來自他的課程。

2018-11-03 22:19:39

之前再看pr DQN的時候，還有pg的時候都會說到重要性採樣，儘管目前我對其應用還有一些疑惑。但是今天看了一篇博客，大概算是看懂了。轉自https://blog.csdn.net/wangpeng138375/article/detai

2018-11-03 22:19:39

2017Nips的文章，看了一篇18的一篇相關方向的，但是沒太明白，第一次看communicate的文章（multi-agent RL with communication），理解的也不太透徹。大概簡要介紹一下：在MA的環境中，age

2018-10-27 11:18:36

這篇是19年AAAI的文章。和我上一篇寫的文章思想上很相似。主要還是解決大規模agent的合作或者競爭問題。這篇文章的靈感來源於被廣泛用於推薦系統的(Rendle 2012; Rendle and Schmidt-Thieme 201

2018-10-20 10:52:04

這是18 ICML的文章，文中的證明推理很多，主要借鑑一下思想。文章首先闡述了以前的一些找Nash平衡等方法對於大規模agent合作或者對抗的計算量要求很大。因此提出了這個算法。首先介紹了Stochastic Game的環境：第一

2018-10-20 10:52:04

17年nips beach的文章，這個文章是通過爲對手建模，然後更好的切換自己的對戰策略的一個方法。這篇文章，主要是對裏面不確定度有了很好的應用，才能正確的在不同的策略之間比較正確的切換。主要是對兩種方式進行了實驗：首先我們針對第

2018-10-20 10:52:04