原创 Learning deep representations by mutual information estimation and maximization

ICLR18的文章,reference100多,算貢獻比較大的文章了。 首先介紹一下本文的預備知識點: 本文主要是涉及了一種數據表徵方法,無監督的提取出圖片中的高維表徵。不進行具體任務的訓練。 比如我們進行訓練之後,固定好訓練完的網絡,進

原创 由Adversarially Learned Inference引發

首先ALI和BiGAN上本質上是一樣的,但是有一點區別,那就是ALI的encoder輸出是mu和sigma,然後隨機採樣出來編碼,而BiGAN則直接輸出一個確定的結果,沒有sample這一步。 看到這篇文章我又去補習了一下VAEGAN,B

原创 GAN裏面的一個小坑

  -log sigmoid(f(x)) = log (1 + exp(-f(x)))                    = softplus(-f(x))  -log(1-sigmoid(f(x))) = log (1 + exp

原创 A Deep Bayesian Policy Reuse Approach Against Non-Stationary Agents

NIPS18的一篇文章,來分析一下。 首先這篇文章主要的思路:   我先介紹一下這個算法的實驗環境,實驗環境先行:   一共包括上面三個實驗環境,第一個是兩個agent合作分別達到自己的綠色區域G,當兩個agent發生碰撞就會被懲罰,其

原创 AphaStar設計技巧與方法

這篇文章主要是總結一下它實現上應用的好的技術,也許有的可以用到最近做的項目上。paper上面的實驗一般都很toy,這篇文章對工程提升要更加顯著。 首先說一點的是,這篇文章成功的一個重要原因是專家數據的利用。因此專家數據是不可或缺的,但很多

原创 Learning Policy Representations in Multiagent Systems

ICML18關於對手策略建模的文章: 主要順一下思路: 其中Ei是agent i與其餘n個agent對弈,sample出來條軌跡(obs和action對),然後將其中第一條軌跡進行上面一個f(x)映射函數的學習,學得一個映射,這個映射就

原创 Modeling Others using Oneself in Multi-Agent Reinforcement Learning

ICML-18的文章,前幾天我自己想的方法,就是對敵方和己方分別應用一個goal目標,只是我一直在考慮怎麼從state中抽離出兩個goal,而這篇文章思路的確很新奇,但是也有很明顯的侷限性。 老習慣,先上環境: 文章一共給了三個環境,第

原创 Counterfactual multi-agent policy gradients.

這個是實驗室做項目的時候用到的一個算法,我沒仔細看原文,主要看了一下github上的code 一般智能體協作存在的問題: 1:joint action隨着智能體增加指數級增大 2:由於部分可觀測性,每個agent只能觀測到自己的信息,沒有

原创 Temporal Difference Variational Auto-Encoder

Deepmind  投的ICLR2019的文章。之前沒有認真推導過公式,所以看起來比較費勁。用了幾天,看了看兩套代碼,推了推公式,快過年了,每天放在上面的時間也不多,用了四天才弄了個半懂,下面我展開講一下,希望我之後看我的自己的筆記可以看

原创 faster RCNN

首先是整個網絡的結構: 轉發自:裏面比較重要的兩個東西,一個是RPN,一個是ROI Pooling。下面鏈接都講了一下。 https://blog.csdn.net/gbyy42299/article/details/80352418

原创 Long Text Generation via Adversarial Training with Leaked Information

這篇文章是我看完RankGAN之後看的。這篇文章思想上是一個感覺還是有一定的前沿性。很新穎,至少之前沒人這麼想過。也把HRL和GAN結合在了一起。很Nice,這兩天狀態不好,看代碼又花去了兩天時間。 首先先說一下我看完代碼之後的感覺吧:

原创 A Reinforcement Learning Framework for Natural Question Generationusing Bi-discriminators

果然,我在看完這篇論文表示一臉懵逼,這論文幹啥了?啥也沒幹啊。這不會是A會的吧,一查,果然不是A會的。 單純的小結構的創新,加幾層網絡,刪去幾層感覺作用也不大。 主要思想用的是上一篇寫的seqGan,不過用到了兩個D,一個D關注一部分東西

原创 SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

這篇文章是在GAN的基礎上加入了pg策略,從而可以進行文本等離散數據的生成與處理。 看一遍文章倒是不需要多少時間,但是看代碼花費了大量時間。感覺有代碼的還是收穫要多一些。 GAN之所以無法對離散數據進行很好的生成,是因爲:離散輸出使得從d

原创 對LSTM的思考

本來我覺得LSTM,知道里面幾個門就可以了,還有怎麼用tf直接寫,知道今天我看到了一個lstm的手搓代碼。看了一遍,不知道這個人在寫啥,我才決定重新看一下lstm。 首先說下RNN,RNN說白了就是一個循環的NN嵌套,所以他才存在梯度消失

原创 A Deep Hierarchical Approach to Lifelong Learning in Minecraft

把之前讀的一篇HRL的文章也補上。 這個文章的代碼,我看了兩天,表示看的不大明白,只能找到一個lua腳本寫出來的版本,感覺讀起來很吃力 網絡模型: 先介紹一下文章的總體思想: 主要由兩部分組成,一個控制器,一個以往獲得的經驗。 這裏提到