原创 強化學習的位置

強化學習一般指深度強化學習; 與監督學習、非監督學習並行但在實際學習過程中(episode)又與前者機理一致,所以強化學習也可以看做動態的機器學習; 從AI系統的角度,常見的深度學習算法CV、NLP等可以看做是基礎功能實現,類比於眼睛、耳

原创 簡單有效的注意力機制

目錄 本能 想解決什麼問題? global/local Attention additive Attention self Attention Multi-Head Attention 應用案例 本能 在認知神經學中,注意力是一種人類不可

原创 邏輯迴歸:線性二分類和非線性激活

目錄   背景介紹 邏輯迴歸 邏輯迴歸屬於線性分類器? 神經網絡 交叉熵與KL散度 激活函數 自然邏輯 背景介紹 比如,當已知y的區間爲[0, 1] 時,線性迴歸就保證不了預測值屬於這個區間。 Selva Prabhakaran blog

原创 深度強化學習算法的四個問題

要想駕馭一個機器學習算法,我認爲需要思考其四個方面:應用場景、目標變量、損失函數及學習過程。 深度強化學習也不例外: 應用場景 上圖是強化學習的交互示意圖,Agent給出動作(Action),環境更新狀態並返回獎賞(Reward)。

原创 GA3C:基於GPU的異步並行強化學習算法

目錄   背景介紹 模型架構及學習過程 注意點 背景介紹 GPU-based Asynchronous Advantage Actor-Critic是A3C的GPU實現。 A3C的每一個Worker都需要採樣、訓練,需要充足的CPU資源。

原创 深究強化學習在谷歌芯片佈局上的應用

谷歌論文:Chip Placement with Deep Reinforcement Learning。 目錄 電路板製作流程 芯片製作流程 芯片佈局 佈局宏(macros) 模型結構 Graph Embedding 預訓練Policy

原创 強化學習 優勢函數(Advantage Function)

目錄 什麼是優勢函數 歸一化、激活函數等學習問題  爲什麼要使用優勢函數 常見的優勢函數 什麼是優勢函數 優勢函數表達在狀態s下,某動作a相對於平均而言的優勢。 從數量關係來看,就是隨機變量相對均值的偏差。 使用優勢函數是深度強化學習極其

原创 並行強化學習算法:A2C/A3C

目錄 背景介紹 A3C模型 A3C損失函數 A3C學習過程 A2C 總結 背景介紹 在DQN中,爲了保證數據的有效性,採用了 Experience Replay Memory機制: 但是這種機制,存在幾個問題:1,會佔據大塊的內存;2,

原创 Distributed Prioritized Experience Replay:分佈式優先經驗回放

Distributed Prioritized Experience Replay:分佈式優先經驗回放。 APE-X架構 學習Learner和執行Actor分離,都可以是分佈式的。 很多Actor進行採樣收集數據,同時由當前Actor的網

原创 SEED RL:大規模分佈式強化學習框架

SEED RL:Scalable, Efficient Deep-RL,每秒處理數百萬張圖片的分佈式強化學習框架。 目錄 基本架構 學習過程 總結  基本架構 Actor由大量CPUs組成,只進行環境交互,不再進行推理採樣。 Learne

原创 Prioritized Experience Replay:優先經驗回放

基於Experience Replay優化抽樣方法的經驗回放機制。 目錄 Experience Replay prioritization  rank-based proportional importance sampling DDQN

原创 精講DQN-深度強化學習開山之作

目錄 應用場景 網絡搭建 損失函數 學習過程 應用場景    Deep Q-Networks: Q-learning的Deep neural networks實現,通過深度學習的方法解決Q-learning的問題。    瞭解強化學習的基

原创 Dueling DQN:Q=V+A

目錄 相關知識 網絡結構 應用場景 存在的問題 相關知識 DQN算法: 優勢函數(Advantage Function): 網絡結構 和DQN的不同是:在特徵層和輸出層之間的全連接層,分成了兩部分,一部分用於近似state-value