台部落布谷AI

強化學習一般指深度強化學習；與監督學習、非監督學習並行但在實際學習過程中(episode)又與前者機理一致，所以強化學習也可以看做動態的機器學習；從AI系統的角度，常見的深度學習算法CV、NLP等可以看做是基礎功能實現，類比於眼睛、耳

2020-07-03 15:40:12

目錄本能想解決什麼問題？ global/local Attention additive Attention self Attention Multi-Head Attention 應用案例本能在認知神經學中，注意力是一種人類不可

2020-07-03 15:40:12

目錄背景介紹邏輯迴歸邏輯迴歸屬於線性分類器？神經網絡交叉熵與KL散度激活函數自然邏輯背景介紹比如，當已知y的區間爲[0, 1] 時，線性迴歸就保證不了預測值屬於這個區間。 Selva Prabhakaran blog

2020-07-03 15:40:12

要想駕馭一個機器學習算法，我認爲需要思考其四個方面：應用場景、目標變量、損失函數及學習過程。深度強化學習也不例外：應用場景上圖是強化學習的交互示意圖，Agent給出動作(Action)，環境更新狀態並返回獎賞(Reward)。

2020-07-03 15:40:12

目錄背景介紹模型架構及學習過程注意點背景介紹 GPU-based Asynchronous Advantage Actor-Critic是A3C的GPU實現。 A3C的每一個Worker都需要採樣、訓練，需要充足的CPU資源。

2020-06-07 23:48:11

谷歌論文：Chip Placement with Deep Reinforcement Learning。目錄電路板製作流程芯片製作流程芯片佈局佈局宏(macros) 模型結構 Graph Embedding 預訓練Policy

2020-06-07 23:48:11

目錄什麼是優勢函數歸一化、激活函數等學習問題爲什麼要使用優勢函數常見的優勢函數什麼是優勢函數優勢函數表達在狀態s下，某動作a相對於平均而言的優勢。從數量關係來看，就是隨機變量相對均值的偏差。使用優勢函數是深度強化學習極其

2020-06-07 23:48:11

目錄背景介紹 A3C模型 A3C損失函數 A3C學習過程 A2C 總結背景介紹在DQN中，爲了保證數據的有效性，採用了 Experience Replay Memory機制：但是這種機制，存在幾個問題：1，會佔據大塊的內存；2，

2020-06-07 23:48:11

Distributed Prioritized Experience Replay：分佈式優先經驗回放。 APE-X架構學習Learner和執行Actor分離，都可以是分佈式的。很多Actor進行採樣收集數據，同時由當前Actor的網

2020-06-07 23:48:11

SEED RL：Scalable, Efficient Deep-RL，每秒處理數百萬張圖片的分佈式強化學習框架。目錄基本架構學習過程總結基本架構 Actor由大量CPUs組成，只進行環境交互，不再進行推理採樣。 Learne

2020-06-07 23:48:11

基於Experience Replay優化抽樣方法的經驗回放機制。目錄 Experience Replay prioritization rank-based proportional importance sampling DDQN

2020-06-07 23:48:11

目錄應用場景網絡搭建損失函數學習過程應用場景 Deep Q-Networks: Q-learning的Deep neural networks實現，通過深度學習的方法解決Q-learning的問題。瞭解強化學習的基

2020-05-20 01:13:09

目錄相關知識網絡結構應用場景存在的問題相關知識 DQN算法：優勢函數(Advantage Function)：網絡結構和DQN的不同是：在特徵層和輸出層之間的全連接層，分成了兩部分，一部分用於近似state-value

2020-05-20 01:13:09