原创 強化學習-Vanilla Policy Gradient(VPG)

文章目錄BackgroundQuick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentationReferances Background 策略梯度

原创 DDPG-強化學習算法

文章目錄BackgroundQuick FactsKey EquationsDDPG的Q-learning部分DDPG的策略學習部分Exploration vs. Exploitation(探索vs.利用)Documentatio

原创 CentOS7 Change the Sources of yum(剛裝完centos後一定要乾的事)

文章目錄when you complete the installation of CentOS7 when you complete the installation of CentOS7 rm -f /etc/yum.rep

原创 GIT的基本操作(建立自己的git遠程倉庫)

文章目錄先在遠程主機建立git倉庫進入git倉庫,建立不用更新的文件(.gitignore)git操作遠程克隆到本地本地建立新文件後提交本地倉庫推到遠程倉庫本地倉庫更新查看當前倉庫狀態查看當前提交的日誌回滾查看所有提交的日誌刪除倉

原创 ubuntu系統靜態路由

文章目錄 在路由器上設置本電腦的靜態ip sudo vim /etc/network/interfacesiface eth0 inet static address x.x.x.x #地址 192.168.0.10 netma

原创 Soft-Actor-Critic-強化學習算法

文章目錄BackgroundQuick FactsKey EquationsEntropy-Regularized Reinforcement LearningSoft Actor-Critic學習Q.學習策略。Explorati

原创 貝葉斯分析-學習筆記(超乾的乾貨)

文章目錄第一章.緒論一、常見隨機變量分佈1.二項分佈:2.Poisson分佈3.幾何分佈4.帕斯卡分佈(負二項分佈)5.多項分佈(二項分佈的推廣)6.均勻分佈7.指數分佈8.正態分佈9.柯西分佈10.伽馬分佈11.逆伽馬分佈12.

原创 ubuntu修改mongodb的數據庫儲存位置

文章目錄查看並更改datadir儲存路徑轉移datadir給權限和所有者重啓mongodb啓動mongo查看 查看並更改datadir儲存路徑 如果是默認安裝,該配置文件路徑可以用locate mongodb.conf找到並查看原

原创 DeepLearning.AI第一部分第三週、 淺層神經網絡(Shallow neural networks)

文章目錄3.1 一些簡單的介紹3.2神經網絡的表示Neural Network Representation3.3計算一個神經網絡的輸出Computing a Neural Network's output神經網絡的計算其向量化表

原创 打包python程序

文章目錄python程序的缺點python程序打包早期的python打包工具使用pyinstaller工具練習:使用pyinstaller盡情打包你的各種程序,看看爽不爽 python程序的缺點 解釋性語言, 容易暴露源程序 脫

原创 PolicyGradientMethods-強化學習

文章目錄Neural network as ActorGradient AscentMonte Carlo Policy GradientAdd a BaselineOn-policy and Off-policyimportan

原创 Policy Optimization-強化學習業界手冊

文章目錄Deriving the Simplest Policy Gradient1.軌跡的概率 (Probability of a Trajectory)2.對數導數技巧3.軌跡的對數概率4.環境函數的梯度5.軌跡的梯度對數概率

原创 Twin Delayed DDPG(TD3)-強化學習算法

文章目錄BackgroundQuick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentation Background 儘管DDPG有時可以實現出色

原创 強化學習核心文章一百篇

文章目錄1. Model-Free RLa. Deep Q-Learningb. Policy Gradientsc. Deterministic Policy Gradientsd. Distributional RLe. Po

原创 PPO-強化學習算法

文章目錄Quick FactsKey EquationsExploration vs. ExploitationPseudocodeDocumentaton PPO受到與TRPO相同的問題的激勵:我們如何才能使用當前擁有的數據在策