強化學習（Reinforcement Learning, RL）

原創

2020-06-29 12:58

強化學習（Reinforcement Learning, RL），又稱再勵學習、評價學習或增強學習。描述和解決智能體（agent）在與環境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。

強化學習的常見模型是標準的馬爾科夫鏈，馬爾科夫決策過程（Markov Decision Process, MDP），他是在假設下一個狀態由上一個確定的狀態來決定（條件概率），每一步都是上一步狀態到當前狀態的轉移。一階馬爾科夫，還有多階。。VAE就有這種思想

轉移概率，由某種狀態轉移到其他狀態的概率和爲1，今天下雨，通過經驗值確定明天晴天概率可能0.2，下雨0.5，陰天0.3，多種狀態的互相轉換組合起來叫轉移概率，又叫轉移矩陣

馬爾科夫隨機過程，各個狀態的改變是根據概率隨機的，晴雨天轉換

馬爾可夫決策過程，狀態的改變是通過動作完成的，比如喫完早飯，你可以去刷微博，也可以打遊戲，動作選取的往往是根據是價值最大化，趨利避害，價值是所有執行狀態總回報，貝爾曼方程Bellman，會有打折係數，一般0-1，越往後的事情價值確定性越不確定，打折越高。

總回報並不是總價值，走不通的路線總回報是不穩定的，但是價值實際是總回報的期望（所有路徑的平均值），價值是穩定的，也是通過採樣來求期望，逼近真實

強化學習是一種歸化的問題，要等結果產生了才能知道是給每個動作怎樣的獎懲。

Q學習：

策略學習：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Adaboost的簡單理解和詳細數學推導

簡單理解與隨機森林類似，AdaBoost也是由多個“樹樁”構成。但是，不同的是，隨機森林的每個“樹樁”權重相等，而AdaBoost會給每個“樹樁”分配不同的權重。簡單地講，它的整個流程是：其中，話語權是指每個弱學習器（樹樁

2020-07-05 03:21:20

計算機視覺之混合圖像(Hybrid)

這是之前做過的一個關於實現Hybrid Image的小項目，有錯誤及不足的地方還請批評指正～怎麼理解圖像的高低頻？圖像的低頻部分可以理解爲“輪廓”，比如人臉的臉型。圖像的高頻部分可以理解爲“細節”，比如人臉的皺紋、斑點等。

2020-07-05 03:21:20

神經網絡梯度消失梯度彌散網絡欠擬合過擬合

梯度消失，沒法反向傳播了，網絡就無法訓練了。原因，激活函數的飽和區間,常用的有飽和區間的激活函數，sigmoid，tanh,softmax, 所以中間層儘量不適用這種激活函數，使用Relu系列的解決；奇異樣本引起, 可以使用標準化（零

2020-06-29 12:58:57

卷積設計

神經網絡的深度決定什麼？（提取特徵的能力，提取特徵的抽象程度，他是由於反向的梯度更新決定的，權重更新次數和網絡的層數是有關的）每層神經元的個數決定的是（該網絡的非線性能力）網絡設計深更利於特徵提取，但是會有梯度消失（反向時每層神

2020-06-29 12:58:57

人工智能神經網絡激活函數

激活函數，提供非線性能力。 1. softmax：多分類，他有互斥性，是概率問題。當分類爲2的時候，會退化成sigmod. 2. SIGMOD函數，二分類將數據壓縮到0-1之間，橫軸0點對稱，以用來做二分類，有飽和區

2020-06-29 12:58:57

人工智能--狗貓數據集的兩階段分類實驗

安裝Tensorflow，安裝keras pip install tensorflow -i https://pypi.tuna.tsinghua.edu.cn/simple/ pip install --upgrade tens

2020-06-27 15:44:47

人工智能學習---SVM算法編程練習

文章目錄一.什麼是SVM？二.Soft Margin SVM三.多項式與核函數四.超參數γ 一.什麼是SVM？ Svm（support Vector Mac）又稱爲支持向量機，是一種二分類的模型。當然如果進行修改之後也是可以用於多

2020-06-27 15:44:46

吳恩達《機器學習系列課程》學習筆記（一）

大家都想做在線教育，結果最後，B 站反而更像中國的 YouTube。在 B 站上看到吳恩達的《機器學習系列課程》，看了看發現挺有意思，就梳理一下在此形成學習筆記。第一節：前言機器學習早已成爲我們的日常。每當使用 Googl

2020-06-23 07:24:18

對鳶尾花數據集和月亮數據集用LDA、k-means和SVM進行二分類可視化分析

2020-05-18 20:20:46

單純形法、大M法、拉格朗日乘子法的excel求解與python編程求解

2020-05-08 19:35:10

人工智能筆記---梯度下降算法，牛頓法

2020-05-08 19:35:10

python代碼完成Fisher判別

2020-05-08 19:35:10

Jupyter完成Iris數據集的 Fisher線性分類和數據可視化技術

2020-05-08 19:35:10

Jupyter編程--對手寫體Mnist數據集中10個字符（0-9）的分類識別

2020-05-08 19:35:10

var.detach().numpy() instead. pytorch Tensor 轉 numpy 報錯

2020-04-16 18:07:49

24小時熱門文章

最新文章

最新評論文章