原创 [強化學習] 多臂賭博機

寫在前面 今天的博客主要是針對多臂賭博機中探索與利用問題的一些解決算法的講解。本文是由suttom的書學習而來,本文有些圖片來自來自David Silver的公開課,在此先聲明一下。 多臂賭博機問題其實很早就有,那時候強化學習還沒

原创 [強化學習] 有限馬爾科夫決策過程

寫在前面 強化學習系列博客主要學習sutton的書,有些內容來自Google DeepMind的David Silver的PPT,再此聲明。 一、馬爾可夫過程 如上圖所示,在強化學習的過程中,Agent與Environment一

原创 [強化學習] 概念、舉例、分類

寫在前面 本文主要是學習sutton的書--強化學習緒論部分的整理,這裏爲了更好地理解,擴展了一些書上的內容。例子來源於網上,後續介紹的時候我會加上來源;還有部分PPT內容參考臺大李宏毅老師的PPT以及Google DeepMi

原创 [受限玻爾茲曼機] 原理、求解過程推導、深度信念網絡

寫在前面 本篇文章主要寫受限玻爾茲曼機、Gibbs求解方法、CD對比散度求解方法和深度信念網絡。並非全部都是原創,有部分來自於書籍和網絡。 一、受限玻爾茲曼機 1、簡介玻爾茲曼機結構 如下圖所示(圖片來源:知乎),玻爾茲曼機的網絡

原创 [自編碼器:理論+代碼]:自編碼器、棧式自編碼器、欠完備自編碼器、稀疏自編碼器、去噪自編碼器、卷積自編碼器

寫在前面 因爲時間原因本文有些圖片自己沒有畫,來自網絡的圖片我儘量注出原鏈接,但是有的鏈接已經記不得了,如果有使用到您的圖片,請聯繫我,必註釋。 自編碼器及其變形很多,本篇博客目前主要基於普通自編碼器、棧式自編碼器、欠完備自編碼器

原创 centos命令記錄: nohup後臺運行命令+pip3指定軟件版本安裝

一、運行python命令 因爲centos系統自帶python2.7,但是代碼使用的py版本是python3.6,因此又安裝了python3.6,爲了避免衝突,py3.6的代碼調用命令如下: 注:若同時存在Python2和Pyt

原创 hive sql語句和mysql用法區別存檔

寫在前面 mysql和hive版本: mysql版本:5.6.17 hive版本:2.1.1 一、GROUP_CONCAT功能 本功能測試基於以下數據表test_group: 1、簡單功能實現對比 需求如下: 寫出一個sql語句

原创 [強化學習] 時序差分學習

寫在前面 本文主要爲學習sutton書中《時序差分學習》章節整理而來。 一、引言 1、蒙特卡洛方法回顧 (1)預測問題 蒙特卡洛的目標是根據策略π\piπ採樣軌跡序列vπ(s)v_\pi(s)vπ​(s):S1,A1,R2,...

原创 [強化學習] 蒙特卡洛方法

寫在前面 強化學習系列方法主要學習Sutton的書,本文主要講使用蒙特卡洛做預測和控制涉及到的問題。 一、動態規劃的侷限 動態規劃中狀態價值更新函數爲: V(k+1)(S)=∑A∈Aπ(A∣S)(RSA+γ∑S′∈SPSS′AV(

原创 【強化學習】多臂賭博機

寫在前面 今天的博客主要是針對多臂賭博機中探索與利用問題的一些解決算法的講解。本文由強化學習討論班整理而來,感謝實驗室小夥伴chengcheng han同學,本文有些圖片來自他的PPT,應該還有些內容來自David Silver的

原创 [強化學習] off-policy和on-policy、Q-learning和Sarsa的區別、Sarsa-lambda、Q-lambda

看了莫凡大神(link)關於Q-learning和Sarsa的視頻之後,大概瞭解了Q-learning和Sarsa,但是對其區別還是有點懵懵懂懂,這篇博客便是後續對其理解的過程記錄。 Q-learning和Sarsa都是時序差分模型,

原创 遷移學習(Transfer Learning)

本博客主要是臺灣大學-李宏毅老師的公開課的總結(ppt鏈接)。 一、簡介 遷移學習主要是指將已有數據的領域知識遷移到數據缺乏的領域任務中,下面簡單介紹下: 出現原因 遷移學習主要用於將源域(source domain)的知識遷移到

原创 GBDT和Xgboost:原理、推導、比較

寫在前面 網上有很多關於GBDT和Xgboost的文章,但是我在讀的時候感覺對於提升樹、GBDT和Xgboost之間的關係,以及他們和殘差、梯度的關係,所以自己整理了一下,涉及的知識點比較多。Xgboost證明部分主要來源於論文,這裏

原创 [激活函數] 非線性原因分析、Sigmoid、TanH、ReLU和ELU

本篇主要整理下激活函數的相關內容。 首先講下激活函數需要滿足的條件: 計算簡單 非線性 爲什麼需要滿足非線性呢?我們來看下面這個例子。 如圖單隱層神經網絡,我們在計算的時候有如下公式: z1[2]=w[1]x+b[1]a1[2]

原创 [Mysql] 聚集函數:NULL是否包含在內(包括count(1)和count(*)的比較)

本篇博客主要整理並親自驗證一下count(*), count(1)和count(column-name)的區別,本部的內容主要參考stackoverflow,除此之外,對聚集函數中是否包含NULL值進行了驗證。 本文所有測試數據基於m