機器學習(三):梯度下降法

本博客大部分參考了這篇博文

梯度

在微積分裏面,對多元函數的參數求∂偏導數,把求得的各個參數的偏導數以向量的形式寫出來,就是梯度。

比如函數f(x,y) , 分別對x,y求偏導數,求得的梯度向量就是(f/x,f/y) ,簡稱gradf(x,y) 或者f(x,y) 。如果是3個參數的向量梯度,就是(f/x,f/yf/z) ,以此類推。

那麼這個梯度向量求出來有什麼意義呢?他的意義從幾何意義上講,就是函數變化增加最快的地方

具體來說,對於函數f(x,y),(x0,y0) ,沿着梯度向量的方向(即(f/x0,f/y0) 的方向)是f(x,y) 增加最快的地方。或者說,沿着梯度向量的方向,更加容易找到函數的最大值。反過來說,沿着梯度向量相反的方向,也就是 (f/x0,f/y0) 的方向,梯度減少最快,也就是更加容易找到函數的最小值。

矩陣描述

參考的博客給出了詳細的解答過程,這裏就另外給個矩陣的求導法則鏈接

補充:改進的隨機梯度下降

上述博客講了隨機梯度下降,在此補充一個循環迭代的隨機梯度下降。
即通過多次循環隨機梯度下降,來避免隨機梯度下降的局部最優。
建議參考《機器學習實戰》的5.2.4節。

補充:牛頓法

牛頓法

發佈了72 篇原創文章 · 獲贊 50 · 訪問量 19萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章