深度學習神經網絡邏輯斯蒂迴歸模型

原創

2020-04-27 01:34

梯度下降

動量梯度下降

神經元

$h_{W, b}(x) = f(W^Tx) = f(\sum^{3}_{i=1}w_ix_i+b)$

$W$ 表示權重, 是一個向量
$w$ 表示 $W$ 中的元素
$x$ 表示特徵
$f()$ 表示激活函數
$b$ 是偏置, (如果沒有 $b$ , 那麼分類線或者分類面都必須經過原點), $b$ 可以看作 $W$ 中的 $w_0$ , 與圖中的 +1 相乘

二分類

把激活函數應用到神經元上, 就可以得到一個二分類邏輯斯蒂迴歸模型

如果激活函數是 sigmoid, 即 $f(x) = \frac{1}{1+e^{-x}}$ , 則
$h_{W}(x) = f(W^Tx) = \frac {1} {1+e^{-W^Tx}}$
$P(Y=0|x) = h_{W}(x) = \frac {1} {1+e^{-W^Tx}} \\ P(Y=1|x) = 1 - h_{W}(x) = \frac {e^{-W^Tx}} {1+e^{-W^Tx}} \\$
這兩個式子可以看做是 $1$ 和 $e^{-W^Tx}$ 做歸一化,
那麼多分類就是 $1$ , $e^{-W^T_1x}$ , $e^{-W^T_2x}$ … $e^{-W^T_kx}$ 做歸一化

多分類

再加一個神經元, 就可以做三分類(兩個神經元各一類, 1減去兩類爲第三類)
也就是把 $W$ 從向量擴展爲矩陣, $W_n$ 表示矩陣中的第 $n$ 個向量,
輸出 $W*x$ 則變爲向量

如果分爲 $K$ 類

$P(Y=k|x) = \frac{e^{-W^T_kx}}{1+\sum^{k-1}_{1}e^{-W^T_k x}} \quad k=1,2,...K-1\\ P(Y=k|x) = \frac{1}{1+\sum^{k-1}_{1}e^{-W^T_k x}} \quad k=K$

舉例:
$X = [3, 1, 2]$
$W = [[0.4, 0.6, 0.5], [0.3, 0.2, 0.1]]$
$W*X$ 得 $Y = [y_0, y_1] = [2.8,1.3]$
$e^{-Y} = [e^{-2.8}, e^{-1.3}] =[0.006, 0.27]$
$Sum = 1+ 0.06+0.27 = 1.33$
則
$P(Y=0|x) =0.06/1.33 = 0.045$
$P(Y=1|x) =0.27/1.33 = 0.203$
$P(Y=2|x) =1.00/1.33 = 0.752$

目標函數

平方差損失

$\frac{1}{n}\sum _{x,y}\frac{1}{2}(y-Model(x))^2$

$\frac{1}{2}$ 是爲了求導方便
$y$ 需要做 one hot 編碼

交叉熵損失

$\frac{1}{n}\sum_{x, y} yln(Model(x))$

梯度下降

$x_{t+1} = x_t - \alpha \triangledown f(x_t)$

$\triangledown f(x)$ 對 $x$ 求偏導
$\alpha$ 學習率

動量梯度下降

$v_{t+1} = \rho v_t + \triangledown f(x_t)\\ x_{t+1} = x_t - \alpha v_{t+1}$

$v_t$ 爲之前梯度的積累值
$v_{t+1}$ 爲之前梯度的積累值加上當前梯度的新的積累值
由於梯度是矢量, 所以他們的加法包括大小和方向
訓練開始時, 動量積累得快, 可以加速訓練
在局部極值附加震盪時, 可以藉助動量跳出來
如果梯度方向發生變化, 動量能夠緩解震盪

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

深度學習神經網絡邏輯斯蒂迴歸模型

神經元

二分類

多分類

目標函數

平方差損失

交叉熵損失

梯度下降

動量梯度下降

工作中用到的腳本合集

24-5-18 X

Java 哈希函數哈希表動態容量鏈地址法簡介+實現

2-3樹紅黑樹簡介+實現

AVL 平衡二叉搜索樹支持鍵值簡介+實現

Trie 前綴樹字典樹簡介+實現

Linux進程互斥小實驗模擬生產者－消費者

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

深度學習 神經網絡 邏輯斯蒂迴歸模型

神經元

二分類

多分類

目標函數

平方差損失

交叉熵損失

梯度下降

動量梯度下降

深度學習神經網絡邏輯斯蒂迴歸模型