吳恩達深度學習第一課--第二週神經網絡基礎作業上正反向傳播推導

原創

2020-06-16 05:18

文章目錄

正向傳播推導

反向傳播推導

正向傳播推導

第i個樣本

輸入 $x^{(i)}$ ，通過計算得到 $z^{(i)}$ ，然後再使用sigmoid函數得到預測值 $\hat y^{(i)}$ ，我們需要判斷 $\hat y^{(i)}$ 與實際值y的關係。
第一，先判斷維度， $x^{(i)}$ (nx1)，w(nx1)， $z^{(i)}$ (1x1)， $\hat y^{(i)}$ (1x1)。
接着，我們來計算 $z^{(i)}$ = $(x_{1}^{(i)}w_1+x_{2}^{(i)}w_2+\dots+x_{n}^{(i)}w_n)+b$ = $(w_1,w_2,\dots,w_m)\begin{pmatrix} x_{1}^{(i)}\\ x_{2}^{(i)}\\ .\\.\\.\\\\ x_{n}^{(i)} \end{pmatrix} +b$ 。
其中，b是實數，python中有廣播功能，能使b擴展到與前式相同的維度並計算。

向量化（從個別到整體）

爲了與上面做區別，字母大寫。
$Z=(w_1,w_2,\dots,w_m)\begin{pmatrix} x_{11}& x_{21} &\dots & x_{m1}\\ x_{12} & x_{22} &\dots & x_{m2}\\ .& . & &.\\ .& . & &.\\ .& .& &.\\ x_{1n}& x_{2n} &\dots & x_{mn}\\ \end{pmatrix} +b=w^TX+b$
$\hat Y=\delta(Z)=sigmoid(Z)=(\hat y^{(1)},\hat y^{(2)},\dots,\hat y^{(m)})$
此處使用sigmoid函數將預測值 $\hat y$ 分佈在0~1之間，即二分法。

判斷向量維度

上面的維度是單個樣本的維度，下面的維度是m個樣本中向量的維度；在矩陣運算中，維度尤其重要，後面判斷轉置和累和都是基於矩陣維度。
X(nxm),其中n是特徵，m是樣本，w(nx1)，b實數(1x1)，Z(1xm)， $\hat Y$ (1xm)。

將原始數據進行整合

吳恩達老師提供了訓練集和測試集，其中，train_data_org=(129,64,64,3)–>(129,64x64x3)–>(129,12288)-> $(129,12288)^{T} ->(12288,129)$ 。
其中，給出的訓練集數據格式是129個樣本，64x64的寬高，3原色（紅、綠、藍），我們需要將後面三位數相乘作爲特徵，然後再轉置得到特徵x樣本即nxm。
接下來處理標籤，train_labels_org=(129,)–>(1,129)。
其中，給出的訓練集數據格式是129個樣本，我們需要使用numpy庫將其轉換爲需要的格式。

反向傳播推導

第i個樣本

依舊使用這幅圖片，我們令a= $\hat y^{(i)}=\delta(z^{(i)})=\frac{1}{1+e^{-z^{(i)}}}$ 。其中， $x_i$ (nx1)，w(nx1)， $z^{(i)}$ (1x1)， $\hat y^{(i)}$ (1x1)，b實數(1x1)。
由前向傳播函數得，Z= $w^TX+b$ 。其中，X(nxm)，w(nx1)，b(1x1)，Z(1xm)， $\hat Y$ (1xm)，A(1xm)。

損失函數

loss function：對一個樣本中計算預測值和實際值的差距。L(a,y)= $-ylog_{10}a-(1-y)log_{10}(1-a)$ 。

代價函數

costs function：對m個樣本中的w和b累加和後求均值。J(a,y)=J(w,b)= $-\frac{1}{m}\sum_{i=1}^m[y*loga+(1-y)*log(1-a)]$ 。

梯度下降法（實則是多元函數求微分）

$\frac{\partial L(a,y)}{\partial w}=\frac{\partial L(a,y)}{\partial a}\frac{\partial a}{\partial z}\frac{\partial z}{\partial w}$
$\frac{\partial L(a,y)}{\partial b}=\frac{\partial L(a,y)}{\partial a}\frac{\partial a}{\partial z}\frac{\partial z}{\partial b}$
其中，
$\frac{\partial L(a,y)}{\partial a}=-\frac{y}{a}-\frac{(1-y)(-1)}{1-a}$
$\frac{\partial a}{\partial z}=-\frac{e^{-z}(-1)}{(1+e^z)^2}=\frac{e^{-z}}{(1+e^z)^2}=\frac{1}{1+e^z}\frac{1+e^z-1}{1+e^z}=a(1-a)$
所以,
$\frac{\partial L(a,y)}{\partial a}\frac{\partial a}{\partial z}=a-y$
最後，
$\frac{\partial L(a,y)}{\partial w}=(a-y)x-->x(a-y)；\frac{\partial L(a,y)}{\partial b}=a-y-->np.sum(a-y)$
做點解釋，前面採用微積分中的鏈式求導法則來算，後面根據維度做變換， $\frac{\partial L(a,y)}{\partial w}$ 維度是nx1， $\frac{\partial L(a,y)}{\partial b}$ 維度是1x1，a-y維度是1x1。

向量化（從個別到整體）

$\frac{\partial L(A,Y)}{\partial w}=X(A-Y)-->X(A-Y)^T$
$\frac{\partial L(A,Y)}{\partial b}=A-Y-->np.sum(A-Y)$
其中，A-Y的維度是1xm。
$W=W-\alpha\frac{1}{m}X(A-Y)$
$b=b-\alpha\frac{1}{m}np.sum(A-Y)$
$J(w,b)=-\frac{1}{m}np.sum[YlogA+(1-Y)log(1-A)]$
其中，J(w,b)維度是1xm，裏面均是點乘（矩陣對應位置相乘）。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

吳恩達深度學習第一課--第二週神經網絡基礎作業上正反向傳播推導

文章目錄

正向傳播推導

第i個樣本

向量化（從個別到整體）

判斷向量維度

將原始數據進行整合

反向傳播推導

第i個樣本

損失函數

代價函數

梯度下降法（實則是多元函數求微分）

向量化（從個別到整體）

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

概率論與數理統計第一章

獅子叔個人提升

吳恩達深度學習第一課--第二週神經網絡基礎作業上正反向傳播推導

吳恩達深度學習第一課--第三週神經網絡基礎作業下代碼實現

深度學習第四周--第三課目標檢測代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結