機器學習——過擬合問題（線性迴歸+邏輯斯特迴歸的正則化推導）

原創

2020-06-16 02:40

文章目錄

1.前言

前面已經推導過線性迴歸和邏輯斯特迴歸的梯度下降算法。

線性迴歸的梯度下降算法：https://blog.csdn.net/qq_30232405/article/details/104153928
邏輯斯特迴歸的梯度下降算法：https://blog.csdn.net/qq_30232405/article/details/104486826

它們各自的梯度下降算法公式爲：

線性迴歸：
$h_{\theta}(x) = \theta_0 x_0 + \theta_0 x_1 + ... + \theta_n x_n \\ \theta_j := \theta_j - \alpha \frac{1}{m} \sum^{m}_{i=1} (h_{\theta}(x^{(i)}_j) - y^{(i)}) x^{(i)}_j \tag{1-1}$
邏輯斯特迴歸：
$h_{\theta}(x) = g(\theta_0 x_0 + \theta_0 x_1 + ... + \theta_n x_n) \\ \theta_j:=\theta_j- \alpha \frac{1}{m} \sum_i^{m}(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j \tag{1-2}$
其中 $g$ 爲sigmoid函數

2.過擬合問題及其解決方法

如上圖，左圖展示了一個擬合曲線不能很好的擬合數據，這個現象被稱爲“欠擬合問題（underfitting）”；而最右圖雖然能夠很好的擬合數據，但是曲線過於複雜，當需要預測新數據時，可能會有偏差，這時候被稱爲“過擬合問題（overfitting）”

2.1 擬合問題中偏差和方差

偏差和方差
評價數據擬合程度好壞，通常用代價函數 $J$ 。如果只關注 $J_{train}$ (訓練集誤差)的話，通常會導致過擬合，因此還需要關注 $J_{cv}$ (交叉驗證集誤差)。
高偏差： $J_{train}$ 和 $J_{cv}$ 都很大，並且 $J_{train} \approx J_{cv}$ 。對應欠擬合。
高方差： $J_{train}$ 較小， $J_{cv}$ 遠大於 $J_{train}$ 。對應過擬合。

如何理解高偏差和高方差?
（1）高偏差對應着欠擬合，此時 $J_{train}$ 也較大，可以理解爲對任何新數據（不論其是否屬於訓練集），都有着較大的 $J_{cv}$ 誤差，偏離真實預測較大。

（2）高方差對應着過擬合，此時 $J_{train}$ 很小，對於新數據來說，如果其屬性與訓練集類似，它的 $J_{cv}$ 就會小些，如果屬性與訓練集不同， $J_{cv}$ 就會很大，因此有一個比較大的波動，因此說是高方差。

就像打靶一樣，偏差描述了我們的射擊總體是否偏離了我們的目標，而方差描述了射擊準不準。

對於多項式迴歸，當次數選取較低時，我們的訓練集誤差和交叉驗證集誤差都會很大；當次數選擇剛好時，訓練集誤差和交叉驗證集誤差都很小；當次數過大時會產生過擬合，雖然訓練集誤差很小，但交叉驗證集誤差會很大（關係圖如下）。

所以我們可以計算 $J_{train}(θ)$ 和 $J_{cv}(θ)$ ，如果他們同時很大的話，就是遇到了高偏差問題，而 $J_{cv}(θ)$ 比 $J_{train}(θ)$ 大很多的話，則是遇到了高方差問題。

2.2 正則化（regulization）

正則化主要是用來解決過擬合問題。

右圖因爲比左圖增加了兩個參數 $\theta_3$ 和 $\theta_4$ ，所以造成了過擬合現象。而如果我們在最小化代價函數 $J(\theta)$ 的時候，也同時把 $\theta_3$ 和 $\theta_4$ 縮小到近乎等於0，這時候就可以變爲左圖的曲線，從而解決過擬合問題。

實際上，最小化公式可以變爲：
$\mathop{min} \limits_{\theta} \frac{1}{2m} \sum_i^{m}(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda \theta_3^2 + \lambda \theta_4^2 \tag{2-1}$
這個公式在最小化代價函數的時候，也使得 $\theta_3$ 和 $\theta_4$ 縮小到近乎等於0。

因爲我們不知道哪個參數對模型有效果，所以可以把整體的參數都進行縮小，借鑑公式（2-1）可以把代價函數改寫成：
$J(\theta) = \frac{1}{2m} \sum_i^{m}(h_\theta(x^{(i)}) - y^{(i)})^2 + \lambda \sum_j^{n} \theta_j^2 \tag{2-2}$

其中 $\lambda$ 是用來平衡“原始代價函數的值”和“參數和”之間的關係。

2.3 線性迴歸的正則化

根據公式(2-2)，當使用梯度下降算法更新參數 $\theta$ 時， $\frac{1}{2m} \sum_i^{m}(h_\theta(x^{(i)}) - y^{(i)})^2$ 對 $\theta_j$ 求偏導數還是和原來的一樣，而 $\lambda \sum_j^{n} \theta_j^2$ 對 $\theta_j$ 求偏導數：

$\frac{\partial \lambda \sum_j^{n} \theta_j^2}{\partial \theta_j} = 2 \lambda \theta_j \to \lambda \theta_j \tag{2-3}$

其中2可以融合到 $\lambda$ 中.

最後公式(1-1)更新爲：
$h_{\theta}(x) = \theta_0 x_0 + \theta_0 x_1 + ... + \theta_n x_n \\ \theta_j := \theta_j - \alpha [\frac{1}{m} \sum^{m}_{i=1} (h_{\theta}(x^{(i)}_j) - y^{(i)}) x^{(i)}_j + \lambda \theta_j] \tag{2-4}$

2.4 邏輯斯特迴歸的正則化

同理，邏輯斯特迴歸加上正則項後，公式(1-2)更新爲：
$h_{\theta}(x) = g(\theta_0 x_0 + \theta_0 x_1 + ... + \theta_n x_n) \\ \theta_j:=\theta_j- \alpha [\frac{1}{m} \sum_i^{m}(h_\theta(x^{(i)}) - y^{(i)})x^{(i)}_j + \lambda \theta_j]\tag{2-5}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習——過擬合問題（線性迴歸+邏輯斯特迴歸的正則化推導）

文章目錄

1.前言

2.過擬合問題及其解決方法

2.1 擬合問題中偏差和方差

2.2 正則化（regulization）

2.3 線性迴歸的正則化

2.4 邏輯斯特迴歸的正則化

lightdb hash index的性能和限制

stacking in tensorflow2.0：Roberta集成

奇異值分解（SVD）推導（從條件推理+反向證明+與特徵分解的關係）

BLEU算法（例子和公式解釋）

機器學習——過擬合問題（線性迴歸+邏輯斯特迴歸的正則化推導）

啓動Tomcat出現自動關閉問題的解決辦法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結