正則項的原理、梯度公式、L1正則化和L2正則化的區別、應用場景

先對“L1正則化和L2正則化的區別、應用場景”給出結論，具體見後面的原理解釋：

L1正則化會產生更稀疏的解，因此基於L1正則化的學習方法相當於嵌入式的特徵選擇方法.
L2正則化計算更加方便，只需要計算向量內積，L1範數的計算效率特別是遇到非稀疏向量時非常低
L1正則化相當於給權重設置拉普拉斯先驗，L2正則化相當於給權重設置高斯先驗 $^{[3,4]}$
實際使用時，L2正則化通常都比L1正則化要好，所以應優先選擇L2正則化.

PS：爲方便書寫，以下的向量和矩陣省略粗體，如 $\boldsymbol w$ 與 $\boldsymbol H$ 寫成 $w$ 和 $H$

L1正則化是指在目標函數中加入 $\lambda \Vert w\Vert_1$ ，其中， $w是$ 模型權重向量， $\lambda \geq 0$ 是權衡項，越大表示正則化懲罰越大.

L2正則化則是加入 $\frac\lambda2\Vert w \Vert_2^2$ ，也可以寫成 $\frac\lambda 2w^Tw$ ，注意是L2範數的平方，除以2是爲了求導方便

假設未加入正則項的代價函數爲 $J(w)$ ，那麼加入L2正則項後，代價函數變爲：

$\tilde J(w)=J(w)+\frac\lambda 2w^Tw\tag1$

對應的梯度爲：

$\nabla_w \tilde J=\nabla_wJ+\lambda w\tag2$

權重更新表達式爲（ $\alpha$ 爲學習率）：

$w\leftarrow w - \alpha(\nabla_wJ+\lambda w)\tag3$

等價於：

$w\leftarrow (1-\alpha\lambda )w-\alpha \nabla_wJ\tag4$

由上式可以看出加入L2正則項後梯度更新的變化，即在每步執行通常的梯度更新之前先縮放權重向量（乘以一個常數因子）

對L1正則化而言，代價函數變爲：

$\tilde J(w)=J(w)+\lambda \Vert w\Vert_1\tag5$

對應的（次）梯度爲：

$\nabla_w \tilde J=\nabla_wJ+\lambda \rm sign\it(w)\tag6$

其中 $\rm sign( \cdot)$ 爲符號函數. 權重更新表達式爲（ $\alpha$ 爲學習率）：

$w\leftarrow w - \alpha(\nabla_wJ+\lambda \rm sign\it(w))\tag7$

即：

$w\leftarrow (w -\lambda \rm sign\it(w))- \alpha\nabla_wJ\tag8$

可以看到L1正則化的效果與L2正則化的效果很不一樣，不再是線性地縮放每個 $w_i$ ，而是減去了一項與權重 $w_i$ 同號的常數，因此當 $w_i>0$ 時，更新權重使得其減小，當 $w_i<0$ 時，更新權重使得其增大. 從這點來說也可以看出L1正則化更有可能使得權重爲0，而L2正則化雖也使得權重減小，但縮放操作使得其仍保持同號.

因此他們的一個區別是：L1正則化會導致更稀疏的權重. 這裏的“稀疏”指的是其中一部分權重參數爲0.

這種區別也可以通過下面的圖看出，同心橢圓爲原目標函數的等值線，左圖（同心）菱形爲L1範數的等值線，右圖（同心）圓形爲L2範數的等值線. 範數的同心等值線被省略了.

對於左右每個圖來說，假設分別從原目標函數和範數的最低點開始往外拓展等值線，把第一次兩個等值線相交的點稱爲meet-point，那麼該點就是在某個懲罰係數 $\lambda$ 下達到的代價最小點， $\lambda$ 決定了該點是更接近目標函數的最低點還是範數的最低點（原點）.

由上圖可以看出，L1正則化下的meet-point很可能落在座標軸上，這些點的一部分分量爲0，也就導致權重的稀疏，而L2正則化下的meet-point則更有可能落在某個象限內，因此不會有L1正則化的稀疏性.

爲什麼參數的絕對值更小對應的模型更簡單？可以考慮多項式擬合的場景：

在等量的數據集規模下，複雜的模型爲了對訓練樣本的擬合程度更高，擬合的曲線要不斷地劇烈上下抖動以求穿過每一個訓練樣本點，這就導致多項式的階數比較大且參數絕對值比較大；反之，而當模型比較簡單時，曲線就更平滑，即多項式order比較小且參數絕對值也小得多.

前面對L2正則化的效果分析得出的結論是：L2正則化會在每次更新參數時對參數向量多進行一步縮放操作. 但是這僅是對於單個步驟的分析，事實上我們可以對整個訓練過程進行分析，並得到正則化的最優解與不進行正則化的區別.

令 $w^*=\argmin_wJ(w)$ ，即 $w^*$ 爲 $J(w)$ 的最小值點，利用泰勒展開將式 $(1)$ 中的 $J(w)$ 在 $w^*$ 點處展開，並只保留到二階導的項作爲近似. 如果目標函數確實是二次的（例如使用均方誤差損失的線性迴歸模型），那麼得到的表達式是沒有誤差的.

$\tilde J(w)$ 近似得到 $\hat J(w)$ ：

$\begin{aligned} \tilde J(w) &=J(w)+\frac\lambda 2w^Tw \\ &\approx J(w^*)+\frac12(w-w^*)^TH(w-w^*)+\frac\lambda 2w^Tw\xlongequal{令爲}\hat J(w)\tag9 \end{aligned}$

其中 $H$ 是 $J(w)$ 在 $w^*$ 處關於 $w$ 的Hessian矩陣，由於 $w^*$ 爲極值點，所以 $\nabla_wJ=\boldsymbol 0$ ，故近似式中沒有一次項. 另外由 $w^*$ 爲極小值點可知 $H$ 是半正定的.

$\hat J(w)$ 對 $w$ 的梯度爲：

$\nabla_w\hat J(w)=H(w-w^*)+\lambda w \tag{10}$

設 $\hat w=\argmin_w\hat J(w)$ ，即 $\hat w$ 是 $\hat J(w)$ 的最小值點，則

$\nabla_{\hat w}\hat J(w)=H(\hat w-w^*)+\lambda \hat w=\boldsymbol 0 \tag{11}$

$(H+\lambda I)\hat w=Hw^*\tag{12}$

$\hat w=(H+\lambda I)^{-1}Hw^*\tag{13}$

當 $\lambda$ 趨於0時，正則化後的代價函數的最優解 $\hat w$ 趨於 $w^*$ ，那麼當 $\lambda$ 增加時會發生什麼呢？

由於Hessian矩陣 $H$ 是實對稱矩陣，所以其可對角化，即 $Q^TH Q=\Lambda$ ，其中 $Q$ 爲正交矩陣且列向量爲 $H$ 的特徵向量，故 $H=Q\Lambda Q^T$ ，代入式 $(13)$ 可得

$\begin{aligned} \hat w &=(Q\Lambda Q^T+\lambda I)^{-1}Q\Lambda Q^Tw^* \\ &=[Q (\Lambda+\lambda I)Q^T]^{-1}Q\Lambda Q^Tw^*\\ &=Q(\Lambda +\lambda I)^{-1}Q^Tw^* \tag{14} \end{aligned}$

令 $\hat H=Q(\Lambda +\lambda I)^{-1}Q^T$ ，則有 $\hat w=\hat Hw^*$ ，即 $\hat H$ 的特徵值爲 $\frac{\xi_i}{\xi_i+\lambda}$ ，其中 $\xi_i$ 爲 $H$ 的特徵值，且 $\hat H$ 的特徵值 $\frac{\xi_i}{\xi_i+\lambda}$ 對應的特徵向量與 $H$ 的特徵值 $\xi_i$ 對應的特徵向量相同，均爲 $Q$ 的第 $i$ 列.

因此， $w^*$ 左乘 $\hat H$ 可以看做沿着由 $H$ 的特徵向量所定義的軸來縮放 $w^*$ ，具體來說，我們會根據 $\frac{\xi_i}{\xi_i+\lambda}$ 因子來縮放 $w^*$ 在 $H$ 的第 $i$ 個特徵向量方向上的分量 $w_i^*$ . 因此，對於較大的特徵值 $\xi_i \gg \lambda$ 所對應的特徵向量的方向上，正則化的影響較小，因爲分量 $w_i^*$ 的縮放因子趨於1；而對於較小的特徵值 $\xi_i \ll \lambda$ 所對應的特徵向量的方向上， $w^*$ 的分量 $w_i^*$ 會縮放到幾乎爲 $\boldsymbol 0$ .

還可以這樣來理解：L2正則化會將最優解 $w^*$ 的分量進行縮放，某分量方向上代價函數降低得越慢，則對其縮放的程度越高，即偏好保留的是代價函數降低更快的方向，這些方向特徵值大，故二階導數大，所以降低快 $^{[2]}$ . 這種效應如下圖所示.

上圖是假設參數向量 $w$ 維度僅爲2，即 $w=[w_1,w_2]$ ，作出 $J(w)$ 的等值線後，由Hessian矩陣與等值線的關係可知，圖中所畫的 $J(w)$ 的Hessian矩陣 $H$ 的特徵向量方向恰爲水平和垂直方向，且等值線密集的垂直方向對應的特徵值較大，等值線稀疏的水平方向對應的特徵值較小.

根據前文所述結論， $w^*$ 在水平方向的分量將被收縮較多，而在垂直方向的分量所收到的影響則相對沒那麼大. 圖中的 $\tilde w$ 點正是加了正則項後的最優解，其垂直與水平分量相對於 $w^*$ 的變化驗證了我們的想法.

References:

[1] 花書中文版7.1節
[2] Hessian矩陣與等值線的關係
[3] 貝葉斯角度看 L1 & L2 正則化
[4] L1正則先驗分佈是Laplace分佈，L2正則先驗分佈是Gaussian分佈

正則項的原理、梯度公式、L1正則化和L2正則化的區別、應用場景

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

面試題——算法與數據結構Python實現

正則項的原理、梯度公式、L1正則化和L2正則化的區別、應用場景

HMM與CRF筆記

NLP中的Embedding方法總結

熵、交叉熵、KL散度、JS散度、推廣的JS散度公式、互信息

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結