周志華《Machine Learning》學習拓展知識--經驗風險與結構風險

在前面幾章的筆記中,都出現了“正則化”這個看似神祕的東西,具體包括:(1)線性模型的最小二乘法中出現非滿秩或正定矩陣的情形,從而引入正則化解決了求逆矩陣的難題;(2)BP神經網絡爲了避免過擬合而引入的正則項;(3)“軟間隔”支持向量機在優化目標中添加的正則項或懲罰項。下面將主要圍繞這三個方面來闡述經驗風險與結構風險。

風險函數度量的是平均意義下模型訓練的好壞。在模型學習的過程中,對於監督學習,通常使用帶有真實標記的數據來學習出模型的參數,使得該模型對於訓練數據儘可能地都預測正確。但是模型每一次預測值可能與真實標記相同,也可能不一致,一般我們採用損失函數來度量模型預測錯誤的程度,常用的損失函數有以下幾種:

(引自李航教授的《統計學習方法》)
這裏寫圖片描述
這裏寫圖片描述

模型關於訓練數據的平均損失稱爲“經驗風險”,經驗風險度量的是模型與訓練數據的契合程度,即模型的優劣程度。如下所示:

這裏寫圖片描述

但單純地優化經驗風險容易導致過擬合,因此引入了“結構風險”,結構風險度量的是模型的某些性質,例如模型的複雜度或懲罰項等。如下所示:

這裏寫圖片描述

其中λ是一個係數,將經驗風險與結構風險二者進行折中,這就是上面提到的“正則化”問題,通過引入正則項有效地降低了過擬合的風險,這樣監督學習問題就變成了經驗風險或結構風險最小的最優化問題。下面將圍繞三個實際的例子來進行討論。

(1)最小二乘法引入正則化

在多元線性迴歸中,對w進行參數估計時,出現了一個限定條件,即X’X爲滿秩矩陣或正定矩陣。如下所示:

這裏寫圖片描述

在現實問題中,由於數據的多樣性和不確定性,難免會出現列相關的情形,爲了避免這個問題,從而引入了正則化。

這裏寫圖片描述

引入正則化後,雖然對係數的估計是有偏的,但結果卻更加穩定。這一問題又稱爲“嶺迴歸”,嶺迴歸實質上就是帶有二範數懲罰項的最小二乘法。

(2)神經網絡引入正則化

由於神經網絡模型強大的表示能力,BP神經網絡經常遭遇過擬合,解決過擬合策略中的其中一種就是引入正則化,在經驗風險後加上一個表示模型複雜程度的懲罰項,從而將優化目標從“經驗風險”變爲“結構風險”,如下所示:

這裏寫圖片描述

(3)SVM引入正則化

在“軟間隔”支持向量機中,在引入鬆弛變量後,在優化目標函數後添加了一個懲罰項,使得不滿足約束的樣本點儘可能少。這便是將“經驗風險”轉化爲“結構風險”,因此軟間隔SVM可以理解爲最優化+損失最小。

這裏寫圖片描述

發佈了35 篇原創文章 · 獲贊 220 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章