統計學習方法
第一章 統計學習方法概論
1.1 統計學習
對象 :數據。基本假設 :同類數據具有一定的統計規律性 。
**統計學習方法三要素:**模型、策略、算法
**統計學習的組成:**監督學習、非監督學習、半監督學習、強化學習
1.2 監督學習
**輸入空間:**輸入的所有可能的取值的集合
**輸出空間:**輸出的所有可能的取值的集合
**特徵空間:**每一個具體的實例由一個特徵向量表示,所有特徵向量的空間稱爲特徵空間
實例x x x 的特徵向量:x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) x = (x^{(1)},x^{(2)}, ..., x^{(n)}) x = ( x ( 1 ) , x ( 2 ) , . . . , x ( n ) ) ,其中,x ( i ) x^{(i)} x ( i ) 表示第i i i 個特徵
第i i i 個輸入變量:x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T x_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T x i = ( x i ( 1 ) , x i ( 2 ) , . . . , x i ( n ) ) T ,通常用列向量表示
訓練集:T = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) ) T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n)) T = ( ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) )
迴歸問題 :輸入變量與輸出變量均爲連續變量的預測問題
分類問題 :輸出變量爲有限個離散變量的預測問題
標註問題 :輸入與輸出均爲變量序列的預測問題
聯合概率分佈 :P ( X , Y ) P(X,Y) P ( X , Y ) 是輸入X X X 和輸出Y Y Y 的聯合概率分佈分佈函數或分佈密度函數,X X X 和Y Y Y 具有聯合概率分佈的假設是監督學習關於數據的基本假設
監督學習的模型
1、概率模型 :由條件概率P ( X , Y ) P(X,Y) P ( X , Y ) 確定,預測:P ( y ∣ x ) P(y|x) P ( y ∣ x )
2、非概率模型 :由決策函數Y = f ( X ) Y = f(X) Y = f ( X ) 表示,預測:y = f ( x ) y = f(x) y = f ( x )
3、生成模型 :生成方法由數據學習的聯合概率分佈P ( X , Y ) P(X,Y) P ( X , Y ) ,然後求出條件概率P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) 作爲預測的模 型。即生成模型:P ( Y ∣ X ) = P ( X , Y ) P ( X ) P(Y | X)=\frac{P(X, Y)}{P(X)} P ( Y ∣ X ) = P ( X ) P ( X , Y ) ,該模型表示在給定輸入X X X 產生輸出Y Y Y 的生成關係。典型的生成模型有: 樸素貝葉斯法和隱馬爾可夫模型。
4、判別模型 :由數據直接學習決策函數f ( X ) f(X) f ( X ) 或者條件概率分佈P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) 作爲預測模型。判別模型關心的 是給定的輸入X X X ,應該預測什麼樣的輸出Y Y Y 。典型的判別模型有:k近鄰法,感知機,決策樹,logistics迴歸, 最大熵模型,支持向量機,提升方法和條件隨機場。
1.3 統計學習方法三要素
方 法 = 模 型 + 策 略 + 算 法
方法 = 模型 + 策略 + 算法
方 法 = 模 型 + 策 略 + 算 法
在監督學習中,模型 就是所要學習的條件概率分佈或決策函數,模型的假設空間 包含所有的條件概率分 布或決策函數。假設空間用F \mathcal{F} F 表示,假設空間可以定義爲條件概率分佈/決策函數的集合:
F = { P ∣ P ( X , Y ) } O R F = { f ∣ Y = f ( X ) }
\mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \}
F = { P ∣ P ( X , Y ) } O R F = { f ∣ Y = f ( X ) }
其中X X X 和Y Y Y 表示定義在輸入空間和X \mathcal{X} X 輸出空間Y \mathcal{Y} Y 上的變量,這是F \mathcal{F} F 通常是一個由參數向量決定的函數族:
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } O R F = { f ∣ Y = f θ ( X ) , θ ∈ R n }
\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}
F = { P ∣ P θ ( Y ∣ X ) , θ ∈ R n } O R F = { f ∣ Y = f θ ( X ) , θ ∈ R n }
參數向量θ \theta θ 取值與n n n 維歐式空間R n \mathbf{R}^n R n ,稱爲參數空間
在監督學習中,策略 就是考慮按照什麼樣的準則學習或選擇最優模型。
損失函數 :是f ( X ) f(X) f ( X ) 和Y Y Y 的非負實值函數,記爲L ( Y , f ( X ) ) L(Y, f(X)) L ( Y , f ( X ) ) ,度量模型一次預測的好壞
序號
類型
表達式
(1)
0 - 1損失函數
L ( Y , f ( X ) ) = { 1 , Y ≠ f ( X ) 0 , Y = f ( X ) L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right. L ( Y , f ( X ) ) = { 1 , 0 , Y ̸ = f ( X ) Y = f ( X )
(2)
平方損失函數
L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2 L(Y, f(X))=(Y-f(X))^{2} L ( Y , f ( X ) ) = ( Y − f ( X ) ) 2
(3)
絕對損失函數
$L(Y, f(X))=
(4)
對數(似然)損失函數
L ( Y , P ( Y ) ) = − log P ( Y ) L(Y, P(Y)) = -\log P(Y) L ( Y , P ( Y ) ) = − log P ( Y )
輸入、輸出( X , Y ) (X,Y) ( X , Y ) 是隨機變量,遵循聯合分佈P ( X , Y ) P(X,Y) P ( X , Y ) ,所以損失函數的期望爲:
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y
R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y
R e x p ( f ) = E P [ L ( Y , f ( X ) ) ] = ∫ X × Y L ( y , f ( x ) ) P ( x , y ) d x d y
這是理論上模型f ( X ) f(X) f ( X ) 關於聯合分佈P ( X , Y ) P(X,Y) P ( X , Y ) 平均意義下的損失,稱爲風險函數 或期望損失 ,用於度量平 均意義下模型預測的好壞。學習的目標就是選擇期望風險最小的模型 。
由於聯合分佈P ( X , Y ) P(X,Y) P ( X , Y ) 未知,R exp ( f ) R_{\exp }(f) R exp ( f ) 不能直接求出。事實上,如果已知P ( X , Y ) P(X,Y) P ( X , Y ) 則可以間接求出條件概 率P ( Y ∣ X ) P(Y|X) P ( Y ∣ X ) ,因此,也不需要學習,正是由於聯合分佈未知,所以才進行學習。一方面,最小化期望風險需要 用到聯合分佈,另一方面。聯合分佈又未知,所以監督學就成爲一個病態問題(ill-formed problem)。
給定訓練數據集T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\} T { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } ,模型f ( X ) f(X) f ( X ) 關於訓練數據集的平均損失稱爲經驗 風險 或經驗損失 , 記爲R e m p R_{e m p} R e m p :
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) )
R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
R e m p ( f ) = N 1 i = 1 ∑ N L ( y i , f ( x i ) )
經驗風險最小化(ERM) :
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) )
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
f ∈ F min N 1 i = 1 ∑ N L ( y i , f ( x i ) )
其中F \mathcal{F} F 是假設空間。當樣本容量足夠大時,經驗風險最小化能保證很好的學習效果,在顯示中被廣泛應 用。如極大似然估計就是經驗風險最小化的一個例子。當模型是條件概率分佈,損失函數是對數損失函數 時,經驗風險最小化等價於極大似然估計 。
結構風險最小化(SRM) :
min f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f )
\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
f ∈ F min N 1 i = 1 ∑ N L ( y i , f ( x i ) ) + λ J ( f )
結構風險最小化是爲了防止過擬合而提出的策略。結構風險最小化等價於正則化。結構風險小的模型往 往對訓練數據集和未知的測試數據集都具有較好的預測。如貝葉斯估計的最大後驗概率估計就是結構風險最 小化的一個例子。當模型是條件概率分佈,損失函數是對數損失函數,模型的複雜度模型的先驗概率表示 時,結構風險最小化等價於最大化後驗概率。
1.4 模型評估與模型選擇
訓練誤差 :
R enp ( f ^ ) = 1 N ∑ i = 1 N L ( y i , f ^ ( x i ) )
R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
R enp ( f ^ ) = N 1 i = 1 ∑ N L ( y i , f ^ ( x i ) )
測試誤差 :
e t e s t = 1 N ′ ∑ i = 1 N ′ L ( y i , f ^ ( x i ) )
e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
e t e s t = N ′ 1 i = 1 ∑ N ′ L ( y i , f ^ ( x i ) )
當損失函數是0-1損失時,測試誤差就成了常見的測試數據集的誤差率:
e t e s t = 1 N ′ ∑ i = 1 N ′ I ( y i ≠ f ^ ( x i ) )
e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right)
e t e s t = N ′ 1 i = 1 ∑ N ′ I ( y i ̸ = f ^ ( x i ) )
相應地,常見的測試數據集的準確率(Accuracy)爲:
r test = 1 N ′ ∑ i = 1 N ′ I ( y i = f ^ ( x i ) )
r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right)
r test = N ′ 1 i = 1 ∑ N ′ I ( y i = f ^ ( x i ) )
顯然:r test + e test = 1 r_{\text { test }}+e_{\text { test }}=1 r test + e test = 1
泛化誤差 :
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y
R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y
R e x p ( f ^ ) = E P [ L ( Y , f ^ ( X ) ) ] = ∫ X × Y L ( y , f ^ ( x ) ) P ( x , y ) d x d y
泛化誤差上界 :1)是樣本容量的函數,當樣本容量增加時,泛化上界趨於0;是假設空間的容量的函 數,假設空間容量越大,模型就越複雜,泛化誤差上界就越大。
定理(泛化誤差上界) :對二分類問題,當假設空間是有限個函數的集合F = { f 1 , f 2 , ⋯  , f d } \mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\} F = { f 1 , f 2 , ⋯ , f d } ,對任意 一個函數的集合f ∈ F f \in \mathcal{F} f ∈ F ,至少以概率1 − δ 1-\delta 1 − δ ,以下不等式成立:
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ )
R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)
R ( f ) ⩽ R ^ ( f ) + ε ( d , N , δ )
ε ( d , N , δ ) = 1 2 N ( log d + log 1 δ )
\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}
ε ( d , N , δ ) = 2 N 1 ( log d + log δ 1 )
其中,期望風險R ( f ) = E [ L ( Y , f ( X ) ) ] R(f)=E[L(Y, f(X))] R ( f ) = E [ L ( Y , f ( X ) ) ] ,經驗風險R ^ ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) \hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) R ^ ( f ) = N 1 ∑ i = 1 N L ( y i , f ( x i ) )