統計學習方法——第1章 統計學習方法概論

統計學習方法

第一章 統計學習方法概論

1.1 統計學習

對象:數據。基本假設同類數據具有一定的統計規律性

​ **統計學習方法三要素:**模型、策略、算法

​ **統計學習的組成:**監督學習、非監督學習、半監督學習、強化學習

1.2 監督學習

**輸入空間:**輸入的所有可能的取值的集合

**輸出空間:**輸出的所有可能的取值的集合

**特徵空間:**每一個具體的實例由一個特徵向量表示,所有特徵向量的空間稱爲特徵空間

​ 實例xx的特徵向量:x=(x(1),x(2),...,x(n))x = (x^{(1)},x^{(2)}, ..., x^{(n)}),其中,x(i)x^{(i)}表示第ii個特徵

​ 第ii個輸入變量:xi=(xi(1),xi(2),...,xi(n))Tx_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T,通常用列向量表示

​ 訓練集:T=((x1,y1),(x2,y2),...,(xn,yn))T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n))

迴歸問題:輸入變量與輸出變量均爲連續變量的預測問題

分類問題:輸出變量爲有限個離散變量的預測問題

標註問題:輸入與輸出均爲變量序列的預測問題

聯合概率分佈P(X,Y)P(X,Y)是輸入XX和輸出YY的聯合概率分佈分佈函數或分佈密度函數,XXYY具有聯合概率分佈的假設是監督學習關於數據的基本假設

監督學習的模型

1、概率模型:由條件概率P(X,Y)P(X,Y)確定,預測:P(yx)P(y|x)

2、非概率模型:由決策函數Y=f(X)Y = f(X)表示,預測:y=f(x)y = f(x)

3、生成模型:生成方法由數據學習的聯合概率分佈P(X,Y)P(X,Y),然後求出條件概率P(YX)P(Y|X)作爲預測的模 型。即生成模型:P(YX)=P(X,Y)P(X)P(Y | X)=\frac{P(X, Y)}{P(X)},該模型表示在給定輸入XX產生輸出YY的生成關係。典型的生成模型有: 樸素貝葉斯法和隱馬爾可夫模型。

4、判別模型:由數據直接學習決策函數f(X)f(X)或者條件概率分佈P(YX)P(Y|X)作爲預測模型。判別模型關心的 是給定的輸入XX,應該預測什麼樣的輸出YY。典型的判別模型有:k近鄰法,感知機,決策樹,logistics迴歸, 最大熵模型,支持向量機,提升方法和條件隨機場。

1.3 統計學習方法三要素

=++ 方法 = 模型 + 策略 + 算法

​ 在監督學習中,模型就是所要學習的條件概率分佈或決策函數,模型的假設空間包含所有的條件概率分 布或決策函數。假設空間用F\mathcal{F}表示,假設空間可以定義爲條件概率分佈/決策函數的集合:
F={PP(X,Y)}  OR  F={fY=f(X)} \mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \}
​ 其中XXYY表示定義在輸入空間和X\mathcal{X}輸出空間Y\mathcal{Y}上的變量,這是F\mathcal{F}通常是一個由參數向量決定的函數族:
F={PPθ(YX),θRn}   OR  F={fY=fθ(X),θRn} \mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}
​ 參數向量θ\theta取值與nn維歐式空間Rn\mathbf{R}^n,稱爲參數空間

​ 在監督學習中,策略就是考慮按照什麼樣的準則學習或選擇最優模型。

損失函數:是f(X)f(X)YY的非負實值函數,記爲L(Y,f(X))L(Y, f(X)),度量模型一次預測的好壞

序號 類型 表達式
(1) 0 - 1損失函數 L(Y,f(X))={1,Yf(X)0,Y=f(X)L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.
(2) 平方損失函數 L(Y,f(X))=(Yf(X))2L(Y, f(X))=(Y-f(X))^{2}
(3) 絕對損失函數 $L(Y, f(X))=
(4) 對數(似然)損失函數 L(Y,P(Y))=logP(Y)L(Y, P(Y)) = -\log P(Y)

​ 輸入、輸出(X,Y)(X,Y)是隨機變量,遵循聯合分佈P(X,Y)P(X,Y),所以損失函數的期望爲:
Rexp(f)=EP[L(Y,f(X))]=X×YL(y,f(x))P(x,y)dxdy R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y
​ 這是理論上模型f(X)f(X)關於聯合分佈P(X,Y)P(X,Y)平均意義下的損失,稱爲風險函數期望損失,用於度量平 均意義下模型預測的好壞。學習的目標就是選擇期望風險最小的模型

​ 由於聯合分佈P(X,Y)P(X,Y)未知,Rexp(f)R_{\exp }(f)不能直接求出。事實上,如果已知P(X,Y)P(X,Y)則可以間接求出條件概 率P(YX)P(Y|X),因此,也不需要學習,正是由於聯合分佈未知,所以才進行學習。一方面,最小化期望風險需要 用到聯合分佈,另一方面。聯合分佈又未知,所以監督學就成爲一個病態問題(ill-formed problem)。

​ 給定訓練數據集T{(x1,y1),(x2,y2),...,(xn,yn)}T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\},模型f(X)f(X)關於訓練數據集的平均損失稱爲經驗 風險經驗損失, 記爲RempR_{e m p}:
Remp(f)=1Ni=1NL(yi,f(xi)) R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
經驗風險最小化(ERM)
minfF1Ni=1NL(yi,f(xi)) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)
​ 其中F\mathcal{F}是假設空間。當樣本容量足夠大時,經驗風險最小化能保證很好的學習效果,在顯示中被廣泛應 用。如極大似然估計就是經驗風險最小化的一個例子。當模型是條件概率分佈,損失函數是對數損失函數 時,經驗風險最小化等價於極大似然估計

結構風險最小化(SRM)
minfF1Ni=1NL(yi,f(xi))+λJ(f) \min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)
​ 結構風險最小化是爲了防止過擬合而提出的策略。結構風險最小化等價於正則化。結構風險小的模型往 往對訓練數據集和未知的測試數據集都具有較好的預測。如貝葉斯估計的最大後驗概率估計就是結構風險最 小化的一個例子。當模型是條件概率分佈,損失函數是對數損失函數,模型的複雜度模型的先驗概率表示 時,結構風險最小化等價於最大化後驗概率。

1.4 模型評估與模型選擇

訓練誤差
R enp (f^)=1Ni=1NL(yi,f^(xi)) R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
測試誤差
etest=1Ni=1NL(yi,f^(xi)) e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)
​ 當損失函數是0-1損失時,測試誤差就成了常見的測試數據集的誤差率:
etest=1Ni=1NI(yif^(xi)) e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right)
​ 相應地,常見的測試數據集的準確率(Accuracy)爲:
r test =1Ni=1NI(yi=f^(xi)) r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right)
​ 顯然:r test +e test =1r_{\text { test }}+e_{\text { test }}=1

泛化誤差
Rexp(f^)=EP[L(Y,f^(X))]=X×YL(y,f^(x))P(x,y)dxdy R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y
泛化誤差上界:1)是樣本容量的函數,當樣本容量增加時,泛化上界趨於0;是假設空間的容量的函 數,假設空間容量越大,模型就越複雜,泛化誤差上界就越大。

定理(泛化誤差上界):對二分類問題,當假設空間是有限個函數的集合F={f1,f2, ,fd}\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\},對任意 一個函數的集合fFf \in \mathcal{F},至少以概率1δ1-\delta,以下不等式成立:
R(f)R^(f)+ε(d,N,δ) R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)

ε(d,N,δ)=12N(logd+log1δ) \varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}

其中,期望風險R(f)=E[L(Y,f(X))]R(f)=E[L(Y, f(X))],經驗風險R^(f)=1Ni=1NL(yi,f(xi))\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章