統計學習方法——第1章統計學習方法概論

原創

qq_37172182

2020-06-25 22:04

統計學習方法

第一章統計學習方法概論

1.1 統計學習

對象：數據。基本假設：同類數據具有一定的統計規律性。

**統計學習方法三要素：**模型、策略、算法

**統計學習的組成：**監督學習、非監督學習、半監督學習、強化學習

1.2 監督學習

**輸入空間：**輸入的所有可能的取值的集合

**輸出空間：**輸出的所有可能的取值的集合

**特徵空間：**每一個具體的實例由一個特徵向量表示，所有特徵向量的空間稱爲特徵空間

實例 $x$ 的特徵向量： $x = (x^{(1)},x^{(2)}, ..., x^{(n)})$ ，其中， $x^{(i)}$ 表示第 $i$ 個特徵

第 $i$ 個輸入變量： $x_i = (x_i^{(1)},x_i^{(2)},...,x_i^{(n)})^T$ ,通常用列向量表示

訓練集： $T =((x_1,y_1), (x_2,y_2),...,(x_n,y_n))$

迴歸問題：輸入變量與輸出變量均爲連續變量的預測問題

分類問題：輸出變量爲有限個離散變量的預測問題

標註問題：輸入與輸出均爲變量序列的預測問題

聯合概率分佈： $P(X,Y)$ 是輸入 $X$ 和輸出 $Y$ 的聯合概率分佈分佈函數或分佈密度函數， $X$ 和 $Y$ 具有聯合概率分佈的假設是監督學習關於數據的基本假設

監督學習的模型

1、概率模型：由條件概率 $P(X,Y)$ 確定，預測： $P(y|x)$

2、非概率模型：由決策函數 $Y = f(X)$ 表示，預測： $y = f(x)$

3、生成模型：生成方法由數據學習的聯合概率分佈 $P(X,Y)$ ,然後求出條件概率 $P(Y|X)$ 作爲預測的模型。即生成模型： $P(Y | X)=\frac{P(X, Y)}{P(X)}$ ,該模型表示在給定輸入 $X$ 產生輸出 $Y$ 的生成關係。典型的生成模型有：樸素貝葉斯法和隱馬爾可夫模型。

4、判別模型：由數據直接學習決策函數 $f(X)$ 或者條件概率分佈 $P(Y|X)$ 作爲預測模型。判別模型關心的是給定的輸入 $X$ ,應該預測什麼樣的輸出 $Y$ 。典型的判別模型有：k近鄰法，感知機，決策樹，logistics迴歸，最大熵模型，支持向量機，提升方法和條件隨機場。

1.3 統計學習方法三要素

$方法 = 模型 + 策略 + 算法$

在監督學習中，模型就是所要學習的條件概率分佈或決策函數，模型的假設空間包含所有的條件概率分布或決策函數。假設空間用 $\mathcal{F}$ 表示，假設空間可以定義爲條件概率分佈/決策函數的集合：
$\mathcal F = \{P|P(X,Y)\} \ \ OR \ \ \mathcal F = \{f|Y = f(X) \}$
其中 $X$ 和 $Y$ 表示定義在輸入空間和 $\mathcal{X}$ 輸出空間 $\mathcal{Y}$ 上的變量，這是 $\mathcal{F}$ 通常是一個由參數向量決定的函數族：
$\mathcal{F}=\left\{P\left|P_{\theta}(Y | X), \theta \in \mathbf{R}^{n}\right\}\right . \ \ \ OR \ \ \mathcal{F}=\left\{f | Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}$
參數向量 $\theta$ 取值與 $n$ 維歐式空間 $\mathbf{R}^n$ ,稱爲參數空間

在監督學習中，策略就是考慮按照什麼樣的準則學習或選擇最優模型。

損失函數：是 $f(X)$ 和 $Y$ 的非負實值函數，記爲 $L(Y, f(X))$ ，度量模型一次預測的好壞

序號	類型	表達式
（1）	0 - 1損失函數	$L(Y, f(X))=\left\{\begin{array}{ll}{1,} & {Y \neq f(X)} \\ {0,} & {Y=f(X)}\end{array}\right.$
（2）	平方損失函數	$L(Y, f(X))=(Y-f(X))^{2}$
（3）	絕對損失函數	$L(Y, f(X))=
（4）	對數（似然）損失函數	$L(Y, P(Y)) = -\log P(Y)$

輸入、輸出 $(X,Y)$ 是隨機變量，遵循聯合分佈 $P(X,Y)$ ,所以損失函數的期望爲：
$R_{\mathrm{exp}}(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x d y$
這是理論上模型 $f(X)$ 關於聯合分佈 $P(X,Y)$ 平均意義下的損失，稱爲風險函數或期望損失，用於度量平均意義下模型預測的好壞。學習的目標就是選擇期望風險最小的模型。

由於聯合分佈 $P(X,Y)$ 未知， $R_{\exp }(f)$ 不能直接求出。事實上，如果已知 $P(X,Y)$ 則可以間接求出條件概率 $P(Y|X)$ ，因此，也不需要學習，正是由於聯合分佈未知，所以才進行學習。一方面，最小化期望風險需要用到聯合分佈，另一方面。聯合分佈又未知，所以監督學就成爲一個病態問題（ill-formed problem）。

給定訓練數據集 $T \{(x_1,y_1), (x_2,y_2),...,(x_n,y_n)\}$ ，模型 $f(X)$ 關於訓練數據集的平均損失稱爲經驗風險或經驗損失，記爲 $R_{e m p}$ :
$R_{\mathrm{emp}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
經驗風險最小化(ERM)：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$
其中 $\mathcal{F}$ 是假設空間。當樣本容量足夠大時，經驗風險最小化能保證很好的學習效果，在顯示中被廣泛應用。如極大似然估計就是經驗風險最小化的一個例子。當模型是條件概率分佈，損失函數是對數損失函數時，經驗風險最小化等價於極大似然估計。

結構風險最小化(SRM)：
$\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f)$
結構風險最小化是爲了防止過擬合而提出的策略。結構風險最小化等價於正則化。結構風險小的模型往往對訓練數據集和未知的測試數據集都具有較好的預測。如貝葉斯估計的最大後驗概率估計就是結構風險最小化的一個例子。當模型是條件概率分佈，損失函數是對數損失函數，模型的複雜度模型的先驗概率表示時，結構風險最小化等價於最大化後驗概率。

1.4 模型評估與模型選擇

訓練誤差：
$R_{\text { enp }}(\hat{f})=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$
測試誤差：
$e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} L\left(y_{i}, \hat{f}\left(x_{i}\right)\right)$
當損失函數是0-1損失時，測試誤差就成了常見的測試數據集的誤差率：
$e_{\mathrm{test}}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i} \neq \hat{f}\left(x_{i}\right)\right)$
相應地，常見的測試數據集的準確率（Accuracy）爲：
$r_{\text { test }}=\frac{1}{N^{\prime}} \sum_{i=1}^{N^{\prime}} I\left(y_{i}=\hat{f}\left(x_{i}\right)\right)$
顯然： $r_{\text { test }}+e_{\text { test }}=1$

泛化誤差：
$R_{\mathrm{exp}}(\hat f)=E_{P}[L(Y, \hat f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, \hat f(x)) P(x, y) \mathrm{d} x d y$
泛化誤差上界：1）是樣本容量的函數，當樣本容量增加時，泛化上界趨於0；是假設空間的容量的函數，假設空間容量越大，模型就越複雜，泛化誤差上界就越大。

定理（泛化誤差上界）：對二分類問題，當假設空間是有限個函數的集合 $\mathcal{F}=\left\{f_{1}, f_{2}, \cdots, f_{d}\right\}$ ，對任意一個函數的集合 $f \in \mathcal{F}$ ，至少以概率 $1-\delta$ ，以下不等式成立：
$R(f) \leqslant \hat{R}(f)+\varepsilon(d, N, \delta)$

$\varepsilon(d, N, \delta)=\sqrt{\frac{1}{2 N}\left(\log d+\log \frac{1}{\delta}\right)}$

其中，期望風險 $R(f)=E[L(Y, f(X))]$ ,經驗風險 $\hat{R}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

統計學習方法——第1章統計學習方法概論

統計學習方法

第一章統計學習方法概論

1.1 統計學習

1.2 監督學習

1.3 統計學習方法三要素

1.4 模型評估與模型選擇

2024年DataOps趨勢預測：AI不會取代數據工程師

雲原生週刊：K8s 中的服務和網絡｜ 2024.4.29

通過Http鏈接地址爬取有贊微信商城商品信息及下載至EXCEL

多人同時導出 Excel 幹崩服務器！新來的阿里大佬給出的解決方案太優雅了！

[轉帖]cpupower

今天，昨天，近七天，近30天，近90天，js封裝

華爲云云原生FinOps解決方案，釋放雲原生最大價值

Pytorch實例----NLP之文本分類

統計學習方法——第1章統計學習方法概論

統計學習方法——第2章感知機模型

Pytorch學習基礎——LSTM從訓練到測試

統計學習方法——第2章感知機模型編程實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計學習方法——第1章 統計學習方法概論

統計學習方法

第一章 統計學習方法概論

1.1 統計學習

1.2 監督學習

1.3 統計學習方法三要素

1.4 模型評估與模型選擇

統計學習方法——第1章統計學習方法概論

第一章統計學習方法概論