機器學習複習筆記6 （第六章支持向量機）

原創

果菌药

2020-02-26 05:01

本篇博客的開始給大家推薦一篇非常好的介紹支持向量機的博文，這篇博文中對很多細節有詳盡的描述

傳送門：支持向量機通俗導論

6.1 間隔與支持向量（填空、問答）

超平面方程定義： $\small \boldsymbol{w}^{T}\boldsymbol{x} +b=0$ ,其中法向量w決定了超平面的方向，位移項b決定了超平面與原點之間的距離

樣本空間中任意點 $\small x$ 到超平面 $\small (w,b)$ 的距離爲： $\small r=\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{\left \| \boldsymbol{w} \right \|}$

若超平面能夠將訓練樣本正確分類，即對於訓練集中的樣本，若 $\small y_{i}=+1$ ，則有 $\small \boldsymbol{w}^{T}\boldsymbol{x} +b>0$ ，若 $\small y_{i}=-1$ ,則有 $\small \boldsymbol{w}^{T}\boldsymbol{x} +b<0$ 令：

$\small \small \left\{\begin{matrix} \boldsymbol{w}^{T}\boldsymbol{x} +b\geq +1, y_{i}=+1 \\ \boldsymbol{w}^{T}\boldsymbol{x} +b\leq -1, y_{i}=-1 \end{matrix}\right.$

支持向量：處於邊界上的點，即使上式等式成立

間隔：兩個一類支持向量到超平面的距離之和 $\small \gamma =\frac{2}{\left \| \boldsymbol{w} \right \|}$

6.2 對偶問題（問答、理解）

問題構建

使用拉格朗日乘子法（對偶法）

第一步：引入拉格朗日乘子 $\small a_{i}\geq 0$ 得到拉格朗日函數

第二步：令對w和b的偏導爲零可得

第三步：回代

目的

尋找參數 $\small w$ 和 $\small b$ ，使得 $\small \gamma$ 最大

由上式解出 $\small a$ 後，即可根據下式求出 $\small w$ 和 $\small b$

互補鬆弛

KKT條件裏，只要對偶變量與原問題約束相乘項相乘等於0的表達式，都是互補鬆弛。因爲相乘的兩項只有一項需要等於零。

解的稀疏性

支持向量機解的稀疏性：訓練完成後，大部分的訓練樣本都不需保留，最終模型僅與支持向量有關。

6.3 核函數（填空）

核映射

支持向量機首先在低維空間中完成計算，然後通過核函數將輸入空間映射到高維特徵空間，令 $\small \phi \left ( \boldsymbol{x} \right )$ 表示將 $\small \boldsymbol{x}$ 映射後的特徵向量，於是，在特徵空間中劃分超平面所對應的模型可表示爲：

$f\left ( x \right )=\boldsymbol{w}^{T}\phi \left ( \boldsymbol{x} \right )+b$

常見核函數

6.4 軟間隔與正則化（辨析）

軟間隔的概念

引入“軟間隔”的概念，允許支持向量機在一些樣本上不滿足約束，以環節高位映射較難確定和可能的過擬合問題

損失函數

由於軟間隔允許某些樣本不滿足約束： $\small y_{i}\left (\boldsymbol{w}^{T}\boldsymbol{x_{i}} +b \right )\geq +1$ ，而又希望不滿足約束的樣本儘可能少，於是優化目標可以寫爲：

$\small \begin{matrix}min \\ w,b \end{matrix}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{m}\iota _{0/1}\left ( y_{i}\left ( \boldsymbol{w^{T}x_{i}}+b \right )-1 \right )$ ,其中 $\small \iota _{0/1}$ 是“0/1損失函數”

而0/1損失函數非凸、非連續，不宜優化，實際更常用以下計中損失函數：

互補鬆弛

對於使用hinge損失函數的軟間隔支持向量機，KKT條件要求：

$\small \left\{\begin{matrix} a_{i}\geq 0,\mu _{i}\geq 0, \\ y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i}\geq 0, \\ a_{i}\left ( y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i} \right )=0, \\ \xi _{i}\geq 0,\mu _{i} \xi _{i}=0 \end{matrix}\right.$

可以看出KKT條件推導出的最終模型也僅與支持向量有關，也即hinge損失函數依然保持了支持向量機解的稀疏性

正則化

6.5 支持向量迴歸（填空、問答）

SVR特點：允許模型輸出和真實輸出間存在 $\small 2\epsilon$ 的偏差，且同樣具有互補鬆弛的形式、具有解的稀疏性

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習複習筆記6 （第六章支持向量機）

6.1 間隔與支持向量（填空、問答）

6.2 對偶問題（問答、理解）

問題構建

目的