機器學習 複習筆記6 (第六章 支持向量機)

本篇博客的開始給大家推薦一篇非常好的介紹支持向量機的博文,這篇博文中對很多細節有詳盡的描述

傳送門:支持向量機通俗導論

6.1 間隔與支持向量(填空、問答)

超平面方程定義:\small \boldsymbol{w}^{T}\boldsymbol{x} +b=0,其中法向量w決定了超平面的方向,位移項b決定了超平面與原點之間的距離

樣本空間中任意點\small x到超平面\small (w,b)的距離爲:\small r=\frac{\boldsymbol{w}^{T}\boldsymbol{x}+b}{\left \| \boldsymbol{w} \right \|}

若超平面能夠將訓練樣本正確分類,即對於訓練集中的樣本,若\small y_{i}=+1,則有\small \boldsymbol{w}^{T}\boldsymbol{x} +b>0,若\small y_{i}=-1,則有\small \boldsymbol{w}^{T}\boldsymbol{x} +b<0令:

\small \small \left\{\begin{matrix} \boldsymbol{w}^{T}\boldsymbol{x} +b\geq +1, y_{i}=+1 \\ \boldsymbol{w}^{T}\boldsymbol{x} +b\leq -1, y_{i}=-1 \end{matrix}\right.

支持向量:處於邊界上的點,即使上式等式成立

間隔:兩個一類支持向量到超平面的距離之和\small \gamma =\frac{2}{\left \| \boldsymbol{w} \right \|}

間隔示意圖
間隔示意圖

6.2 對偶問題(問答、理解)

問題構建

使用拉格朗日乘子法(對偶法)

  • 第一步:引入拉格朗日乘子\small a_{i}\geq 0得到拉格朗日函數

  • 第二步:令對w和b的偏導爲零可得

  • 第三步:回代

s.t.意爲約束於……

目的

尋找參數\small w\small b,使得\small \gamma最大

由上式解出\small a後,即可根據下式求出\small w\small b

,

互補鬆弛

KKT條件裏,只要對偶變量與原問題約束相乘項相乘等於0的表達式,都是互補鬆弛。因爲相乘的兩項只有一項需要等於零。

解的稀疏性

支持向量機解的稀疏性:訓練完成後,大部分的訓練樣本都不需保留,最終模型僅與支持向量有關。

6.3 核函數(填空)

核映射

支持向量機首先在低維空間中完成計算,然後通過核函數將輸入空間映射到高維特徵空間,令\small \phi \left ( \boldsymbol{x} \right )表示將\small \boldsymbol{x}映射後的特徵向量,於是,在特徵空間中劃分超平面所對應的模型可表示爲:

f\left ( x \right )=\boldsymbol{w}^{T}\phi \left ( \boldsymbol{x} \right )+b

常見核函數

常用核函數
常用核函數

 

 

6.4 軟間隔與正則化(辨析)

軟間隔的概念

引入“軟間隔”的概念,允許支持向量機在一些樣本上不滿足約束,以環節高位映射較難確定和可能的過擬合問題

軟間隔示意圖
軟間隔示意圖

損失函數

由於軟間隔允許某些樣本不滿足約束:\small y_{i}\left (\boldsymbol{w}^{T}\boldsymbol{x_{i}} +b \right )\geq +1,而又希望不滿足約束的樣本儘可能少,於是優化目標可以寫爲:

\small \begin{matrix}min \\ w,b \end{matrix}\frac{1}{2}\left \| w \right \|^{2}+C\sum_{i=1}^{m}\iota _{0/1}\left ( y_{i}\left ( \boldsymbol{w^{T}x_{i}}+b \right )-1 \right ),其中\small \iota _{0/1}是“0/1損失函數”

而0/1損失函數非凸、非連續,不宜優化,實際更常用以下計中損失函數:

三種常見的替代損失函數
三種常見的替代損失函數

 

互補鬆弛

對於使用hinge損失函數的軟間隔支持向量機,KKT條件要求:

\small \left\{\begin{matrix} a_{i}\geq 0,\mu _{i}\geq 0, \\ y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i}\geq 0, \\ a_{i}\left ( y_{i}f\left ( \boldsymbol{x_{i}} \right )-1+\xi _{i} \right )=0, \\ \xi _{i}\geq 0,\mu _{i} \xi _{i}=0 \end{matrix}\right.

可以看出KKT條件推導出的最終模型也僅與支持向量有關,也即hinge損失函數依然保持了支持向量機解的稀疏性

正則化

6.5 支持向量迴歸(填空、問答)

SVR特點:允許模型輸出和真實輸出間存在\small 2\epsilon的偏差,且同樣具有互補鬆弛的形式、具有解的稀疏性

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章