監督學習 | SVM 之非線性支持向量機原理


相關文章:

機器學習 | 目錄

機器學習 | 網絡搜索及可視化

監督學習 | SVM 之線性支持向量機原理

監督學習 | SVM 之支持向量機Sklearn實現

1. 非線性支持向量機

對解線性分類問題,線性分類支持向量機是一種非常有效的方法。但是,有時分類問題是非線性的,這時可以使用非線性支持向量機(non-linear support vector machine)。

非線性分類問題是指通過利用非線性模型才能很好地進行分類的問題。如下圖所示,這是一個分類問題,無法用直線(線性模型)將正負實例正確分開,但可以用一條橢圓(非線性模型)將它們正確分開。[1]

圖1 非線性分類問題與核技巧示例

再看一個“異或”問題,同樣也不是線性可分的:

圖2 異或問題與非線性映射

對這樣的問題,可將樣本從原始空間映射到一個更高維的特徵空間,使得樣本在這個特徵空間內線性可分。如圖 2 所示,若將原始的二維空間映射到一個合適的三維空間,就可以找到一個合適的劃分超平面。當原始空間是有限維(即屬性數是有限的),那麼一定存在一個高維特徵空間使樣本可分。

ϕ(x)\phi(x) 表示將 xx 映射後的特徵向量,於是,在特徵空間中劃分超平面模型可表示爲:

(1)f(x)=wTϕ(x)+bf(x)=w^T\phi(x)+b \tag{1}

線性可分支持向量機的原始問題變爲:

(2)minw,b12w2 s.t. yi(wTϕ(xi)+b)10,i=1,2, ,N \begin{array}{ll}{\min \limits_{w, b}} & {\frac{1}{2}\|w\|^{2}} \tag{2}\\ {\text { s.t. }} & {y_{i}\left(w^T \phi(x_i)+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, N}\end{array}

其對偶問題爲:

(3)maxαi=1Nαi12i=1Nj=1Nαiαjyiyjϕ(xi)Tϕ(xj) s.t. i=1Nαiyi=0αi0,i=1,2, ,N \begin{array}{ll}{\max \limits_{\alpha}} & { \sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)} \tag{3}\\ {\text { s.t. }} & {\sum_{i=1}^N\alpha_iy_i=0}\\ & {\alpha_i\geqslant 0, \quad i=1,2,\cdots,N}\end{array}

1.1 核技巧

求解 (2) 涉及到計算 ϕ(xi)Tϕ(xj)\phi(x_i)^T\phi(x_j),這是樣本 xix_ixjx_j 映射到特徵空間之後的內積。由於特徵空間維數可能很高,設置可能是無窮維,因此直接計算 ϕ(xi)Tϕ(xj)\phi(x_i)^T\phi(x_j) 通常是困難的。爲了避開這個障礙,可以設想這樣一個函數:

(4)k(xi,xj)=ϕ(xi)Tϕ(xj)k(x_i,x_j)= \phi(x_i)^T\phi(x_j)\tag{4}

核技巧xix_ixjx_j 在特徵空間的內積等於它們在原始樣本空間中通過函數 k(,)k(\cdot,\cdot) 計算的結果,於是 (3)可以重寫爲:

(5)maxαi=1Nαi12i=1Nj=1Nαiαjyiyjk(,) s.t. i=1Nαiyi=0αi0,i=1,2, ,N \begin{array}{ll}{\max \limits_{\alpha}} & { \sum_{i=1}^N\alpha_i-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j k(\cdot,\cdot)}\\ {\text { s.t. }} & {\sum_{i=1}^N\alpha_iy_i=0}\\ & {\alpha_i\geqslant 0, \quad i=1,2,\cdots,N} \end{array}\tag{5}

求解後即可得到:

(6)f(x)=wTϕ(x)+b=i=1Nαiyiϕ(xi)Tϕ(x)+b=i=1Nαiyik(x,xi)+b \begin{array}{ll} {f(x)} &= {w^T\phi(x)+b} \\ &= {\sum_{i=1}^N{\alpha_iy_i\phi(x_i)^T\phi(x)+b}} \\ &= {\sum_{i=1}^N\alpha_iy_ik(x,x_i)+b}\\ \end{array}\tag{6}

這裏的函數 k(,)k(\cdot,\cdot) 就是“核函數”(kernel function)。上式顯示出模型最優解可以通過訓練樣本的核函數展開,這一展開式又稱爲支持向量展式(support vector expansion)。

1.2 核函數

定理(核函數):令 XX 爲輸入空間,k(,)k(\cdot,\cdot) 是定義在 X×XX\times X 上的對稱函數,則 kk 是核函數當且僅當對於任意數據 D={x1,x2,xm}D=\{x_1,x_2,\cdots x_m \},“核矩陣”(kernel matrix)KK 總是半正定的:[2]

(7)K=[κ(x1,x1)κ(x1,xj)κ(x1,xm)κ(xi,x1)κ(xi,xj)κ(xi,xm)κ(xm,x1)κ(xm,xj)κ(xm,xm)] \mathbf{K}=\left[\begin{array}{ccccc}{\kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{1}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{j}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{1}, \boldsymbol{x}_{m}\right)} \\ {\vdots} & {\ddots} & {\vdots} & {\ddots} & {\vdots} \\ {\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{1}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{m}\right)} \\ {\vdots} & {\ddots} & {\vdots} & {\ddots} & {\vdots} \\ {\kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{1}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{j}\right)} & {\cdots} & {\kappa\left(\boldsymbol{x}_{m}, \boldsymbol{x}_{m}\right)}\end{array}\right] \tag{7}

這個定理表明,只要一個對稱函數所對應的核矩陣半正定,它就能作爲核函數使用。事實上,對於一個半正定核矩陣,總能找到一個與之對應的映射 ϕ\phi 。換言之,任何一個核函數都隱式地定義了一個稱爲“再生核希爾伯特空間”(RKHS, Reproducing Kernel Hilbert Space)的特徵空間。

1.2.1 核函數選擇

通過前面討論我們知道,我們希望樣本在特徵空間內線性可分,因此特徵空間的好壞對支持向量機的性能直觀重要。需要注意的是,在不知道特徵映射的形式時,我們並不知道什麼樣的核函數時合適的,而核函數也僅是隱式地定義了這個特徵空間。於是,“核函數選擇”稱爲支持向量機的最大變數。若核函數選擇不合適,則意味着將樣本映射到了一個不合適的特徵空間,很可能導致性能不佳。

表1 常用核函數

對文本數據通常採用線性核;情況不明時可先嚐試高斯核(RBF 核)

此外,還可以通過函數組合得到,例如:

  • k1k_1k1k_1 爲核函數,則對於任意正數 γ1,γ2\gamma_1, \gamma_2,其線性組合:

(8)γ1k1+γ2k2\gamma_1 k_1 + \gamma_2 k_2 \tag{8}

也是核函數;
  • k1k_1k1k_1 爲核函數,則核函數的直積:

(9)k1k2(x,z)=k1(x,z)k2(x,z)k_1 \otimes k_2(x,z)=k_1(x,z)k_2(x,z) \tag{9}

也是核函數;
  • k1k_1 爲核函數,則對於任意函數 g(x)g(x)

(10)k(x,z)=g(x)k1(x,z)g(z)k(x,z)=g(x)k_1(x,z)g(z) \tag{10}

也是核函數。

1.2.2 RBF 函數

首先來看一個例子,假設我們要將一組直線上的數據進行分類,但由於它們是非線性的,因此需要利用核函數將數據變換爲線性可分的數據。

圖3 非線性數據

我們通過一條曲線將直線上的數據投射到一個平面上,可以看見,所有的正實例都被投射到了曲線的頂端,而所有的負實例都被投射到了曲線的低端,因此這時我們就可以利用線性可分支持向量機找出分類超平面。

圖4 高斯核函數變換後的線性可分數據

那麼這條曲線是怎麼構造出來的呢,這裏就要介紹一個函數:徑向基函數(RBF Radial Basis Function)。

所謂徑向基函數,就是某種沿徑向對稱的標量函數。通常定義爲空間中任一點 xx 到某中心 xcx_c 之間歐式距離的單調函數,可以記爲 k(x,xc)k(x,x_c),其作用往往是局部的,即當 xx 原理 xcx_c 時函數取值很小。

最常用的徑向基函數是高斯徑向基函數

(11)k(x,xc)=exp(xxc22σ2) k(x,x_c) = exp(-\frac{\|x-x_c\|^2}{2\sigma^2}) \tag{11}

當我們使用高斯徑向基函數作爲核函數時,就稱之爲高斯核函數

它的圖像與高斯分佈 y=1σ2πe(xμ)22σ2y=\frac{1}{\sigma \sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} 相似,在高斯分佈中,其分佈被參數 σ\sigmaμ\mu 唯一確定,當 σ\sigma 越大時,圖像越矮胖;當 σ\sigma 越小時,圖像越高瘦。

圖5 正態分佈圖

類似地,我們在高斯徑向基函數中使用 gamma 參數來決定圖像的高瘦或矮胖:

(12)γ=12σ2\gamma = \frac{1}{2\sigma^2} \tag{12}

γ\gamma 越大時,圖像越高瘦;當 γ\gamma 越小時,圖像越矮瘦:

圖6 參數 gamma 的大小對圖像的影響

在高維數據中也相似:

圖7 高維度下參數 gamma 的大小對圖像的影響

此時超平面的截面即爲分類數據的邊界:

圖8 參數 gamma 的大小對擬合程度的影響

當我們使用高斯核函數時,此時的非線性支持向量機則由參數 γ\gamma 和懲罰參數 CC 所確定:

γ\gamma 越大時,越有可能過擬合;當 γ\gamma 越小時,越有可能欠擬合;

CC 越大時,對誤分類的懲罰越大;當 CC 越小時,對誤分類的懲罰越小。

由於 SVM 模型沒有先驗信息,所以可以使用網絡搜索來確定參數大小。

現在我們可以回答開頭的例子中曲線時怎麼擬合出來的了,我們通過在每一個數據點上使用一個高斯核函數,可以將數據分爲兩類,接着用一個連續平滑的曲線將這些圖形連接起來,就得到了曲線:

圖8 利用高斯核函數將數據線性化
圖9 數據投射的曲線

參考資料

[1] 李航. 統計學習方法[M]. 北京: 清華大學出版社, 2012: 115-116.

[2] 周志華. 機器學習[M]. 北京: 清華大學出版社, 2016: 127-129.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章