支持向量機:Kernel

這裏寫圖片描述

前面我們介紹了線性情況下的支持向量機,它通過尋找一個線性的超平面來達到對數據進行分類的目的。不過,由於是線性方法,所以對非線性的數據就沒有辦法處理了。例如圖中的兩類數據,分別分佈爲兩個圓圈的形狀,不論是任何高級的分類器,只要它是線性的,就沒法處理,SVM 也不行。因爲這樣的數據本身就是線性不可分的。

對於這個數據集,我可以悄悄透露一下:我生成它的時候就是用兩個半徑不同的圓圈加上了少量的噪音得到的,所以,一個理想的分界應該是一個“圓圈”而不是一條線(超平面)。如果用 X1X2 來表示這個二維平面的兩個座標的話,我們知道一條二次曲線(圓圈是二次曲線的一種特殊情況)的方程可以寫作這樣的形式:

a1X1+a2X21+a3X2+a4X22+a5X1X2+a6=0

注意上面的形式,如果我們構造另外一個五維的空間,其中五個座標的值分別爲Z1=X1,Z2=X21,Z3=X2,Z4=X22,Z5=X1X2 ,那麼顯然,上面的方程在新的座標系下可以寫作:

i=15aiZi+a6=0

關於新的座標Z ,這正是一個 hyper plane 的方程!也就是說,如果我們做一個映射ϕ:R2R5 ,將X 按照上面的規則映射爲Z ,那麼在新的空間中原來的數據將變成線性可分的,從而使用之前我們推導的線性分類算法就可以進行處理了。這正是 Kernel 方法處理非線性問題的基本思想。

再進一步描述 Kernel 的細節之前,不妨再來看看這個例子映射過後的直觀例子。當然,我沒有辦法把 5 維空間畫出來,不過由於我這裏生成數據的時候就是用了特殊的情形,具體來說,我這裏的超平面實際的方程是這個樣子(圓心在X2 軸上的一個正圓):

a1X21+a2(X2c)2+a3=0

因此我只需要把它映射到Z1=X21,Z2=X22,Z3=X2 這樣一個三維空間中即可,下圖(這是一個 gif 動畫)即是映射之後的結果,將座標軸經過適當的旋轉,就可以很明顯地看出,數據是可以通過一個平面來分開的:

這裏寫圖片描述

現在讓我們再回到 SVM 的情形,假設原始的數據時非線性的,我們通過一個映射 ϕ() 將其映射到一個高維空間中,數據變得線性可分了,這個時候,我們就可以使用原來的推導來進行計算,只是所有的推導現在是在新的空間,而不是原始空間中進行。當然,推導過程也並不是可以簡單地直接類比的,例如,原本我們要求超平面的法向量 w ,但是如果映射之後得到的新空間的維度是無窮維的(確實會出現這樣的情況,比如後面會提到的 Gaussian Kernel ),要表示一個無窮維的向量描述起來就比較麻煩。於是我們不妨先忽略過這些細節,直接從最終的結論來分析,回憶一下,我們上一次得到的最終的分類函數是這樣的:

f(x)=i=1nαiyixi,x+b

現在則是在映射過後的空間,即:

f(x)=i=1nαiyiϕ(xi),ϕ(x)+b

而其中的 α 也是通過求解如下 dual 問題而得到的:

maxαi=1nαi12i,j=1nαiαjyiyjϕ(xi),ϕ(xj) s.t.,ai0,i=1,ni=1naiyi=0

這樣一來問題就解決了嗎?似乎是的:拿到非線性數據,就找一個映射 ϕ() ,然後一股腦把原來的數據映射到新空間中,再做線性 SVM 即可。不過若真是這麼簡單,我這篇文章的標題也就白寫了——說了這麼多,其實還沒到正題吶!其實剛纔的方法稍想一下就會發現有問題:在最初的例子裏,我們對一個二維空間做映射,選擇的新空間是原始空間的所有一階和二階的組合,得到了五個維度;如果原始空間是三維,那麼我們會得到 19 維的新空間(驗算一下?),這個數目是呈爆炸性增長的,這給ϕ() 的計算帶來了非常大的困難,而且如果遇到無窮維的情況,就根本無從計算了。所以就需要 Kernel 出馬了。

不妨還是從最開始的簡單例子出發,設兩個向量 x1=(η1,η2)Tx2=(ξ1,ξ2)T ,而ϕ() 即是到前面說的五維空間的映射,因此映射過後的內積爲:

ϕ(x1),ϕ(x2)=η1ξ1+η21ξ21+η2ξ2+η22ξ22+η1η2ξ1ξ2

另外,我們又注意到:

(x1,x2+1)2=2η1ξ1+η21ξ21+2η2ξ2+η22ξ22+2η1η2ξ1ξ2+1

二者有很多相似的地方,實際上,我們只要把某幾個維度線性縮放一下,然後再加上一個常數維度,具體來說,上面這個式子的計算結果實際上和映射

φ(X1,X2)=(2X1,X21,2X2,X22,2X1X2,1)T

之後的內積φ(x1),φ(x2) 的結果是相等的(自己驗算一下)。區別在於什麼地方呢?一個是映射到高維空間中,然後再根據內積的公式進行計算;而另一個則直接在原來的低維空間中進行計算,而不需要顯式地寫出映射後的結果。回憶剛纔提到的映射的維度爆炸,在前一種方法已經無法計算的情況下,後一種方法卻依舊能從容處理,甚至是無窮維度的情況也沒有問題。

我們把這裏的計算兩個向量在映射過後的空間中的內積的函數叫做核函數 (Kernel Function) ,例如,在剛纔的例子中,我們的核函數爲:

κ(x1,x2)=(x1,x2+1)2

核函數能簡化映射空間中的內積運算——剛好“碰巧”的是,在我們的 SVM 裏需要計算的地方數據向量總是以內積的形式出現的。對比剛纔我們寫出來的式子,現在我們的分類函數爲:

i=1nαiyiκ(xi,x)+b

其中α 由如下 dual 問題計算而得:

maxαi=1nαi12i,j=1nαiαjyiyjκ(xi,xj)s.t.,ai0,i=1,ni=1naiyi=0

這樣一來計算的問題就算解決了,避開了直接在高維空間中進行計算,而結果卻是等價的,實在是一件非常美妙的事情!當然,因爲我們這裏的例子非常簡單,所以我可以手工構造出對應於 φ() 的核函數出來,如果對於任意一個映射,想要構造出對應的核函數就很困難了。

最理想的情況下,我們希望知道數據的具體形狀和分佈,從而得到一個剛好可以將數據映射成線性可分的ϕ() ,然後通過這個ϕ() 得出對應的 κ(,) 進行內積計算。

然而,第二步通常是非常困難甚至完全沒法做的。不過,由於第一步也是幾乎無法做到,因爲對於任意的數據分析其形狀找到合適的映射本身就不是什麼容易的事情,所以,人們通常都是“胡亂”選擇映射的,所以,根本沒有必要精確地找出對應於映射的那個核函數,而只需要“胡亂”選擇一個核函數即可——我們知道它對應了某個映射,雖然我們不知道這個映射具體是什麼。由於我們的計算只需要核函數即可,所以我們也並不關心也沒有必要求出所對應的映射的具體形式。 :D

當然,說是“胡亂”選擇,其實是誇張的說法,因爲並不是任意的二元函數都可以作爲核函數,所以除非某些特殊的應用中可能會構造一些特殊的核(例如用於文本分析的文本核,注意其實使用了 Kernel 進行計算之後,其實完全可以去掉原始空間是一個向量空間的假設了,只要核函數支持,原始數據可以是任意的“對象”——比如文本字符串),通常人們會從一些常用的核函數中選擇(根據問題和數據的不同,選擇不同的參數,實際上就是得到了不同的核函數),例如:

  • 多項式核 κ(x1,x2)=(x1,x2+R)d ,顯然剛纔我們舉的例子是這裏多項式核的一個特例(R=1,d=2 )。雖然比較麻煩,而且沒有必要,不過這個核所對應的映射實際上是可以寫出來的,該空間的維度是 (m+dd) ,其中 m 是原始空間的維度。
  • 高斯核κ(x1,x2)=exp(x1x222σ2) ,這個核就是最開始提到過的會將原始空間映射爲無窮維空間的那個傢伙。不過,如果 σ 選得很大的話,高次特徵上的權重實際上衰減得非常快,所以實際上(數值上近似一下)相當於一個低維的子空間;反過來,如果 σ 選得很小,則可以將任意的數據映射爲線性可分——當然,這並不一定是好事,因爲隨之而來的可能是非常嚴重的過擬合問題。不過,總的來說,通過調控參數 σ ,高斯覈實際上具有相當高的靈活性,也是使用最廣泛的核函數之一。
  • 線性核 κ(x1,x2)=x1,x2 ,這實際上就是原始空間中的內積。這個核存在的主要目的是使得“映射後空間中的問題”和“映射前空間中的問題”兩者在形式上統一起來了。

最後,總結一下:對於非線性的情況,SVM 的處理方法是選擇一個核函數 κ(,) ,通過將數據映射到高維空間,來解決在原始空間中線性不可分的問題。由於核函數的優良品質,這樣的非線性擴展在計算量上並沒有比原來複雜多少,這一點是非常難得的。當然,這要歸功於核方法——除了 SVM 之外,任何將計算表示爲數據點的內積的方法,都可以使用核方法進行非線性擴展。

此外,略微提一下,也有不少工作試圖自動構造專門針對特定數據的分佈結構的核函數,感興趣的同學可以參考,比如 NIPS 2003 的 Cluster Kernels for Semi-Supervised Learning 和 ICML 2005 的 Beyond the point cloud: from transductive to semi-supervised learning 等。

發佈了17 篇原創文章 · 獲贊 11 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章