支持向量機SVM(三)

7 核函數(Kernels)

考慮我們最初在“線性迴歸”中提出的問題,特徵是房子的面積x,這裏的x是實數,結果y是房子的價格。假設我們從樣本點的分佈中看到x和y符合3次曲線,那麼我們希望使用x的三次多項式來逼近這些樣本點。那麼首先需要將特徵x擴展到三維clip_image002[6],然後尋找特徵和結果之間的模型。我們將這種特徵變換稱作特徵映射(feature mapping)。映射函數稱作clip_image004[10],在這個例子中

clip_image006[6]

我們希望將得到的特徵映射後的特徵應用於SVM分類,而不是最初的特徵。這樣,我們需要將前面clip_image008[4]公式中的內積從clip_image010[16],映射到clip_image012[42]

至於爲什麼需要映射後的特徵而不是最初的特徵來參與計算,上面提到的(爲了更好地擬合)是其中一個原因,另外的一個重要原因是樣例可能存在線性不可分的情況,而將特徵映射到高維空間後,往往就可分了。(在《數據挖掘導論》Pang-Ning Tan等人著的《支持向量機》那一章有個很好的例子說明)

將核函數形式化定義,如果原始特徵內積是clip_image014[4],映射後爲clip_image016[6],那麼定義核函數(Kernel)爲

clip_image018[8]

到這裏,我們可以得出結論,如果要實現該節開頭的效果,只需先計算clip_image020[10],然後計算clip_image022[10]即可,然而這種計算方式是非常低效的。比如最初的特徵是n維的,我們將其映射到clip_image024[6]維,然後再計算,這樣需要clip_image026[6]的時間。那麼我們能不能想辦法減少計算時間呢?

先看一個例子,假設x和z都是n維的,

clip_image028[4]

展開後,得

clip_image030[4]

這個時候發現我們可以只計算原始特徵x和z內積的平方(時間複雜度是O(n)),就等價與計算映射後特徵的內積。也就是說我們不需要花clip_image026[7]時間了。

現在看一下映射函數(n=3時),根據上面的公式,得到

clip_image031[4]

也就是說核函數clip_image033[4]只能在選擇這樣的clip_image004[11]作爲映射函數時才能夠等價於映射後特徵的內積。

再看一個核函數

clip_image034[4]

對應的映射函數(n=3時)是

clip_image035[4]

更一般地,核函數clip_image037[4]對應的映射後特徵維度爲clip_image039[4]。(求解方法參見http://zhidao.baidu.com/question/16706714.html)。

由於計算的是內積,我們可以想到IR中的餘弦相似度,如果x和z向量夾角越小,那麼核函數值越大,反之,越小。因此,核函數值是clip_image020[11]clip_image041[4]的相似度。

再看另外一個核函數

clip_image042[6]

這時,如果x和z很相近(clip_image044[6]),那麼核函數值爲1,如果x和z相差很大(clip_image046[6]),那麼核函數值約等於0。由於這個函數類似於高斯分佈,因此稱爲高斯核函數,也叫做徑向基函數(Radial Basis Function 簡稱RBF)。它能夠把原始特徵映射到無窮維。

既然高斯核函數能夠比較x和z的相似度,並映射到0到1,回想logistic迴歸,sigmoid函數可以,因此還有sigmoid核函數等等。

下面有張圖說明在低維線性不可分時,映射到高維後就可分了,使用高斯核函數。

clip_image048[6]

來自Eric Xing的slides

注意,使用核函數後,怎麼分類新來的樣本呢?線性的時候我們使用SVM學習出w和b,新來樣本x的話,我們使用clip_image050[8]來判斷,如果值大於等於1,那麼是正類,小於等於是負類。在兩者之間,認爲無法確定。如果使用了核函數後,clip_image050[9]就變成了clip_image052[6],是否先要找到clip_image054[8],然後再預測?答案肯定不是了,找clip_image054[9]很麻煩,回想我們之前說過的

clip_image055[4]

只需將clip_image057[4]替換成clip_image059[6],然後值的判斷同上。

8 核函數有效性判定

問題:給定一個函數K,我們能否使用K來替代計算clip_image022[11],也就說,是否能夠找出一個clip_image061[12],使得對於所有的x和z,都有clip_image018[9]

比如給出了clip_image063[8],是否能夠認爲K是一個有效的核函數。

下面來解決這個問題,給定m個訓練樣本clip_image065[6],每一個clip_image067[8]對應一個特徵向量。那麼,我們可以將任意兩個clip_image067[9]clip_image069[6]帶入K中,計算得到clip_image071[6]。I可以從1到m,j可以從1到m,這樣可以計算出m*m的核函數矩陣(Kernel Matrix)。爲了方便,我們將核函數矩陣和clip_image073[10]都使用K來表示。

如果假設K是有效地核函數,那麼根據核函數定義

clip_image075[6]

可見,矩陣K應該是個對稱陣。讓我們得出一個更強的結論,首先使用符號clip_image077[6]來表示映射函數clip_image020[12]的第k維屬性值。那麼對於任意向量z,得

clip_image078[6]

最後一步和前面計算clip_image063[9]時類似。從這個公式我們可以看出,如果K是個有效的核函數(即clip_image073[11]clip_image080[6]等價),那麼,在訓練集上得到的核函數矩陣K應該是半正定的(clip_image082[6]

這樣我們得到一個核函數的必要條件:

K是有效的核函數 ==> 核函數矩陣K是對稱半正定的。

可幸的是,這個條件也是充分的,由Mercer定理來表達。

Mercer定理:

如果函數K是clip_image084[26]上的映射(也就是從兩個n維向量映射到實數域)。那麼如果K是一個有效核函數(也稱爲Mercer核函數),那麼當且僅當對於訓練樣例clip_image065[7],其相應的核函數矩陣是對稱半正定的。

Mercer定理表明爲了證明K是有效的核函數,那麼我們不用去尋找clip_image061[13],而只需要在訓練集上求出各個clip_image086[6],然後判斷矩陣K是否是半正定(使用左上角主子式大於等於零等方法)即可。

許多其他的教科書在Mercer定理證明過程中使用了clip_image088[16]範數和再生希爾伯特空間等概念,但在特徵是n維的情況下,這裏給出的證明是等價的。

核函數不僅僅用在SVM上,但凡在一個模型後算法中出現了clip_image090[4],我們都可以常使用clip_image073[12]去替換,這可能能夠很好地改善我們的算法。

發佈了13 篇原創文章 · 獲贊 17 · 訪問量 8萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章