特徵選擇降維聚類變換集羣變換KL變換模式識別

特徵選擇(三)-K-L變換

各個特徵(各個分量)對分類來說,其重要性當然是不同的。
捨去不重要的分量,這就是降維

 

聚類變換認爲重要的分量就是能讓變換後類內距離小的分量

類內距離小,意味着抱團抱得緊。

 

但是,抱團抱得緊,真的就一定容易分類麼?

如圖1所示,根據聚類變換的原則,我們要留下方差小的分量,把方差大(波動大)的分量丟掉,所以兩個橢圓都要向y軸投影,這樣悲劇了,兩個重疊在一起,根本分不開了。而另一種情況卻可以這麼做,把方差大的分量丟掉,於是向x軸投影,很順利就能分開了。因此,聚類變換並不是每次都能成功的


圖1

 

摧枯拉朽的K-L變換

K-L變換是理論上“最好”的變換:是均方誤差(MSE,MeanSquare Error)意義下的最佳變換,它在數據壓縮技術中佔有重要地位。

 

聚類變換還有一個問題是,必須一類一類地處理,把每類分別變換,讓它們各自抱團。

K-L變換要把所有的類別放在一起變換,希望通過這個一次性的變換,讓它們分的足夠開。

 

K-L變換認爲:各類抱團緊不一定好區分。目標應該是怎麼樣讓類間距離大,或者讓不同類好區分。因此對應於2種K-L變換。

 

其一:最優描述的K-L變換(沿類間距離大的方向降維)

首先來看個二維二類的例子,如圖2所示。


圖2


如果使用聚類變換,方向是方差最小的方向,因此降維向方向投影,得到2類之間的距離即爲2條綠線之間的距離,但是這並不是相隔最遠的投影方向。將橢圓投影到方向,得到2類之間的距離爲2條紅線之間的距離。這個方向就是用自相關矩陣的統計平均得到的特徵向量

設共有M個類別,各類出現的先驗概率爲


表示來自第i類的向量。則第i類集羣的自相關矩陣爲:

混合分佈的自相關矩陣R是:

然後求出R的特徵向量和特徵值:

將特徵值降序排列(注意與聚類變換區別

爲了降到m維,取前m個特徵向量,構成變換矩陣A

以上便完成了最優描述的K-L變換。

 

爲什麼K-L變換是均方誤差(MSE,MeanSquare Error)意義下的最佳變換?

其中表示n維向量y的第j個分量,表示第個特徵分量。

引入的誤差


均方誤差爲


m+1開始的特徵值都是最小的幾個,所以均方誤差得到最小。

 

以上方法稱爲最優描述的K-L變換,是沿類間距離大的方向降維,從而均方誤差最佳

本質上說,最優描述的K-L變換扔掉了最不顯著的特徵,然而,顯著的特徵其實並不一定對分類有幫助。我們的目標還是要找出對分類作用大的特徵,而不應該管這些特徵本身的強弱。這就誕生了第2種的K-L變換方法。

 

其二:最優區分的K-L變換(混合白化後抽取特徵)

針對上述問題,最優區分的K-L變換先把混合分佈白化,再來根據特徵值的分離程度進行排序。

 

最優區分的K-L變換步驟

首先還是混合分佈的自相關矩陣R


然後求出R的特徵向量和特徵值:


以上是主軸變換,實際上是座標旋轉,之前已經介紹過。

令變換矩陣


則有


這個作用是白化R矩陣,這一步是座標尺度變換,相當於把橢圓整形成圓,如圖3所示。

 

圖3


以二類混合分佈問題爲例。


分別求出二類的特徵向量和特徵值,有


二者的特徵向量完全相同,唯一的據別在於其特徵根,而且還負相關,即如果取降序排列時,則以升序排列。

爲了獲得最優區分,要使得兩者的特徵值足夠不同。因此,需要捨棄特徵值接近0.5的那些特徵,而保留使大的那些特徵,按這個原則選出了m個特徵向量記作


則總的最優區分的K-L變換就是:

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章