流形(manifold)介紹

最近一直再看屬性選擇和聚類方向的論文,其中一直有提到manifold這個概念,從網絡上學習一波,將學習結果記錄下來給大家分享


流形是一種空間,一個流形好比是一個 d 維的空間,在一個 m 維的空間中 (m > d) 被扭曲之後的結果(一般維度壓縮的方法中都會提到這個詞,譜聚類中就有涉及這個思想,稍後再說),可以類似於地球,地球的表面是一個球面。

流形的距離度量方法不能簡單地使用歐式距離求任意兩點地距離。假設現在需要求從北極到達南極距離,不可能把地球打穿直線到達,根據實際情況可以知道,北極到達南極的距離應該是半個圓周的長度。舉個例子如下(引用qrlhl 的圖片)

這是一個三維的平面,圖中有很多點,其中有兩個重點標註的數據點,要求這兩個數據點的距離,如果用歐式距離來計算,得到的距離值會很小,明顯小於圖中紅線地長度。這個時候應該怎麼求流形中數據點之間地距離呢?


方法有很多,在這裏我們介紹一種比較常用地流形距離度量方法Laplacian Eigenmaps (譜聚類)

在譜聚類地算法思想中求解出拉普拉斯矩陣L,通過求解L對應的最小的K個特徵值對應的k個特徵向量(相當於是得到了k個新的空間?維度),可以將m*n(m指的是m個數據,n指的是數據的屬性個數)的原數據矩陣壓縮成m*k的數據矩陣,此時新的數據矩陣的第i行第j列代表的就是原始數據i在第j個維度上的值,此時再用歐式距離的方法去求解新數據矩陣的某兩行的距離(任意兩個數據點的距離),就可以避免出現上圖的錯誤(直接套歐式距離的度量公式)


總結,流體是一種扭曲的空間,他的距離度量公式比較複雜,但是已經有很多處理這個問題的方法,如Locally Linear Embedding 、Laplacian Eigenmaps 、Hessian Eigenmaps 、Local Tangent Space Alignment、Semidefinite Embedding (Maximum Variance Unfolding) 等等等等,

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章