關於降維
降維:通過某種數字變換將原始高維屬性空間轉變爲一個低維"子空間",在這個子空間中樣本密度大幅提高,距離計算也變的更爲容易。
爲什麼需要降維?
在高維情況下回出現數據樣本稀疏、距離計算困難等問題,是所有機器學習方法共同面臨的嚴重障礙,被稱爲“維數災難”.
爲什麼能降維?
因爲在很多時候,人們觀測或收集到的數據樣本雖是高維的,但與學習任務密切相關的也許僅是某個低維分佈,即高維空間中的一個低維嵌入(embedding).
多維縮放(MDS)
算法思想
MDS算法思想很簡單,一句話就是保持樣本在原空間和低維空間的距離不變。
因爲距離是樣本之間一個很好的分離屬性,對於大多數聚類算法來說,距離是將樣本分類的重要屬性,因此當我們降維後,保持距離不變,那麼就相當於保持了樣本的相對空間關係不變。
MDS
假設n個樣本在原始空間的距離矩陣爲D,其第i行第j列的元素dijd_{ij}