機器學習中的降維方法——————多維縮放(MDS)&& 等度量映射(IsoMap)

原創

2020-03-22 18:39

關於降維

降維:通過某種數字變換將原始高維屬性空間轉變爲一個低維"子空間",在這個子空間中樣本密度大幅提高,距離計算也變的更爲容易。

爲什麼需要降維？

在高維情況下回出現數據樣本稀疏、距離計算困難等問題,是所有機器學習方法共同面臨的嚴重障礙,被稱爲“維數災難”.

爲什麼能降維？

因爲在很多時候,人們觀測或收集到的數據樣本雖是高維的,但與學習任務密切相關的也許僅是某個低維分佈,即高維空間中的一個低維嵌入（embedding）.

多維縮放(MDS)

算法思想

MDS算法思想很簡單，一句話就是保持樣本在原空間和低維空間的距離不變。
因爲距離是樣本之間一個很好的分離屬性，對於大多數聚類算法來說，距離是將樣本分類的重要屬性，因此當我們降維後，保持距離不變，那麼就相當於保持了樣本的相對空間關係不變。

MDS

假設n個樣本在原始空間的距離矩陣爲D,其第i行第j列的元素 $d_{ij}$

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最近鄰搜索神器——一文讀懂局部敏感哈希LSH原理

什麼是LSH? LSH主要用來解決高維空間中點的近似最近鄰搜索問題,即Approximate Nearest Neighbor(ANN)。在實際的應用中我們所面對的數據是海量的,並且有着很高的維度。在對數據的各種操作中,查詢操作

2020-07-08 05:33:08

小白學變分推斷(1)——變分推斷概述

變分推斷變分推斷（Variational Inference, VI）是貝葉斯近似推斷方法中的一大類方法，它將後驗推斷問題巧妙地轉化爲優化問題進行求解，相比另一大類方法馬爾可夫鏈蒙特卡洛方法（Markov Chain Monte

2020-06-25 10:48:26

小白學變分推斷(2)——變分推斷

在上一篇系列文章小白學變分推斷(1)——變分推斷概述中，我們通過對ELBO引入條件概率公式，進一步化簡得到:ELBO=Eq[log p(x∣z)]−KL(q(z)∣∣p(z)) ELBO = E_q[log\ p(x|z)] -

2020-06-25 10:48:26

一文學會支持向量機(SVM)

SVM是一個二元分類算法,線性分類和非線性分類都支持,其學習策略便是間隔最大化, 最終可以轉化爲一個凸二次規劃問題求解。經過演進,現在也可以支持多元分類,同時經過擴展也能應用於迴歸問題。初探SVM 一個簡單的例子下面舉個簡單

2020-06-21 07:05:15

一文了解KL散度(KL Divergence)

在概率論和統計學中,我們經常用一個簡單的近似分佈來代替觀測數據或複雜的分佈.KL散度幫助我們衡量當我們選擇一個簡單近似的分佈來代替複雜的數據或複雜的分佈的時候有多少信息損失了. 一個例子假設我們是太空科學家並在參觀一個遙遠的新

2020-06-21 06:15:37

K-Means聚類算法詳解

聲明部分參考K-Means聚類算法原理聚類算法聚類算法是一種無監督學習算法,它主要用於將相似的樣本自動歸到一個類別中. 聚類算法與分類算法的區別:聚類算法是無監督學習,而分類是監督學習,在聚類算法中我們根據樣本之間的相似度(

2020-06-21 06:15:37

快速近似計算Gamma函數以及函數階乘

Gamma 函數 Γ(s)=∫0∞xs−1e−xdx,s>0 \begin{aligned} \Gamma(s) = \int_{0}^{\infty} x^{s - 1} e^{-x} dx, s > 0 \end{aligne

2020-06-21 06:15:37

EM(Expectation Maximum) 算法總結

EM算法，全稱爲Expectation Maximum Algorithm，是一個基礎算法，是很多機器學習領域算法的基礎（如HMM，LDA等）。EM算法是在概率模型中尋找參數最大似然估計或者最大後驗估計的算法，其中概率模型依賴於無

2020-06-21 06:15:37

深度學習——--殘差網絡(ResNet)詳解

爲什麼會有殘差網絡? 網絡越深準確率越高嗎？一說起深度學習,自然也就想到了它非常顯著的特點"深"，通過很深層次的網絡實現準確率非常高的圖像識別、語音識別等。因此,我們大家很自然就想到:深的網絡肯定比淺的網絡效果好,如果要進一步提

2020-06-21 06:15:37

關於Word2Vec的一些總結

什麼是word2vec 關於word2vec，首先需要弄清楚它並不是一個模型或者DL算法，而是描述從自然語言到詞向量轉換的技術。 Word2Vec本質上就是一個只有一個hidden layer的全連接神經網絡,它可以將所有的詞向量

2020-06-21 06:15:27

集成學習(ensemble learning)乾貨系列(2)——隨機森林(Bagging)

這裏是集成學習乾貨系列第二談，本篇文章我們來淺談隨機森林，它是一種多決策樹的bagging。其他乾貨：集成學習(ensemble learning)乾貨系列(1)——集成學習概述 Bagging Bootstrap aggreg

2020-06-21 06:15:26

集成學習(ensemble learning)乾貨系列(3)——Boosting方法詳解

集成學習(ensemble learning)乾貨系列(1)——集成學習概述集成學習(ensemble learning)乾貨系列(2)——隨機森林(Bagging) Boosting基本原理提升，Boosting是另一大類成熟

2020-06-21 06:15:26

KDD Cup 2020 Challenges for Modern E-Commerce Platform: Debiasing 簡單分享附代碼(phase 0-6 0.463+)

參賽鏈接一年一度的KDD大賽又開始了，這個比賽是真的火爆…小白也是頭一次玩這個，確實體會和學到了很多東西，這真的是從學術研究到工程實現思維的一種鍛鍊。題目：簡單總結下題目，由於自己主要是關注數據挖掘與推薦的，所以比較關注推薦

2020-06-21 06:15:26

一文詳解梯度下降法,牛頓法,擬牛頓法

最優化是一種數學方法,它是研究在給定約束之下如何尋求某些因素,以使某一些指標達到最優的一些學科的總稱.在機器學習中,大部分的機器學習算法的本質都是建立優化模型,通過最優化方法對目標函數(損失函數)進行優化,從而訓練出最好的模型.梯

2020-06-21 06:15:26

張量分解——CP分解與Tucker分解詳解

關於張量分解一些簡單的介紹,可以看我的這篇張量的CP分解模型一般而言，給定一個大小爲n1×n2×n3n_1 \times n_2 \times n_3n

2020-06-21 06:15:26

24小時熱門文章

最新文章

最新評論文章