馬氏距離平移不變性；旋轉不變性；尺度縮放不變性；不受量綱影響的特性

原創

内心的笃定

2018-09-03 20:14

轉載：https://blog.csdn.net/panglinzhuo/article/details/77801869

馬氏距離

用來度量一個樣本點Ｐ與數據分佈爲Ｄ的集合的距離。
假設樣本點爲：

數據集分佈的均值爲：

協方差矩陣爲Ｓ。

則這個樣本點Ｐ與數據集合的馬氏距離爲：

馬氏距離也可以衡量兩個來自同一分佈的樣本x和y的相似性：

當樣本集合的協方差矩陣是單位矩陣時，即樣本的各個維度上的方差均爲１．馬氏距離就等於歐式距離相等。

當協方差矩陣是對角矩陣時，即樣本數據在各個維度上的方差可能不爲１．此時，

可以看做是標準化了的歐氏距離。其中，ｓi爲樣本數據在第ｉ個維度上的標準差。

思考

1.爲什麼馬氏距離是尺度無關的？

想判斷一個點是否屬於一個集合，首先計算出這個集合的中心點（通過計算這個集合中所有樣本的均值向量可以得到），然後求出這個點到中心點的距離，若大於一個閾值則認爲不屬於這個集合。但是這樣有個問題，有的集合包含的範圍比較大，待分類樣本雖然離此集合中心點較其他集合的中心點遠，但實際上屬於這個集合，這就是尺度對分類結果的影響。爲了消除這個影響，計算出集合中所有數據點到中心點的平均距離，這樣，範圍大的集合計算出來的平均距離就會較範圍小的集合平均距離大，這個平均距離就是下式中的分母：標準差。

上式使得馬氏距離具有尺度不變性。
但是這樣還有問題，上面的式子只適合集合是圓形區域分佈的，如下圖：

對於下面的橢圓形例子，Ａ點距離中心點更近，但是Ａ點離集合邊緣更近，更危險，一不小心就不屬於這個集合了。所以僅僅通過上式得到的距離來衡量一個點屬於一個集合的概率是不準確的。

假設一個樣本集合的維度是Ｎ，數據在各個維度上的方差已知（方差較大的方向是數據主要的變化方向），可以把方差看做各個方向上的軸長，方差越大，軸越長，數據點在這個方向上就越不容易掉下懸崖，也就越安全。如果待測樣本在各個維度上與集合中心的距離都遠遠小於這個維度上的軸長，那麼這個樣本屬於集合的概率就越大。協方差矩陣的對角線元素就代表了各個維度上的方差。

再次看上式，可以認爲，對每一個待測樣本，都計算一下其與集合中心的距離，接着，在各個方向上均除以軸長（協方差矩陣求逆），最後再乘起來，整個結果越小則說明樣本越靠近集合的中心。

２．那麼協方差矩陣的非對角線是幹嘛的？

這個我也不太清楚，我猜是它們的存在使得馬氏距離可以將樣本不同緯度特徵的相關性關聯起來。

參考網址：
https://en.wikipedia.org/wiki/Mahalanobis_distance

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

馬氏距離平移不變性；旋轉不變性；尺度縮放不變性；不受量綱影響的特性

轉載：https://blog.csdn.net/panglinzhuo/article/details/77801869

馬氏距離

思考

1.爲什麼馬氏距離是尺度無關的？

２．那麼協方差矩陣的非對角線是幹嘛的？

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

java基礎

單例設計模式

面試題

java中的子父類

B-， B+，B* 樹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

馬氏距離 平移不變性； 旋轉不變性； 尺度縮放不變性； 不受量綱影響的特性

轉載：https://blog.csdn.net/panglinzhuo/article/details/77801869

馬氏距離

思考

1.爲什麼馬氏距離是尺度無關的？

２．那麼協方差矩陣的非對角線是幹嘛的？

馬氏距離平移不變性；旋轉不變性；尺度縮放不變性；不受量綱影響的特性