距離(相似度)計算方法

1.幾何距離

1.1.閔式距離

又叫做閔可夫斯基距離,是歐氏空間中的一種測度,被看做是歐氏距離的一種推廣,歐氏距離是閔可夫斯基距離的一種特殊情況。閔可夫斯基距離公式中,當p=2時,即爲歐氏距離;當p=1時,即爲曼哈頓距離;當  時,即爲切比雪夫距離。

1.2.歐式距離

歐幾里得度量(euclidean metric)(也稱歐氏距離)是一個通常採用的距離定義,指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離(絕對距離)。因爲計算是基於各維度特徵的絕對數值,所以歐氏度量需要保證各維度指標具有相同的量綱,比如對身高(cm)和體重(kg)兩個單位不同的指標使用歐式距離可能使結果失效。

1.3.曼哈頓距離

設平面空間內存在兩點,它們的座標爲(x1,y1) (x2,y2) .則曼哈頓距離表示兩點橫縱座標差之和, 兩點在南北方向上的距離加上在東西方向上的距離。曼哈頓距離、歐式距離的關係:如下圖,綠色爲歐式距離,紅色、黃色、藍色爲曼哈頓距離。

1.4.切比雪夫距離

設平面空間內存在兩點,它們的座標爲(x1,y1),(x2,y2),則切比雪夫距離爲兩點橫縱座標差的絕對值的最大值“曼哈頓距離”與“切比雪夫距離”的關係:事實上,將一個點(x,y)的座標變爲 \large (x+y ,x-y) 後,原座標系中的曼哈頓距離就轉變爲新座標系中的切比雪夫距離;將一個點(x,y)的座標變爲  \large ( \frac{x+y}{2} ,\frac{x-y}{2})  後,原座標系中的切比雪夫距離就轉換爲了新座標系中的曼哈頓距離。https://www.cnblogs.com/zwfymqz/p/8253530.html(參考文章)

 1.5.夾角餘弦距離(餘弦相似度, cosine similarity)

餘弦距離通過測量兩個向量的夾角的餘弦值來度量它們之間的相似性。0度角的餘弦值是1,而其他任何角度的餘弦值都不大於1;並且其最小值是-1。從而兩個向量之間的角度的餘弦值確定兩個向量是否大致指向相同的方向。兩個向量有相同的指向時,餘弦相似度的值爲1;兩個向量夾角爲90°時,餘弦相似度的值爲0;兩個向量指向完全相反的方向時,餘弦相似度的值爲-1。這結果是與向量的長度無關的,僅僅與向量的指向方向相關。餘弦相似度通常用於正空間,因此給出的值爲0到1之間。注意這上下界對任何維度的向量空間中都適用,而且餘弦相似性最常用於高維正空間。例如在信息檢索中,每個詞項被賦予不同的維度,而一個維度由一個向量表示,其各個維度上的值對應於該詞項在文檔中出現的頻率。餘弦相似度因此可以給出兩篇文檔在其主題方面的相似度。另外,它通常用於文本挖掘中的文件比較。此外,在數據挖掘領域中,會用到它來度量集羣內部的凝聚力。

 

1.6.雅卡爾係數(Jaccard index)

jaccard係數和jaccard距離分別用於比較有限樣本集之間的相似性和差異性

缺點:值僅適用於二元數據(兩個對象)的集合

給定兩個集合A和B:

【1】jaccard係數:A,B交集大小/A,B並集的大小(值越大,相似度越高)

 注意:A和B均爲∅,J(A, B)=1

【2】jaccard距離:1-jaccard係數

 【算例】:非對稱二元屬性相似度

用戶AB

M11

M10

M01

M00

其中:M11表示A和B對應位置都是1的屬性的數量,M10表示A中爲1且B中對應位置爲0的屬性的數量,M01表示A中爲0且B中爲1的屬性的數量,M00表示A,B中對應位置均爲0的屬性的數量,M11+M10+M01+M00=n

註明:J(A, B)的分母或者分子並沒有M00,是因爲此處爲非對稱二元屬性相似度,這裏只有非0值才受關注。比如考慮普通人的健康狀況,屬性集合(糖尿病,心臟病等),糖尿病指標0表示沒有糖尿病,1表示糖尿病,心臟病指標0表示沒有心臟病,1表示心臟病,比較兩個人的患病情況,我們只關注有病的情況。所以分子和分母中沒有M00。

【3】更一般的情況(廣義jaccard係數):

x=(x1,x2,x3,...,xn)和y=(y1,y2,y3,...,yn)是兩個向量,xiyi>0的實值,x和y的相似度係數表示爲:

 更一般的情況,f和g是X上關於u的兩個非負的概率密度函數。則:

2.非幾何距離

2.1.KL散度(距離)

KL 散度是一種衡量兩個概率分佈的匹配程度的指標,兩個分佈差異越大,KL散度越大。其中 p(x) 是目標分佈,q(x)是去匹配的分佈,如果兩個分佈完全匹配,那麼Dkl=0。值得注意的是,KL散度是非對稱的:D(p||q)≠D(q||p)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章