我們知道,監督學習的評價指標是準確率、召回率、F1、Fβ、ROC-AUC等等,但聚類方法在大多數情況下數據是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。
聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量一個聚類中的元素彼此之間的距離,而可分性表示不同聚類之間的距離,總的來說聚類的評價指標有以下三個類型:
1、外部指標:這是處理有標籤數據時使用的評分,可以說監督學習的評價指標都是外部指標。
2、內部指標:使用數據來衡量數據和結構之間的吻合度。
3、相對指標:通過對比,表明兩個聚類結構中哪一個在某種意義上更好。
一、Adjusted Rand Index(調整蘭德係數)
Adjusted Rand Index是外部指標的一種,其得分區間是[−1,1]。在計算Adjusted Rand Index前,我們要先計算一下Rand Index。
1、Rand Index(蘭德係數)
Rand Index是Adjusted Rand Index的前身,Rand Index因爲懲罰力度不夠,導致聚類得分普遍很高,因此纔有Adjusted Rand Index。
RI=(n2)a+b
a:表示在真實標籤上在同一個分類,聚類後也在同一個分類的對數。
b:表示在真實標籤上不在同一個分類,聚類後也不在同一個分類的對數。
(n2):表示所有數據的對數,在排列組合中的表示方式是Cn2。
例如:
假設有數據(a,b,c,d,e),在真實標籤中(a,b)爲一類,(c,d,e)爲另一類,而聚類後(a,b,c)爲一類,(d,e)爲另一類,那麼
a=C22+C22=2
b=C21∗C21=4
(n2)=C52=10
RI=102+4=0.6
2、Adjusted Rand Index的計算
ARI=max(RI)−ExpectedIndexRI−ExpectedIndex
ARI的原始公式是這樣子的:
二、Silhouette index(輪廓係數)
輪廓係數是內部指標的一種,其得分區間是[−1,1]。
計算數據點的輪廓係數:
Si=max(ai,bi)bi−ai
a是同一個聚類中到其它樣本的平均距離;
b是與它距離最近的不同的聚類的樣本的平均距離。
聚類的輪廓係數:
S=n∑i=1nSi
輪廓係數的缺點:
1、輪廓係數不適合評價緊湊的環形的數據聚類;
2、當模型是DBSCAN時,不適合使用輪廓係數作爲評價指標。