聚類的評價指標

  我們知道,監督學習的評價指標是準確率、召回率、F1FβF_1、F_\beta、ROC-AUC等等,但聚類方法在大多數情況下數據是沒有標籤的,這些情況下聚類就不能使用以上的評價指標了。
  聚類有自己的評價指標,大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量一個聚類中的元素彼此之間的距離,而可分性表示不同聚類之間的距離,總的來說聚類的評價指標有以下三個類型:
1、外部指標:這是處理有標籤數據時使用的評分,可以說監督學習的評價指標都是外部指標。

2、內部指標:使用數據來衡量數據和結構之間的吻合度。

3、相對指標:通過對比,表明兩個聚類結構中哪一個在某種意義上更好。

一、Adjusted Rand Index(調整蘭德係數)

Adjusted Rand Index是外部指標的一種,其得分區間是[1,1][-1,1]。在計算Adjusted Rand Index前,我們要先計算一下Rand Index。

1、Rand Index(蘭德係數)

Rand Index是Adjusted Rand Index的前身,Rand Index因爲懲罰力度不夠,導致聚類得分普遍很高,因此纔有Adjusted Rand Index。
RI=a+b(n2)RI = \frac{a+b}{ \begin{pmatrix} n\\ 2\\ \end{pmatrix} }
a:表示在真實標籤上在同一個分類,聚類後也在同一個分類的對數。
b:表示在真實標籤上不在同一個分類,聚類後也不在同一個分類的對數。
(n2)\begin{pmatrix} n\\ 2\\ \end{pmatrix}:表示所有數據的對數,在排列組合中的表示方式是Cn2C^2_n

例如:

假設有數據(a,b,c,d,e),在真實標籤中(a,b)爲一類,(c,d,e)爲另一類,而聚類後(a,b,c)爲一類,(d,e)爲另一類,那麼
a=C22+C22=2a = C^2_2 + C^2_2 = 2
b=C21C21=4b = C^1_2 * C^1_2 = 4
(n2)=C52=10\begin{pmatrix} n\\ 2\\ \end{pmatrix} = C^2_5 = 10
RI=2+410=0.6RI = \frac{2+4}{10} = 0.6

2、Adjusted Rand Index的計算

ARI=RIExpectedIndexmax(RI)ExpectedIndexARI = \frac{RI- ExpectedIndex}{max(RI)-ExpectedIndex}
ARI的原始公式是這樣子的:

二、Silhouette index(輪廓係數)

輪廓係數是內部指標的一種,其得分區間是[1,1][-1,1]
計算數據點的輪廓係數
Si=biaimax(ai,bi)S_i = \frac{b_i - a_i}{max(a_i,b_i)}
a是同一個聚類中到其它樣本的平均距離;
b是與它距離最近的不同的聚類的樣本的平均距離。

聚類的輪廓係數
S=i=1nSinS = \frac{\sum^{n}_{i=1}S_i}{n}

輪廓係數的缺點:
1、輪廓係數不適合評價緊湊的環形的數據聚類;
2、當模型是DBSCAN時,不適合使用輪廓係數作爲評價指標。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章