聚類的評價指標

原創

2019-01-13 19:49

我們知道，監督學習的評價指標是準確率、召回率、 $F_1､F_\beta$ 、ROC-AUC等等，但聚類方法在大多數情況下數據是沒有標籤的，這些情況下聚類就不能使用以上的評價指標了。
聚類有自己的評價指標，大多數聚類的評價指標是通過緊湊性和可分性來定義的。緊湊性基本上是衡量一個聚類中的元素彼此之間的距離，而可分性表示不同聚類之間的距離，總的來說聚類的評價指標有以下三個類型：
1､外部指標：這是處理有標籤數據時使用的評分，可以說監督學習的評價指標都是外部指標。

2､內部指標：使用數據來衡量數據和結構之間的吻合度。

3､相對指標：通過對比，表明兩個聚類結構中哪一個在某種意義上更好。

一、Adjusted Rand Index(調整蘭德係數)

Adjusted Rand Index是外部指標的一種，其得分區間是 $[-1,1]$ 。在計算Adjusted Rand Index前，我們要先計算一下Rand Index。

1､Rand Index(蘭德係數)

Rand Index是Adjusted Rand Index的前身，Rand Index因爲懲罰力度不夠，導致聚類得分普遍很高，因此纔有Adjusted Rand Index。
$RI = \frac{a+b}{ \begin{pmatrix} n\\ 2\\ \end{pmatrix} }$
a：表示在真實標籤上在同一個分類，聚類後也在同一個分類的對數。
b：表示在真實標籤上不在同一個分類，聚類後也不在同一個分類的對數。
$\begin{pmatrix} n\\ 2\\ \end{pmatrix}$ ：表示所有數據的對數，在排列組合中的表示方式是 $C^2_n$ 。

例如：

假設有數據(a,b,c,d,e)，在真實標籤中(a,b)爲一類，(c,d,e)爲另一類，而聚類後(a,b,c)爲一類，(d,e)爲另一類，那麼
$a = C^2_2 + C^2_2 = 2$
$b = C^1_2 * C^1_2 = 4$
$\begin{pmatrix} n\\ 2\\ \end{pmatrix} = C^2_5 = 10$
$RI = \frac{2+4}{10} = 0.6$

2､Adjusted Rand Index的計算

$ARI = \frac{RI- ExpectedIndex}{max(RI)-ExpectedIndex}$
ARI的原始公式是這樣子的:

二、Silhouette index(輪廓係數)

輪廓係數是內部指標的一種，其得分區間是 $[-1,1]$ 。
計算數據點的輪廓係數：
$S_i = \frac{b_i - a_i}{max(a_i,b_i)}$
a是同一個聚類中到其它樣本的平均距離；
b是與它距離最近的不同的聚類的樣本的平均距離。

聚類的輪廓係數：
$S = \frac{\sum^{n}_{i=1}S_i}{n}$

輪廓係數的缺點：
1､輪廓係數不適合評價緊湊的環形的數據聚類；
2､當模型是DBSCAN時，不適合使用輪廓係數作爲評價指標。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類的評價指標

一、Adjusted Rand Index(調整蘭德係數)

1､Rand Index(蘭德係數)

2､Adjusted Rand Index的計算

二、Silhouette index(輪廓係數)

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

數據不平衡的處理方法

特徵相關性

多項式特徵

詞袋bow與tf-idf

NLP解碼

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結