機器學習(9) -- 聚類

9.1 聚類任務

聚類試圖將數據集中的樣本劃分爲若干個通常不想交的子集,每個子集稱爲一個簇。

9.2 性能度量

聚類性能度量大致兩類:外部指標、內部指標

外部指標:將聚類結果與某個“參考模型”進行比較

內部指標:考察聚類結果 而不利用任何參考模型

 

外部指標:

聚類給出的簇劃分:

參考模型給出的簇劃分:

相應的簇標記向量爲λ,λ*

SS包含了在C中隸屬於相同簇且在C*中也隸屬於相同簇的樣本對;a+b+c+d=m(m-1)/2

於是導出下面常用的聚類性能度量外部指標,值在[0,1],越大越好

Jaccard係數,JC:

FM指數,FMI:

Rand指數,RI:

 

內部指標:

對於聚類結果簇劃分

於是導出下面常用的聚類性能度量內部指標,DBI越小越好,DI越大越好

DB指數,DBI:

Dunn指數,DI:

9.3 距離計算

距離度量函數 dist(·,·),需滿足:

非負性 :

同一性:,當且僅當

對稱性:

直遞性:

 

給定樣本

閔可夫斯基距離:

p=2時是歐氏距離

p=1時是曼哈頓距離

 

閔可夫斯基距離可用於計算連續屬性和有序屬性

無序屬性用VDM,屬性u上兩個離散值a,b之間的VDM距離爲

表示第i個樣本簇中在屬性u上取值爲a的樣本數

於是,假設有 個有序屬性, 個無序屬性

加權距離

9.4 原型聚類

亦稱“基於原型的聚類”,此類算法假設聚類結構能通過一組原型刻畫。“原型”是指樣本空間中具有代表性的點

一般,先對原型初始化,然後對原型進行迭代更新求解

K-means

針對聚類所得簇劃分 最小化平方誤差:

學習向量量化(LVQ)

和K均值類似,都是試圖找出一組原型向量來刻畫聚類結構,但是假設數據樣本帶有類別標記,學習過程利用樣本的這些監督信息來輔助聚類。

關鍵是如何更新原型向量,對樣本Xj,若最近的原型向量Pi, 與Xj的類別標記相同,則令Pi向Xj的方向靠攏。

學得一組原型向量{P1,P2,……Pq}後,即可實現對樣本空間X的簇劃分。對任意樣本x,它將被劃入到與其距離最近的原型向量所代表的簇中;換言之,每個原型向量Pi定義了與之相關的一個區域Ri,該區域中每個樣本與P 的距離不大於它與其他原型向量Pi '的距離。

高斯混合聚類

採用概率模型來表達聚類原型

多元高斯分佈定義:

記爲:

高斯混合分佈:

假設樣本生成過程由高斯混合分佈給出:首先,根據定義的先驗分佈選擇高斯混合成分,其中 爲選擇第i個成分的概率;然後,根據被選擇的混合成分的概率密度函數進行採樣,從而生成相應的樣本

極大似然估計:

 

也就是,假定每個簇都服從高斯分佈,每個簇按各自的分佈生成樣本,所有樣本獨立,所有樣本放在一起對應的是高斯混合分佈

 

9.5 密度聚類

亦稱“基於密度的聚類”,此類算法假設聚類結構能通過樣本分佈的緊密程度確定。通常,密度聚類算法從樣本密度的角度來考察樣本之間的可連續性,並基於可連接樣本不斷擴展聚類簇以獲得最終的聚類結果。

 

DBSCAN,基於一組“鄰域”參數刻畫樣本分佈的緊密程度。

ε-鄰域:

核心對象:的ε-鄰域內至少包含MinPts個樣本,則是一個核心對象

密度直達:位於的ε-鄰域中且是核心對象,則密度直達

密度可達:對於,存在序列==密度直達,則密度可達

密度相連:對於,若存在,使均由密度可達,則稱密度相連

 

DBSCAN將簇定義爲:由密度可達關係導出的最大的密度相連樣本集合。

算法先根據給定的鄰域參數(ε,MinPts)找出所有核心對象,再以任一核心對象爲出發點,找出由其密度可達樣本生成聚類簇,知道所有核心對象都被訪問過爲止

9.6 層次聚類

系統聚類,“自頂向下”,“自底向上”

 

其他:K均值算法可看作高斯混合聚類在混合成分方差相等、且每個樣本僅指派給一個混合成分時的特例

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章