非監督學習——高斯混合模型與聚類驗證

原創

2020-06-01 23:07

目錄

高斯混合模型：

sklearn高斯混合模型：

高斯混合模型總結：

高斯混合模型附錄：

聚類分析過程：

聚類驗證：

外部評價指標：

內部評價指標：

高斯混合模型：

1、溫和的聚類算法，這種聚類算法假定每個類都遵循特定的統計分佈。

2、步驟：

初始化K個高斯分佈
將數據集聚類成我們初始化的兩個高斯——期望步驟或E步驟
基於軟聚類重新估計高斯——最大化或M步驟
評估對數似然來檢查收斂，收斂——>輸出結果
不收斂——>返回第二步驟，直至收斂爲止。

3、具體操作流程：

初始化：在數據集上使用K-Means生成聚類。
$E|Z_{iA}|=\frac{N(x_{i}|\mu_{A}, \sigma^{2}_{A})}{N(x_{i}|\mu_{A}, \sigma^{2}_{A}) + N(x_{i}|\mu_{B}, \sigma^{2}_{B})}$ ， $N(x|\mu, \sigma^{2})=\frac{1}{(2\pi\sigma^{2})}\cdot e^{-\frac{1}{2\sigma^{2}}(x-\mu)^{2}}$
$New \quad \mu_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|x_{i}}{\sum^{N}_{i=1}E|Z_{ij}|}$ ， $New \quad \sigma^{2}_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|(x_{i}-\mu^{new}_{A})(x_{i}-\mu^{new}_{A})^{T}}{\sum^{N}_{i=1}E|Z_{A}|}$

$lnp(x|\mu, \sigma^{2}) = \sum^{N}_{i = 1}ln(\sum^{K}_{k=1}\pi_{k}n(x_{i}|\mu_{k},\sigma^{2}_{k}))$ ，求此式的最大化，數值越高，越能確定生成的混合模型可以負責創建數據，或者適合數據集。其中，k是聚類有關的混合係數。

sklearn高斯混合模型：

高斯混合模型總結：

1、優缺點：

優點：

提供軟聚類（軟聚類是多個聚類的示例性隸屬度）
聚類的外觀具有靈活性

缺點：

GMM聚類對初始化值很敏感
可能收斂到局部最優
收斂速度慢

高斯混合模型附錄：

視頻：https://www.youtube.com/watch?v=lLt9H6RFO6A

聚類分析過程：

Data——>特徵選擇和特徵提取——>選擇一個聚類方法——>聚類評價——>聚類結果解釋。

特徵選擇是從一組候選特種中選擇特徵。特徵提取是對數據進行轉換以生成新的有用特徵。
聚類方法：可以用歐式距離，如果數據是文檔或詞嵌入，臨近度度量將是餘弦距離。
聚類評價：評分方法被稱爲指數。

聚類驗證：

1、聚類驗證是客觀和定量評估聚類結果的過程。

2、聚類評價指數有三種：（所有外部指標都能作爲相對指標）

外部指標：處理有標籤數據時使用的評分
內部指標：僅使用數據來衡量數據和結構之間的吻合度。
相對指標：表明兩個聚類結構中哪一個在某種意義上更好。

3、大多數評價指標是通過緊湊性和可分性來定義的。

緊湊性：衡量一個聚類中的元素彼此之間的距離。
可分性：表示不同聚類之間的距離。

外部評價指標：

$Rand Index = \frac{a+b}{2\times n}$ ，a：在聚類C與聚類K中都是同類元素的對數，不考慮哪個聚類的標籤。b：在聚類C與聚類K中都是不同類別的元素。

內部評價指標：

範圍（-1， 1）， $S_{i} = \frac{b_{i} - a_{i}}{max(a_{i}, b_{i})}$ ，a：同一個聚類中到其他的樣本的平均距離，b：與它距離最近的不同聚類中到樣本的平均距離。

$S = average(S_{1},S_{2},...,S_{n})$ 。其中DBSCAN不要使用輪廓係數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

24小時熱門文章

最新文章

最新評論文章