非監督學習——高斯混合模型與聚類驗證

目錄

高斯混合模型:

sklearn高斯混合模型:

高斯混合模型總結:

高斯混合模型附錄:

聚類分析過程:

聚類驗證:

外部評價指標:

內部評價指標:


高斯混合模型:

1、溫和的聚類算法,這種聚類算法假定每個類都遵循特定的統計分佈。

2、步驟:

  • 初始化K個高斯分佈
  • 將數據集聚類成我們初始化的兩個高斯——期望步驟或E步驟
  • 基於軟聚類重新估計高斯——最大化或M步驟
  • 評估對數似然來檢查收斂,收斂——>輸出結果
  • 不收斂——>返回第二步驟,直至收斂爲止。

3、具體操作流程:

  • 初始化:在數據集上使用K-Means生成聚類。
  • E|Z_{iA}|=\frac{N(x_{i}|\mu_{A}, \sigma^{2}_{A})}{N(x_{i}|\mu_{A}, \sigma^{2}_{A}) + N(x_{i}|\mu_{B}, \sigma^{2}_{B})}N(x|\mu, \sigma^{2})=\frac{1}{(2\pi\sigma^{2})}\cdot e^{-\frac{1}{2\sigma^{2}}(x-\mu)^{2}}
  • New \quad \mu_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|x_{i}}{\sum^{N}_{i=1}E|Z_{ij}|}New \quad \sigma^{2}_{A} = \frac{\sum^{N}_{i=1}E|Z_{ij}|(x_{i}-\mu^{new}_{A})(x_{i}-\mu^{new}_{A})^{T}}{\sum^{N}_{i=1}E|Z_{A}|}

  • lnp(x|\mu, \sigma^{2}) = \sum^{N}_{i = 1}ln(\sum^{K}_{k=1}\pi_{k}n(x_{i}|\mu_{k},\sigma^{2}_{k})),求此式的最大化,數值越高,越能確定生成的混合模型可以負責創建數據,或者適合數據集。其中,k是聚類有關的混合係數。

sklearn高斯混合模型:

高斯混合模型總結:

1、優缺點:

優點:

  • 提供軟聚類(軟聚類是多個聚類的示例性隸屬度)
  • 聚類的外觀具有靈活性

缺點:

  • GMM聚類對初始化值很敏感
  • 可能收斂到局部最優
  • 收斂速度慢

高斯混合模型附錄:

 視頻:https://www.youtube.com/watch?v=lLt9H6RFO6A

聚類分析過程:

Data——>特徵選擇和特徵提取——>選擇一個聚類方法——>聚類評價——>聚類結果解釋。

  • 特徵選擇是從一組候選特種中選擇特徵。特徵提取是對數據進行轉換以生成新的有用特徵。
  • 聚類方法:可以用歐式距離,如果數據是文檔或詞嵌入,臨近度度量將是餘弦距離。
  • 聚類評價:評分方法被稱爲指數。

聚類驗證:

1、聚類驗證是客觀和定量評估聚類結果的過程。

2、聚類評價指數有三種:(所有外部指標都能作爲相對指標)

  • 外部指標:處理有標籤數據時使用的評分
  • 內部指標:僅使用數據來衡量數據和結構之間的吻合度。
  • 相對指標:表明兩個聚類結構中哪一個在某種意義上更好。

3、大多數評價指標是通過緊湊性和可分性來定義的。

  • 緊湊性:衡量一個聚類中的元素彼此之間的距離。
  • 可分性:表示不同聚類之間的距離。

外部評價指標:

Rand Index = \frac{a+b}{2\times n},a:在聚類C與聚類K中都是同類元素的對數,不考慮哪個聚類的標籤。b:在聚類C與聚類K中都是不同類別的元素。

內部評價指標:

範圍(-1, 1),S_{i} = \frac{b_{i} - a_{i}}{max(a_{i}, b_{i})},a:同一個聚類中到其他的樣本的平均距離,b:與它距離最近的不同聚類中到樣本的平均距離。

S = average(S_{1},S_{2},...,S_{n})。其中DBSCAN不要使用輪廓係數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章