目錄
高斯混合模型:
1、溫和的聚類算法,這種聚類算法假定每個類都遵循特定的統計分佈。
2、步驟:
- 初始化K個高斯分佈
- 將數據集聚類成我們初始化的兩個高斯——期望步驟或E步驟
- 基於軟聚類重新估計高斯——最大化或M步驟
- 評估對數似然來檢查收斂,收斂——>輸出結果
- 不收斂——>返回第二步驟,直至收斂爲止。
3、具體操作流程:
- 初始化:在數據集上使用K-Means生成聚類。
- ,
- ,
- ,求此式的最大化,數值越高,越能確定生成的混合模型可以負責創建數據,或者適合數據集。其中,k是聚類有關的混合係數。
sklearn高斯混合模型:
高斯混合模型總結:
1、優缺點:
優點:
- 提供軟聚類(軟聚類是多個聚類的示例性隸屬度)
- 聚類的外觀具有靈活性
缺點:
- GMM聚類對初始化值很敏感
- 可能收斂到局部最優
- 收斂速度慢
高斯混合模型附錄:
視頻:https://www.youtube.com/watch?v=lLt9H6RFO6A
聚類分析過程:
Data——>特徵選擇和特徵提取——>選擇一個聚類方法——>聚類評價——>聚類結果解釋。
- 特徵選擇是從一組候選特種中選擇特徵。特徵提取是對數據進行轉換以生成新的有用特徵。
- 聚類方法:可以用歐式距離,如果數據是文檔或詞嵌入,臨近度度量將是餘弦距離。
- 聚類評價:評分方法被稱爲指數。
聚類驗證:
1、聚類驗證是客觀和定量評估聚類結果的過程。
2、聚類評價指數有三種:(所有外部指標都能作爲相對指標)
- 外部指標:處理有標籤數據時使用的評分
- 內部指標:僅使用數據來衡量數據和結構之間的吻合度。
- 相對指標:表明兩個聚類結構中哪一個在某種意義上更好。
3、大多數評價指標是通過緊湊性和可分性來定義的。
- 緊湊性:衡量一個聚類中的元素彼此之間的距離。
- 可分性:表示不同聚類之間的距離。
外部評價指標:
,a:在聚類C與聚類K中都是同類元素的對數,不考慮哪個聚類的標籤。b:在聚類C與聚類K中都是不同類別的元素。
內部評價指標:
範圍(-1, 1),,a:同一個聚類中到其他的樣本的平均距離,b:與它距離最近的不同聚類中到樣本的平均距離。
。其中DBSCAN不要使用輪廓係數。