本文轉自公衆號:大數據學習與分享
原文鏈接
聚類算法是機器學習中的一種無監督學習算法,它在數據科學領域應用場景很廣泛,比如基於用戶購買行爲、興趣等來構建推薦系統。
核心思想可以理解爲,在給定的數據集中(數據集中的每個元素有可被觀察的n個屬性),使用聚類算法將數據集劃分爲k個子集,並且要求每個子集內部的元素之間的差異度儘可能低,而不同子集元素的差異度儘可能高。簡而言之,就是通過聚類算法處理給定的數據集,將具有相同或類似的屬性(特徵)的數據劃分爲一組,並且不同組之間的屬性相差會比較大。
K-Means算法是聚類算法中應用比較廣泛的一種聚類算法,比較容易理解且易於實現。
"標準" K-Means算法
KMeans算法的基本思想是隨機給定K個初始簇中心,按照最鄰近原則把待分類樣本點分到各個簇。然後按平均法重新計算各個簇的質心,從而確定新的簇心。一直迭