機器學習 -- K-MEANS算法(Ⅰ 聚類概述)

        聚類是一種無監督的學習,它將相似的對象歸到同一個簇中。聚類分析試圖將相似對象歸入同一簇,將不相似對象歸到不同簇。聚類方法幾乎可以應用於所有對象,簇內的對象越相似,聚類的效果越好。

 

聚類的概念

(1)聚類就是將集合劃分成由類(相)似的對象組成的多個類的過程。

(2)聚類分析是研究(樣品或指標)分類問題的一種統計分析方法。

(3)聚類所要求劃分的類是未知的,一般把它理解爲無監督學習。而分類算法是有訓練樣本的,屬於監督學習

 

聚類的典型應用

(1)聚類可以幫助市場分析人員從客戶基本信息庫中發現不同的客戶羣;

(2)在生物學上,聚類可以根據生物基因結構,推導出植物和動物的物種分類,從而獲得對生物種羣固有結構的認識;

(3)聚類還能從地球觀測數據庫中找到地形、地貌等地理特徵相似的區域,提供生物物種或病蟲害預警信息;

(4)根據房屋的類型、價值和地理位置等信息對城市房屋進行聚類分組,爲客戶提供房屋資產評估服務。

 

聚類常見算法分類

(1)劃分聚類:大部分方法是基於距離的聚類算法。例如:k-MEANS、k-MEDOIDS、CLARANS等。

(2)層次聚類:例如:BIRCH、CURE、CHAMELEON等。層次聚類可採用“自底向上”或“自頂向下”方案。在“自底向上”方案中,初始時每一個數據紀錄都被視作一個單獨的簇,接着再把那些相互鄰近的簇合併成一個新的簇,直到所有的記錄都在一個簇或者滿足某個終止條件爲止。

(3)密度聚類:該方法是基於(結點)密度的聚類算法,主要算法有:DBSCAN、OPTICS、DENCLUE等。只要一個區域中的點的密度大過某個閥值,就把它加到與之相近的聚類中去。

(4)網格聚類:主要算法有:STING、CLIQUE、WAVE-CLUSTER。將數據空間按某種特徵(屬性)劃分成網格,聚類處理以網格(單元)爲基本單位。

 

聚類與分類的區別

        在日常生活中,我們會對生活垃圾進行各種分類,比如可回收垃圾、有害垃圾等,垃圾處理時的“可回收”、“有害”等關鍵字就是分類的依據。在計算機進行數據處理時,用於分類的關鍵字被稱爲標籤,通過數據中的標籤進行劃分就是我們所說的分類算法。那麼,如果垃圾本身沒有可以記錄的標籤呢?計算機會根據相似性原則將數據歸爲數類,這種基於無標籤的分類算法就是聚類算法

發佈了306 篇原創文章 · 獲贊 70 · 訪問量 13萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章