機器學習 -- K-MEANS算法（Ⅰ 聚類概述）

原創

m0_38056893

2020-02-22 11:13

聚類是一種無監督的學習，它將相似的對象歸到同一個簇中。聚類分析試圖將相似對象歸入同一簇，將不相似對象歸到不同簇。聚類方法幾乎可以應用於所有對象，簇內的對象越相似，聚類的效果越好。

聚類的概念

（1）聚類就是將集合劃分成由類（相）似的對象組成的多個類的過程。

（2）聚類分析是研究（樣品或指標）分類問題的一種統計分析方法。

（3）聚類所要求劃分的類是未知的，一般把它理解爲無監督學習。而分類算法是有訓練樣本的，屬於監督學習。

聚類的典型應用

（1）聚類可以幫助市場分析人員從客戶基本信息庫中發現不同的客戶羣；

（2）在生物學上，聚類可以根據生物基因結構，推導出植物和動物的物種分類，從而獲得對生物種羣固有結構的認識；

（3）聚類還能從地球觀測數據庫中找到地形、地貌等地理特徵相似的區域，提供生物物種或病蟲害預警信息；

（4）根據房屋的類型、價值和地理位置等信息對城市房屋進行聚類分組，爲客戶提供房屋資產評估服務。

聚類常見算法分類

（1）劃分聚類：大部分方法是基於距離的聚類算法。例如：k-MEANS、k-MEDOIDS、CLARANS等。

（2）層次聚類：例如：BIRCH、CURE、CHAMELEON等。層次聚類可採用“自底向上”或“自頂向下”方案。在“自底向上”方案中，初始時每一個數據紀錄都被視作一個單獨的簇，接着再把那些相互鄰近的簇合併成一個新的簇，直到所有的記錄都在一個簇或者滿足某個終止條件爲止。

（3）密度聚類：該方法是基於（結點）密度的聚類算法，主要算法有：DBSCAN、OPTICS、DENCLUE等。只要一個區域中的點的密度大過某個閥值，就把它加到與之相近的聚類中去。

（4）網格聚類：主要算法有：STING、CLIQUE、WAVE-CLUSTER。將數據空間按某種特徵（屬性）劃分成網格，聚類處理以網格（單元）爲基本單位。

聚類與分類的區別

在日常生活中，我們會對生活垃圾進行各種分類，比如可回收垃圾、有害垃圾等，垃圾處理時的“可回收”、“有害”等關鍵字就是分類的依據。在計算機進行數據處理時，用於分類的關鍵字被稱爲標籤，通過數據中的標籤進行劃分就是我們所說的分類算法。那麼，如果垃圾本身沒有可以記錄的標籤呢？計算機會根據相似性原則將數據歸爲數類，這種基於無標籤的分類算法就是聚類算法。

m0_38056893

發佈了306 篇原創文章 · 獲贊 70 · 訪問量 13萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習 -- K-MEANS算法（Ⅰ 聚類概述）

聚類的概念

聚類的典型應用

聚類常見算法分類

聚類與分類的區別

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

關於接口協議，你必須要知道這些！

FolkMq v1.4.6 發佈（可以內嵌的消息中間件）

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

01 穩定性（一）如何應對事故並做好覆盤？

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

京東面試：如何進行JVM調優？

Stream流常用方法總結

tensorflow2實現圖像分類：以貓狗數據集爲案例（上）

VMware tools的重新安裝

使用百度AI接口進行人臉對比（Python SDK V3版本實現）

機器學習 -- 多項式迴歸（Ⅳ 學習曲線）

機器學習 -- 多項式迴歸（Ⅸ L1，L2正則和彈性網）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結