推薦：如何正確選擇聚類算法？

原創

weekingqi

2020-02-20 23:31

聚類算法十分容易上手，但是選擇恰當的聚類算法並不是一件容易的事。

數據聚類是搭建一個正確數據模型的重要步驟。數據分析應當根據數據的共同點整理信息。然而主要問題是，什麼通用性參數可以給出最佳結果，以及什麼才能稱爲“最佳”。

本文適用於菜鳥數據科學家或想提升聚類算法能力的專家。下文包括最廣泛使用的聚類算法及其概況。根據每種方法的特殊性，本文針對其應用提出了建議。

四種基本算法以及如何選擇

聚類模型可以分爲四種常見的算法類別。儘管零零散散的聚類算法不少於100種，但是其中大部分的流行程度以及應用領域相對有限。

基於整個數據集對象間距離計算的聚類方法，稱爲基於連通性的聚類（connectivity-based）或層次聚類。根據算法的“方向”，它可以組合或反過來分解信息——聚集和分解的名稱正是源於這種方向的區別。最流行和合理的類型是聚集型，你可以從輸入所有數據開始，然後將這些數據點組合成越來越大的簇，直到達到極限。

層次聚類的一個典型案例是植物的分類。數據集的“樹”從具體物種開始，以一些植物王國結束，每個植物王國都由更小的簇組成（門、類、階等）。

層次聚類算法將返回樹狀圖數據，該樹狀圖展示了信息的結構，而不是集羣上的具體分類。這樣的特點既有好處，也有一些問題：算法會變得很複雜，且不適用於幾乎沒有層次的數據集。這種算法的性能也較差：由於存在大量的迭代，因此整個處理過程浪費了很多不必要的時間。最重要的是，這種分層算法並不能得到精確的結構。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

推薦：如何正確選擇聚類算法？

劍指offer No.13 調整數組順序使奇數位於偶數的前面

劍指offer No.12 數值的整數次方

劍指offer No.7 斐波那契數列

劍指offer No.8 跳臺階

劍指offer No.6 旋轉數組的最小數字

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

推薦 ：如何正確選擇聚類算法？

推薦：如何正確選擇聚類算法？