聚類算法之基於密度的聚類算法DBSCAN算法

原創

2020-04-12 03:23

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個比較有代表性的基於密度的聚類算法。與劃分和層次聚類方法不同，它將簇定義爲密度相連的點的最大集合，能夠把具有足夠高密度的區域劃分爲簇，並可在噪聲的空間數據庫中發現任意形狀的聚類。

DBSCAN算法最重要的兩個參數是 $\varepsilon$ 和 $MinPts$ ，其中 $\varepsilon$ 描述了某一樣本的鄰域距離閾值， $MinPts$ 描述了某一樣本的距離爲 $\varepsilon$ 的鄰域中樣本個數的閾值。

DBSCAN算法中的概念

$\varepsilon$ ： 包含樣本集 $D$ 中與某個樣本 $x$ 的距離不大於 $\varepsilon$ 的子樣本集。
核心對象： 對於任意一個樣本 $x$ ，若其 $\varepsilon$ 鄰域中至少包含 $MinPts$ 個樣本，則該樣本 $x$ 是核心對象。
密度直達： 若 $x_i$ 位於 $x_j$ 的 $\varepsilon$ 鄰域中，且 $x_j$ 是核心對象，則稱 $x_i$ 由 $x_j$ 密度直達，反之不一定成立。
密度可達： 對於 $x_i$ 和 $x_j$ ，若存在樣本序列 $\begin{Bmatrix}P_1,P_2,...,P_t\end{Bmatrix}$ ，滿足 $P_1=x_i,P_t=x_j$ 且 $P_{t+1}$ 由 $P_{t}$ 密度直達，則稱 $x_i$ 由 $x_j$ 密度可達。密度可達滿足傳遞性，此時序列 $P_1,P_2,...,P_{t-1}$ 均爲核心對象，因爲只有核心對象才能使其他樣本密度直達。
密度相連： 對於 $x_i$ 和 $x_j$ ，若存在覈心對象 $x_k$ ，使 $x_i$ 和 $x_j$ 均由 $x_k$ 密度可達，則稱 $x_i$ 和 $x_j$ 密度相連。密度相連滿足對稱性。

DBSCAN算法流程

輸入樣本集 $D=\begin{Bmatrix}x_1,x_2,...,x_m\end{Bmatrix}$ ，鄰域參數（ $\varepsilon$ 和 $MinPts$ ），樣本距離度量方式。

1.初始化核心對象集合 $\Omega= \varnothing$ ，初始化聚類簇數K=0，初始化爲未訪問樣本集合 $\Gamma=D$ ，簇劃分 $C= \varnothing$ 。

2.對於 $j=1,2,3...m$ ，按下面步驟找出所有核心對象：
a.通過距離度量方式，找到樣本 $x_j$ 的 $\varepsilon$ 鄰域子樣本集 $N_\varepsilon(x_j)$ ；
b.若子樣本集中樣本個數滿足 $N_\varepsilon(x_j)\geq MinPts$ ，則將樣本 $x_j$ 加入核心對象樣本集合 $\Omega= \Omega\cup\begin{Bmatrix}x_j\end{Bmatrix}$ ；

3.如果 $\Omega= \varnothing$ ，則算法結束，否則進入4；

4.在覈心對象集合中，隨機選擇一個核心對象o，初始化當前簇核心對象隊列 $\Omega_{cut}=\begin{Bmatrix}o\end{Bmatrix}$ ，初始化類別序號 $K=K+1$ ，初始化當前簇樣本集合 $C_K=\begin{Bmatrix}o\end{Bmatrix}$ ，更新未訪問集合 $\Gamma=\Gamma-\begin{Bmatrix}o\end{Bmatrix}$ ；

5.若當前簇核心對象隊列 $\Omega_{cut}=\varnothing$ ，則當前聚類簇 $C_K$ 生成完畢，更新簇劃分 $C= \begin{Bmatrix}C_1,C_2,C_3...C_K\end{Bmatrix}$ ，更新核心對象集合 $\Omega= \Omega-C_K$ ，轉入3；

6.在當前簇核心對象隊列 $\Omega_{cut}$ 中取出一個核心對象 $o'$ ，通過鄰域距離閾值 $\varepsilon$ 找出所有的 $\varepsilon$ 鄰域子樣本集 $N_\varepsilon(o')$ ，令 $\Delta =N_\varepsilon (o')\cap \Gamma$ ，更新當前簇樣本集合 $C_K=C_K\cup\Delta$ ，更新未訪問樣本集合 $\Gamma=\Gamma-\Delta$ ，更新 $\Omega_{cut}=\Omega_{cut}\cup(N_\varepsilon(o')\cap\Omega)$ ，轉入步驟5；

輸出結果：簇劃分 $C= \begin{Bmatrix}C_1,C_2,C_3...C_K\end{Bmatrix}$

DBSCAN算法總結

優點：
1.可以對任意形狀的稠密數據集進行聚類，K-Means一般只適用於凸數據集，而DBSCAN無此限制；
2.可以在聚類的同時發現異常點，對異常點不敏感；
3.聚類結果沒有偏倚，相對的，K-Means初始值對聚類結果有很大影響。

缺點：
1.如果樣本密度不均勻、聚類間距差相差很大時，聚類質量較差，這時一般不適用於DBSCAN；
2.如果數據較大時，收斂時間較長，此時可以對搜索最近鄰時建立的KD樹或者球樹進行規模限制來進行改進；
3.調參較傳統的K-Means複雜，需要對 $\varepsilon$ 和 $MinPts$ 聯合調參，不同參數組合對結果影響很大。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

聚類算法之基於密度的聚類算法DBSCAN算法

DBSCAN算法中的概念

DBSCAN算法流程

DBSCAN算法總結

工作中用到的腳本合集

微服務實踐Aspire項目發佈到遠程k8s集羣

通過f-string編寫簡潔高效的Python格式化輸出代碼

[轉帖]20個常用的Linux工具命令

[轉帖]PostgreSQL從小白到高手教程 - 第46講：poc-tpch測試

24-5-18 X

線性迴歸(linear regression)的概率解釋—使用極大似然估計推導線性迴歸問題

集成算法之GBDT和xgboost

SQL入門（一）

SQL入門（二）

集成算法之Bagging和Boosting

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結