【數據挖掘】基於密度的聚類方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基於密度聚類原理及概念 | ε-鄰域 | 核心對象 | 直接密度可達 | 密度可達

文章目錄

I . K-Means 算法在實際應用中的缺陷

1 . K-Means 算法中中心點選擇是隨機的 : 隨機地選擇聚類分組的中心點 ;

① 選擇實點 : 可以選擇實點 ( 當前現有的樣本值 ) 作爲聚類中心點 ;

② 生成虛點 : 也可以選擇生成虛點 ( 任意位置模擬出一個樣本點 ) 作爲中心點 ;

2 . 必須事先設置聚類分組個數 $K$ 值 : 開始的時候並不知道將數據集分成幾組能達到最佳的分組效果 ;

① 學習出 $K$ 值 : 使用其它聚類方法 , 先將數據集學習一遍 , 確定聚類分組個數 ;

② 多次聚類 : 選取不同的 $K$ 聚類分組個數 , 然後看取什麼值可以達到最好的聚類分組效果 ;

3 . 最佳實踐 : 運行多次 K-Means 方法 , 選取不同的 $K$ 值 , 以及不同的聚類分組個數 ;

II . K-Means 初始中心點選擇不恰當

下面的數據集 , 如果使用肉眼觀察 , 選擇的中心點是如下綠色的點 , 但是如果隨機選擇中心點 , 加入選擇的很差 , 如下圖中的紅色點作爲中心點 , 那麼迭代之後的聚類分組如下圖所示 , 明顯該聚類分組不是最佳分組 ;

① 肉眼觀察 3-NN 聚類分組比較合適的中心點距離 :

② 隨機選擇中心點後的聚類分組 : 這是隨機選擇的分組 , 顯然這不是最佳分組 ;

選擇的初始的中心點太垃圾 , 會導致多次迭代 , 即使算法收斂 , 多次迭代計算的聚類分組不再改變 , 得到結果也可能是不準確的 ;

這是基於距離 ( 劃分 ) 的聚類方法的固有缺陷 ;

III . K-Means 優點與弊端

1 . K-Means 好處是 : 簡單 , 容易理解 , 性能較高 , 能很快計算出聚類結果 ;

2 . K-Means 弊端 : 只能找出球形的聚類分組 , 對異常點和噪音非常敏感 , 如果有一個異常點 , 就會導致聚類分組不準確 , 魯棒性差 ;

3 . K-Means 無法處理的情況 : 如下面的聚類 , 將不同形狀的樣本分開 , 需要識別出凹形的模式 , K-Means 無法完成該聚類操作 ;

IV . 基於密度的聚類方法

1 . 基於密度的聚類方法 :

① 方法迭代原理 : 相鄰區域的密度 , 即單位空間內數據樣本點的個數 , 超過用戶定義的某個閾值 , 那麼該區域需要進行聚類 , 如果低於某個閾值 , 聚類停止 , 算法終止 ;

② 聚類分組前提 : 如果想要將多個數據樣本劃分到一個聚類分組中 , 那麼這些樣本的分佈必須達到一定的密度 , 即在某個範圍大小區域內 , 該樣本點必須達到一定的數目 ; 具體的數量個數根據空間大小 , 和密度計算出來 ;

2 . 示例 : 如 , 先定義好 , 如果進行聚類 , 必須在 $1 \times 1$ 平面內至少有 $16$ 個樣本 , 給定一個區域內的點 , 如果該區域的樣本密度值大於 $16$ , 就劃分到一個聚類中 ; 如果該區域是 $0.5\times 0.5$ 大小 , 那麼只需要有 $4$ 個就能進行聚類 , 如果這個區域是 $2 \times 2$ , 必須有 $64$ 個樣本才能聚類成一組 ;

3 . 基於密度聚類好處 : 該方法可以排除異常點 , 噪音數據 , 魯棒性很好 ;

4 . 基於密度的聚類方法涉及到的參數 : 密度閾值 , 聚類區域範圍 ;

V . 基於密度的聚類方法 DBSCAN 方法

DBSCAN 方法 :

① 全稱 : Density Based Spatial Clustering of Application with Noise , 基於密度兼容噪音的空間聚類應用算法 ;

② 聚類分組原理 : 數據樣本 $p$ 與 $q$ 存在 密度連接 關係 , 那麼 $p$ 和 $q$ 這兩個樣本應該劃分到同一個聚類中 ;

③ 噪音識別原理 : 數據樣本 $n$ 與任何樣本不存在 密度連接 關係 , 那麼 $n$ 樣本就是噪音數據 ;

VI . $\varepsilon$ -鄰域

1 . $\varepsilon$ -鄰域 : 這是一個範圍定義 , 給定一個數據樣本對象 , 以該樣本爲中心 , 指定一個半徑 $\varepsilon$ , 形成一個範圍區域 , 組成了該樣本的 $\varepsilon$ -鄰域 ;

2 . $\varepsilon$ -鄰域示例 : 如果是二維平面該範圍區域是一個圓 , 如果是三維平該範圍區域是一個球 ;

3 . $\varepsilon$ -鄰域圖示 : 下面的紅點就是樣本點 , 以紅點爲圓心 , 以 $\varepsilon$ 爲半徑的淺綠色區域 , 就是 $\varepsilon$ -鄰域 ;

VII . 核心對象

1 . 核心對象 : 在一個樣本對象 $C$ 的 $\varepsilon$ -鄰域中 , 有超過一定閾值 ( 最小數量 ) 的樣本對象分佈 , 那麼該樣本對象 $C$ 就是核心對象 ;

2 . 核心對象圖示 : 如果該閾值 ( 最小數量 ) 設置成 $5$ , 那麼該 $\varepsilon$ -鄰域中有 $6$ 個點 , 超過了最小閾值 , 紅色的中心點數據樣本是核心對象 ;

VIII . 直接密度可達

1 . 直接密度可達 : Directly Density Reachable ( DDR ) ;

① 概念 : 樣本 $p$ 是核心對象 ( 以 $p$ 爲中心 $\varepsilon$ -鄰域中超過閾值個數的樣本 ) , 樣本 $q$ 在其 $\varepsilon$ -鄰域中 , 那麼稱爲 $p$ 直接密度可達 $q$ ; 注意方向 $p \rightarrow q$ , 從 $p$ 出發直接密度可達 $q$ ;

② 直接密度可達有兩個條件 : ① 起點必須是核心對象 , ② 終點必須在起點的 $\varepsilon$ -鄰域中 ;

2 . 直接密度可達的注意點 :

① 單向概念 : 注意該概念是單向的概念 , $p$ 樣本出發 , 可以 直接密度可達 $q$ , 反過來是不行的 ; $q$ 出發不一定能到 $p$ ;

② 直接密度可達起點 : 只有 核心對象纔有資格 發起密度可達概念 , 不是核心對象 , 沒有資格作爲起點 ;

③ 直接密度可達性質 : 如果 $p$ 是核心對象 , 那麼從 $p$ 出發 , 可以直接密度可達其 $\varepsilon$ -鄰域中所有的樣本點 ;

④ 如果 $p$ 不是核心對象 , 那麼沒有直接密度可達的概念 ;

3 . 圖示 : 紅色點 $p$ 是核心對象 , $q$ 在其 $\varepsilon$ -鄰域中 , $p$ 直接密度可達 $q$ ;

IX . 密度可達

1 . 密度可達 : $p$ 密度可達 $q$ , 存在一個由核心對象組成的鏈 , $p$ 直接密度可達 $p_1$ , $p_1$ 直接密度可達 $p_2$ , $\cdots$ , $p_{n-1}$ 直接密度可達 $p_n$ , 此時稱爲 $p$ 密度可達 $q$ ;

2 . 鏈上的核心對象要求 : 鏈的起點 , 和經過的點 , 必須是核心對象 , 鏈的最後一個點 , 可以是任意對象 ;

3 . 密度可達與直接密度可達區別 : 密度可達與直接密度可達的概念在於是直接可達 , 還是間接可達 ;

4 . 密度可達圖示 : $p$ 直接密度可達 $q$ , $q$ 直接密度可達 $t$ , $p$ 密度可達 $t$ ;

X . 密度連接

1 . 密度連接 : $p$ 和 $q$ 兩個樣本 , 存在一箇中間樣本對象 $O$ , $O$ 到 $p$ 是 密度可達 的 , $O$ 到 $q$ 是 密度可達 的 ;

2 . 密度連接方向 : $O$ 可以密度連接 $p$ 和 $q$ 樣本 , 但是 $p$ 和 $q$ 不一定能走到 $O$ , 它們可能不是核心對象 ;

3 . 核心對象要求 : $O$ 以及到樣本 $p$ 或者樣本 $q$ 中間的樣本都必須是核心對象 , 但是 $p$ 和 $q$ 兩個對象不要求是核心對象, 它們可以是普通的樣本點 ;

4 . 密度連接圖示 : 下圖中 , 樣本點 $O$ 密度可達 $p$ 和 $q$ , 那麼 $p$ 和 $q$ 是密度連接的 ; 其中 $p, q$ 不是核心對象 , $O , p_1 , p_2 , q_1 , q_2$ 是核心對象 ;

【數據挖掘】基於密度的聚類方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基於密度聚類原理及概念 | ε-鄰域 | 核心對象 | 直接密度可達 | 密度可達 | 密度連接 )

文章目錄

I . K-Means 算法在實際應用中的缺陷

II . K-Means 初始中心點選擇不恰當

III . K-Means 優點與弊端

IV . 基於密度的聚類方法

V . 基於密度的聚類方法 DBSCAN 方法

VI . $\varepsilon$ -鄰域

VII . 核心對象

VIII . 直接密度可達

IX . 密度可達

X . 密度連接

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

【Android 電量優化】電量優化 ( 使用 AlarmManager 保持 CPU 喚醒 )

【Android 電量優化】電量優化 ( 喚醒鎖定 | 使用 WeakLock 保持服務喚醒 | 屏幕喚醒 )

【Android 電量優化】電量優化 ( JobScheduler | JobService | AsyncTask )

【Android 電量優化】電量優化 ( 耗電量測試 | Battery Historian 簡介 | apt 源更新 | Docker 安裝 | Battery Historian 安裝 )

【Android 電量優化】電量優化 ( Battery Historian 環境要求 | 電量分析報告 | 電量優化三原則 | 電量優化注意事項 )

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【數據挖掘】基於密度的聚類方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基於密度聚類原理及概念 | ε-鄰域 | 核心對象 | 直接密度可達 | 密度可達 | 密度連接 )

文章目錄

I . K-Means 算法在實際應用中的缺陷

II . K-Means 初始中心點選擇不恰當

III . K-Means 優點 與 弊端

IV . 基於密度的聚類方法

V . 基於密度的聚類方法 DBSCAN 方法

VI . ε\varepsilonε-鄰域

VII . 核心對象

VIII . 直接密度可達

IX . 密度可達

X . 密度連接

III . K-Means 優點與弊端

VI . $\varepsilon$ -鄰域