【數據挖掘】聚類 Cluster 矩陣轉換數據矩陣 -> 相似度矩陣 ( 聚類數據類型 | 區間標度型變量及標準化 | 相似度計算 | 明科斯基距離 | 曼哈頓距離

文章目錄

I . 聚類數據類型

聚類數據類型 :

① 區間標度變量 : 由數值和單位組成 , 如 , 168 $cm$ , 30 $^{o}C$ , 等值 ;

② 二元變量 :

③ 標稱型變量 :

④ 序數型變量 :

⑤ 比例標度型變量 :

⑥ 混合型變量 :

II . 區間標度型變量

1 . 區間標度型變量 :

① 舉例 : 重量 , 高度 , 長度 , 距離 , 經緯度 , 溫度 , 氣壓等由數值和刻度單位組成的變量 ;

② 度量單位影響 : 區間標度型變量採用的度量單位 , 直接影響聚類的分組結果 , 如身高使用米 , 釐米 , 毫米 , 作爲單位 , 其數值的數量級都不同 ;

③ 數據標準化 : 爲了避免度量單位對聚類分析結果的影響 , 將數據進行標準化操作 , 將數值 + 單位組成的標度型變量 , 規範化爲單純由數值表示的值 ;

III . 區間標度型變量標準化

1 . 數據標準化 : 對於區間標度型變量 $f$ , 消除其單位對聚類分析結果的影響 , 需要對齊進行標準化 ;

2 . 數據標準化過程 :

① 計算所有樣本 $f$ 屬性的平均值 ;

② 計算平均絕對偏差值 ;

③ 計算標準化度量值 ;

IV . 區間標度型變量標準化 ( 1 ) 計算所有數據的平均值

計算所有數據的平均值 : 假設數據集有 $n$ 個樣本 , 將樣本 $x$ 的 $f$ 屬性值變量相加除以 $n$ 取平均值 ;

$m_f = \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )$

$n$ 表示數據集樣本的個數 ;

$m_f$ 表示 $n$ 個樣的 $f$ 屬性的平均值 ;

$x_i$ 表示第 $i$ 個樣本 ;

$x_{nf}$ 表示第 $n$ 個樣本的 $f$ 屬性的值 , $x_{1f}$ 表示第 $1$ 個樣本的 $f$ 屬性 , $x_{2f}$ 表示第 $2$ 個樣本的 $f$ 屬性 ;

V . 區間標度型變量標準化 ( 2 ) 計算平均絕對偏差

1 . 計算平均絕對偏差 : 每個樣本的 $f$ 屬性減去所有樣本的 $f$ 屬性平均值 , 然後這個差取絕對值 , 將 $n$ 個樣本的 $f$ 屬性與平均值的差 的 絕對值 相加 , 然後再 取其平均值 , 即 平均絕對偏差 ;

① 樣本偏差 : 計算單個樣本的 $f$ 屬性與所有樣本的 $f$ 平均值的差 , 該值可能是正數 , 可能是負數 , 也可能是 0 ;

② 樣本絕對偏差 : 將上面計算的符號 ( 正負號 ) 位置的樣本偏差取絕對值 ;

③ 平均絕對偏差 : 將 $n$ 個樣本的絕對偏差相加 , 處於 $n$ 取平均值 , 即可得到平均絕對偏差 ;

2 . 平均絕對偏差公式如下 :

$S_f = \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )$

$S_f$ 表示平均絕對偏差 ;

$| x_1f - m_f |$ 表示第 $1$ 個樣本的 $f$ 屬性值 , 減去平均值後的絕對值 ;

VI . 區間標度型變量標準化 ( 3 ) 計算標準化度量值

1 . 計算標準化度量值 : 進行 Z-Score 變換 , 這是數據標準化處理的常用方法 ;

2 . Z-Score 變換公式如下 : 根據每個樣本的 $f$ 屬性值 , 樣本的 $f$ 屬性平均值 , 平均絕對偏差 $S_f$ , 計算出每個樣本的 $f$ 屬性標準化後的值 ;

$Z_{if} = \frac{x_{if} - m_f}{S_f}$

$Z_{if}$ 表示數據樣本標準化後的屬性值 , 該屬性值只有數值 , 沒有單位 ;

$x_{if}$ 表示第 $i$ 個樣本的 $f$ 屬性值 ;

$m_f$ 表示 $n$ 個樣的 $f$ 屬性的平均值 ;

$S_f$ 表示平均絕對偏差 ;

3 . 樣本數據屬性標準化本質 : 獲取數據集中的 單個樣本屬性 與 平均屬性 的偏差 , 相對於 平均絕對偏差 的比值 ; 最終的本質是 偏差的比值 ; 根據偏差確定樣本的相似度 ;

VII . 區間標度型變量標準化 ( 4 ) 屬性標準化示例

已知 : $3$ 個樣本數據 , 代表 $3$ 個人 , 身高屬性分別是 145 $cm$ , 180 $cm$ , 165 $cm$ , 將其標準化 ;

1 . 計算平均值 :

$\begin{array}{lcl} m_f &=& \frac{1}{n} ( x_{1f} + x_{2f} + \cdots + x_{nf} )\\\\ &=& \dfrac{145 + 180 + 165}{3}\\\\ &\approx& 163.333 \end{array}$

平均值計算結果是 $163.333$ ;

2 . 計算平均絕對偏差 :

$\begin{array}{lcl} S_f &=& \frac{1}{n} ( | x_1f - m_f | + | x_2f - m_f | + \cdots + | x_nf - m_f | )\\\\ &=&\dfrac{|145 - 163.333| + |180 - 163.333| + |165 - 163.333| }{3}\\\\ &=&\dfrac{18.333 + 16.667‬ + 1.667 }{3}\\\\ &=&\dfrac{36.667‬ }{3}\\\\ &\approx& 12.222 \end{array}$

平均絕對偏差值計算結果是 $12.222$ ;

3 . Z-Score 標準化 :

① 樣本 $1$ 身高 145 $cm$ 標準化 : 標準化後的值爲 $-1.5$ , 沒有單位只有一個數值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{145 - 163.333}{12.222}\\\\ &=&\dfrac{-18.333‬}{12.222}\\\\ &=& -1.5 \end{array}$

② 樣本 $2$ 身高 180 $cm$ 標準化 : 標準化後的值爲 $1.364$ , 沒有單位只有一個數值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{180 - 163.333}{12.222}\\\\ &=&\dfrac{16.667‬}{12.222}\\\\ &\approx& 1.364 \end{array}$

③ 樣本 $3$ 身高 165 $cm$ 標準化 : 標準化後的值爲 $0.136$ , 沒有單位只有一個數值 ;

$\begin{array}{lcl} Z_{if} &=& \dfrac{x_{if} - m_f}{S_f}\\\\ &=&\dfrac{165 - 163.333}{12.222}\\\\ &=&\dfrac{1.667‬}{12.222}\\\\ &\approx& 0.136 \end{array}$

4 . 標準化結果 : $3$ 個樣本數據 , 代表 $3$ 個人 , 身高屬性分別是 145 $cm$ , 180 $cm$ , 165 $cm$ , 將其標準化後的值分別是 : $-1.5 , 1.364 , 0.136$

VIII . 相似度計算 ( 1 ) 明科斯基距離

1 . 對象相似度 ( 相異度 ) 計算 : 根據 兩個樣本對象之間的距離 計算 , 通常使用明科斯基距離公式進行計算 ;

2 . 明科斯基距離計算公式 :

$d(i, j) = \sqrt [q] { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q }$

$d(i, j)$ 表示兩個樣本之間的距離 , 明科斯基距離 ;

$q$ 是一個係數 , 取值 $\{1 , 2 , \cdots\}$ ; 該取值很重要 , 不同取值衍生出不同的公式 ;

$p$ 表示屬性的個數 , 每個樣本有 $p$ 個屬性 ;

$i$ 和 $j$ 表示兩個樣本的索引值 , 取值範圍是 $\{1 , 2, \cdots , q\}$ ;

$x_{ip} - x_{jp}$ 表示兩個樣本第 $p$ 個屬性值的差值 , $x_{i1} - x_{j1}$ 表示兩個樣本第 $1$ 個屬性值的差值 , $x_{i2} - x_{j2}$ 表示兩個樣本第 $2$ 個屬性值的差值 ;

$|x_{ip} - x_{jp}|$ 表示兩個樣本第 $p$ 個屬性值的差值的絕對值 , $|x_{i1} - x_{j1}|$ 表示兩個樣本第 $1$ 個屬性值的差值的絕對值 , $|x_{i2} - x_{j2}|$ 表示兩個樣本第 $2$ 個屬性值的差值的絕對值 ;

最外層計算 ( $q$ 次方根 ) : 最終計算需要求 $( { | x_{i1} - x_{j1} | ^q + | x_{i2} - x_{j2} | ^q + \cdots + | x_{ip} - x_{jp} | ^q } )$ 的 $q$ 次方根 ;

IX . 相似度計算 ( 2 ) 曼哈頓距離

1 . 曼哈頓距離 : 明科斯基距離計算很複雜 , 尤其是 $q$ 取值很大時 , 因此該公式並不常用 , 通常情況下會將 $q$ 取值爲 $1$ , 或 $2$ , 當 $q = 1$ 時 , 該距離又稱爲 曼哈頓距離 ;

2 . 曼哈頓距離公式如下 :

$d(i, j) = | x_{i1} - x_{j1} | + | x_{i2} - x_{j2} | + \cdots + | x_{ip} - x_{jp} |$

$d(i, j)$ 表示兩個樣本之間的距離 , 曼哈頓距離 ;

$p$ 表示屬性的個數 , 每個樣本有 $p$ 個屬性 ;

$i$ 和 $j$ 表示兩個樣本的索引值 , 取值範圍是 $\{1 , 2, \cdots , q\}$ ;

3 . 曼哈頓距離與明科斯基距離 :

① 去掉了外層 $q$ 次方跟計算 : $q = 1$ 時 , 外層開 $1$ 次方根 , 直接將 $q$ 次方根計算的根號去掉即可 ;

② 去掉了樣本差的指數計算 : 計算 $| x_{i1} - x_{j1} |$ 值的 $1$ 次方 , 也可以取消 $q$ 次方的指數計算 ;

4 . 曼哈頓距離圖示 : 曼哈頓的街道都是橫平豎直的 , 從 $A$ 點到 $B$ 點 , 一般就是其 $x$ 軸座標差加上其 $y$ 軸座標差 , 即 $x + y$ ;

X . 相似度計算 ( 3 ) 歐幾里得距離

1 . 歐幾里得距離 : 明科斯基距離計算很複雜 , 尤其是 $q$ 取值很大時 , 因此該公式並不常用 , 通常情況下會將 $q$ 取值爲 $1$ , 或 $2$ , 當 $q = 2$ 時 , 該距離又稱爲 歐幾里得距離 ;

2 . 歐幾里得距離公式如下 :

$d(i, j) = \sqrt { | x_{i1} - x_{j1} | ^2 + | x_{i2} - x_{j2} | ^2 + \cdots + | x_{ip} - x_{jp} | ^2 }$

$d(i, j)$ 表示兩個樣本之間的距離 , 明科斯基距離 ;

$p$ 表示屬性的個數 , 每個樣本有 $p$ 個屬性 ;

$i$ 和 $j$ 表示兩個樣本的索引值 , 取值範圍是 $\{1 , 2, \cdots , q\}$ ;

3 . 歐幾里得距離圖示 :從 $A$ 點到 $B$ 點的實際直線距離 , 即 $z$ 距離 ;

歐氏空間 : 可以計算歐幾里得距離的空間 , 叫做歐氏空間 ;

4 . 歐幾里得距離屬性 :

① 樣本之間的距離非負 : $d(i, j) \geq 0$ , 歐幾里得距離是先求平方和 , 再開根號 , 這個值一定是一個大於等於 $0$ 的數值 ;

② 樣本與其本身的距離爲 $0$ : $d(i, i) = 0$ , 一個樣本與其本身的相似度值肯定爲 $0$ , 因爲其屬性值完全相同 ;

③ 對稱性 : $d(i , j) = d(j , i)$ , 樣本 $i$ 與樣本 $j$ 的相似度 , 肯定等於樣本 $j$ 與樣本 $i$ 的相似度 ;

④ 三角不等式 : 兩邊之和 , 一定大於第三邊 , $d(i , j) \leq d(i , l) + d(l , j)$ , 從第 $i$ 個樣本到第 $j$ 個樣本的 直接距離 , 小於等於其途徑任何樣本 $l$ 生成的的兩個距離之和 $d(i , l) + d(l , j)$ , 這兩個距離分別是樣本 $i$ 到樣本 $l$ 的距離 $d(i , l)$ , 和樣本 $l$ 到樣本 $j$ 的距離 $d(l , j)$ ;

5 . 屬性權重 : 計算時 , 有些屬性可能很重要 , 有些屬性不重要 , 可以爲樣本的不同屬性 , 賦予不同的權重 , $w_i$ ;

公式變爲 :

$d(i, j) = \sqrt { w_1 | x_{i1} - x_{j1} | ^2 + w_2 | x_{i2} - x_{j2} | ^2 + \cdots + w_p | x_{ip} - x_{jp} | ^2 }$

其中 $w_1$ 表示屬性 $1$ 的權重 , $w_2$ 表示屬性 $2$ 的權重 , $w_p$ 表示屬性 $p$ 的權重 ;

【數據挖掘】聚類 Cluster 矩陣轉換數據矩陣 -> 相似度矩陣 ( 聚類數據類型 | 區間標度型變量及標準化 | 相似度計算 | 明科斯基距離 | 曼哈頓距離 | 歐幾里得距離 )

文章目錄

I . 聚類數據類型

II . 區間標度型變量

III . 區間標度型變量標準化

IV . 區間標度型變量標準化 ( 1 ) 計算所有數據的平均值

V . 區間標度型變量標準化 ( 2 ) 計算平均絕對偏差

VI . 區間標度型變量標準化 ( 3 ) 計算標準化度量值

VII . 區間標度型變量標準化 ( 4 ) 屬性標準化示例

VIII . 相似度計算 ( 1 ) 明科斯基距離

IX . 相似度計算 ( 2 ) 曼哈頓距離

X . 相似度計算 ( 3 ) 歐幾里得距離

【Android 電量優化】電量優化 ( 使用 AlarmManager 保持 CPU 喚醒 )

【Android 電量優化】電量優化 ( 喚醒鎖定 | 使用 WeakLock 保持服務喚醒 | 屏幕喚醒 )

【Android 電量優化】電量優化 ( JobScheduler | JobService | AsyncTask )

【Android 電量優化】電量優化 ( 耗電量測試 | Battery Historian 簡介 | apt 源更新 | Docker 安裝 | Battery Historian 安裝 )

【Android 電量優化】電量優化 ( Battery Historian 環境要求 | 電量分析報告 | 電量優化三原則 | 電量優化注意事項 )

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【數據挖掘】聚類 Cluster 矩陣轉換 數據矩陣 -> 相似度矩陣 ( 聚類數據類型 | 區間標度型變量及標準化 | 相似度計算 | 明科斯基距離 | 曼哈頓距離 | 歐幾里得距離 )

文章目錄

I . 聚類數據類型

II . 區間標度型變量

III . 區間標度型變量 標準化

IV . 區間標度型變量 標準化 ( 1 ) 計算所有數據的平均值

V . 區間標度型變量 標準化 ( 2 ) 計算平均絕對偏差

VI . 區間標度型變量 標準化 ( 3 ) 計算標準化度量值

VII . 區間標度型變量 標準化 ( 4 ) 屬性標準化示例

VIII . 相似度計算 ( 1 ) 明科斯基距離

IX . 相似度計算 ( 2 ) 曼哈頓距離

X . 相似度計算 ( 3 ) 歐幾里得距離

【數據挖掘】聚類 Cluster 矩陣轉換數據矩陣 -> 相似度矩陣 ( 聚類數據類型 | 區間標度型變量及標準化 | 相似度計算 | 明科斯基距離 | 曼哈頓距離 | 歐幾里得距離 )

III . 區間標度型變量標準化

IV . 區間標度型變量標準化 ( 1 ) 計算所有數據的平均值

V . 區間標度型變量標準化 ( 2 ) 計算平均絕對偏差

VI . 區間標度型變量標準化 ( 3 ) 計算標準化度量值

VII . 區間標度型變量標準化 ( 4 ) 屬性標準化示例