I . 聚類數據類型
聚類數據類型 :
① 區間標度變量 : 由 數值 和 單位組成 , 如 , 168 cm , 30 oC , 等值 ;
② 二元變量 :
③ 標稱型變量 :
④ 序數型變量 :
⑤ 比例標度型變量 :
⑥ 混合型變量 :
II . 區間標度型變量
1 . 區間標度型變量 :
① 舉例 : 重量 , 高度 , 長度 , 距離 , 經緯度 , 溫度 , 氣壓 等由 數值 和 刻度單位 組成的變量 ;
② 度量單位影響 : 區間標度型變量 採用的 度量單位 , 直接影響聚類的分組結果 , 如身高使用 米 , 釐米 , 毫米 , 作爲單位 , 其數值的數量級都不同 ;
③ 數據標準化 : 爲了避免度量單位對聚類分析結果的影響 , 將數據進行標準化操作 , 將 數值 + 單位 組成的標度型變量 , 規範化爲單純由 數值 表示的值 ;
III . 區間標度型變量 標準化
1 . 數據標準化 : 對於 區間標度型變量 f , 消除其單位對聚類分析結果的影響 , 需要對齊進行標準化 ;
2 . 數據標準化過程 :
① 計算所有樣本 f 屬性的平均值 ;
② 計算平均絕對偏差值 ;
③ 計算標準化度量值 ;
IV . 區間標度型變量 標準化 ( 1 ) 計算所有數據的平均值
計算所有數據的平均值 : 假設數據集有 n 個樣本 , 將樣本 x 的 f 屬性值變量相加除以 n 取平均值 ;
mf=n1(x1f+x2f+⋯+xnf)
n 表示 數據集樣本的個數 ;
mf 表示 n 個樣的 f 屬性的平均值 ;
xi 表示第 i 個樣本 ;
xnf 表示第 n 個樣本的 f 屬性的值 , x1f 表示第 1 個樣本的 f 屬性 , x2f 表示第 2 個樣本的 f 屬性 ;
V . 區間標度型變量 標準化 ( 2 ) 計算平均絕對偏差
1 . 計算平均絕對偏差 : 每個樣本的 f 屬性減去 所有樣本的 f 屬性平均值 , 然後這個差取絕對值 , 將 n 個樣本的 f 屬性 與平均值的差 的 絕對值 相加 , 然後再 取其平均值 , 即 平均絕對偏差 ;
① 樣本偏差 : 計算單個樣本的 f 屬性 與 所有樣本的 f 平均值的差 , 該值可能是正數 , 可能是負數 , 也可能是 0 ;
② 樣本絕對偏差 : 將上面計算的 符號 ( 正負號 ) 位置的樣本偏差取絕對值 ;
③ 平均絕對偏差 : 將 n 個樣本的絕對偏差相加 , 處於 n 取平均值 , 即可得到平均絕對偏差 ;
2 . 平均絕對偏差公式如下 :
Sf=n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)
Sf 表示 平均絕對偏差 ;
∣x1f−mf∣ 表示第 1 個樣本的 f 屬性值 , 減去平均值後的絕對值 ;
VI . 區間標度型變量 標準化 ( 3 ) 計算標準化度量值
1 . 計算標準化度量值 : 進行 Z-Score 變換 , 這是數據標準化處理的常用方法 ;
2 . Z-Score 變換公式如下 : 根據每個樣本的 f 屬性值 , 樣本的 f 屬性平均值 , 平均絕對偏差 Sf , 計算出每個樣本的 f 屬性標準化後的值 ;
Zif=Sfxif−mf
Zif 表示 數據樣本 標準化 後的 屬性值 , 該屬性值只有數值 , 沒有單位 ;
xif 表示第 i 個樣本的 f 屬性值 ;
mf 表示 n 個樣的 f 屬性的平均值 ;
Sf 表示 平均絕對偏差 ;
3 . 樣本數據屬性 標準化 本質 : 獲取 數據集中的 單個樣本屬性 與 平均屬性 的 偏差 , 相對於 平均絕對偏差 的 比值 ; 最終的本質是 偏差的比值 ; 根據偏差 確定 樣本的相似度 ;
VII . 區間標度型變量 標準化 ( 4 ) 屬性標準化示例
已知 : 3 個樣本數據 , 代表 3 個人 , 身高屬性分別是 145 cm , 180 cm , 165 cm , 將其標準化 ;
1 . 計算平均值 :
mf==≈n1(x1f+x2f+⋯+xnf)3145+180+165163.333
平均值計算結果是 163.333 ;
2 . 計算平均絕對偏差 :
Sf====≈n1(∣x1f−mf∣+∣x2f−mf∣+⋯+∣xnf−mf∣)3∣145−163.333∣+∣180−163.333∣+∣165−163.333∣318.333+16.667+1.667336.66712.222
平均絕對偏差值 計算結果是 12.222 ;
3 . Z-Score 標準化 :
① 樣本 1 身高 145 cm 標準化 : 標準化後的值爲 −1.5 , 沒有單位只有一個數值 ;
Zif====Sfxif−mf12.222145−163.33312.222−18.333−1.5
② 樣本 2 身高 180 cm 標準化 : 標準化後的值爲 1.364 , 沒有單位只有一個數值 ;
Zif===≈Sfxif−mf12.222180−163.33312.22216.6671.364
③ 樣本 3 身高 165 cm 標準化 : 標準化後的值爲 0.136 , 沒有單位只有一個數值 ;
Zif===≈Sfxif−mf12.222165−163.33312.2221.6670.136
4 . 標準化結果 : 3 個樣本數據 , 代表 3 個人 , 身高屬性分別是 145 cm , 180 cm , 165 cm , 將其標準化後的值分別是 : −1.5,1.364,0.136
VIII . 相似度計算 ( 1 ) 明科斯基距離
1 . 對象相似度 ( 相異度 ) 計算 : 根據 兩個 樣本對象 之間的 距離 計算 , 通常使用 明科斯基 距離 公式進行計算 ;
2 . 明科斯基 距離 計算公式 :
d(i,j)=q∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q
d(i,j) 表示兩個樣本之間的距離 , 明科斯基 距離 ;
q 是一個係數 , 取值 {1,2,⋯} ; 該取值很重要 , 不同取值衍生出不同的公式 ;
p 表示屬性的個數 , 每個樣本有 p 個屬性 ;
i 和 j 表示兩個 樣本的索引值 , 取值範圍是 {1,2,⋯,q} ;
xip−xjp 表示兩個樣本 第 p 個屬性值 的差值 , xi1−xj1 表示兩個樣本 第 1 個屬性值 的差值 , xi2−xj2 表示兩個樣本 第 2 個屬性值 的差值 ;
∣xip−xjp∣ 表示兩個樣本 第 p 個屬性值 的差值 的絕對值 , ∣xi1−xj1∣ 表示兩個樣本 第 1 個屬性值 的差值 的絕對值 , ∣xi2−xj2∣ 表示兩個樣本 第 2 個屬性值 的差值 的絕對值 ;
最外層計算 ( q 次方根 ) : 最終計算需要求 (∣xi1−xj1∣q+∣xi2−xj2∣q+⋯+∣xip−xjp∣q) 的 q 次方根 ;
IX . 相似度計算 ( 2 ) 曼哈頓距離
1 . 曼哈頓距離 : 明科斯基距離計算很複雜 , 尤其是 q 取值很大時 , 因此該公式並不常用 , 通常情況下會將 q 取值爲 1 , 或 2 , 當 q=1 時 , 該距離又稱爲 曼哈頓距離 ;
2 . 曼哈頓距離 公式如下 :
d(i,j)=∣xi1−xj1∣+∣xi2−xj2∣+⋯+∣xip−xjp∣
d(i,j) 表示兩個樣本之間的距離 , 曼哈頓距離 ;
p 表示屬性的個數 , 每個樣本有 p 個屬性 ;
i 和 j 表示兩個 樣本的索引值 , 取值範圍是 {1,2,⋯,q} ;
xip−xjp 表示兩個樣本 第 p 個屬性值 的差值 , xi1−xj1 表示兩個樣本 第 1 個屬性值 的差值 , xi2−xj2 表示兩個樣本 第 2 個屬性值 的差值 ;
3 . 曼哈頓距離 與 明科斯基距離 :
① 去掉了外層 q 次方跟計算 : q=1 時 , 外層開 1 次方根 , 直接將 q 次方根計算的根號去掉即可 ;
② 去掉了樣本差的指數計算 : 計算 ∣xi1−xj1∣ 值的 1 次方 , 也可以取消 q 次方的指數計算 ;
4 . 曼哈頓距離圖示 : 曼哈頓的街道都是橫平豎直的 , 從 A 點到 B 點 , 一般就是其 x 軸座標差 加上其 y 軸座標差 , 即 x+y ;
X . 相似度計算 ( 3 ) 歐幾里得距離
1 . 歐幾里得距離 : 明科斯基距離計算很複雜 , 尤其是 q 取值很大時 , 因此該公式並不常用 , 通常情況下會將 q 取值爲 1 , 或 2 , 當 q=2 時 , 該距離又稱爲 歐幾里得距離 ;
2 . 歐幾里得 距離 公式如下 :
d(i,j)=∣xi1−xj1∣2+∣xi2−xj2∣2+⋯+∣xip−xjp∣2
d(i,j) 表示兩個樣本之間的距離 , 明科斯基 距離 ;
p 表示屬性的個數 , 每個樣本有 p 個屬性 ;
i 和 j 表示兩個 樣本的索引值 , 取值範圍是 {1,2,⋯,q} ;
xip−xjp 表示兩個樣本 第 p 個屬性值 的差值 , xi1−xj1 表示兩個樣本 第 1 個屬性值 的差值 , xi2−xj2 表示兩個樣本 第 2 個屬性值 的差值 ;
3 . 歐幾里得距離圖示 :從 A 點到 B 點的實際直線距離 , 即 z 距離 ;
歐氏空間 : 可以計算歐幾里得距離的空間 , 叫做歐氏空間 ;
4 . 歐幾里得 距離 屬性 :
① 樣本之間的距離非負 : d(i,j)≥0 , 歐幾里得 距離是先 求平方和 , 再開根號 , 這個值一定是一個大於等於 0 的數值 ;
② 樣本與其本身的距離爲 0 : d(i,i)=0 , 一個樣本與其本身的 相似度值 肯定爲 0 , 因爲其屬性值完全相同 ;
③ 對稱性 : d(i,j)=d(j,i) , 樣本 i 與 樣本 j 的相似度 , 肯定等於 樣本 j 與 樣本 i 的相似度 ;
④ 三角不等式 : 兩邊之和 , 一定大於第三邊 , d(i,j)≤d(i,l)+d(l,j) , 從 第 i 個樣本到第 j 個樣本的 直接距離 , 小於等於 其途徑任何樣本 l 生成的的兩個距離之和 d(i,l)+d(l,j), 這兩個距離分別是 樣本 i 到 樣本 l 的距離 d(i,l) , 和樣本 l 到 樣本 j 的距離 d(l,j) ;
5 . 屬性權重 : 計算時 , 有些屬性可能很重要 , 有些屬性不重要 , 可以爲樣本的不同屬性 , 賦予不同的權重 , wi ;
公式變爲 :
d(i,j)=w1∣xi1−xj1∣2+w2∣xi2−xj2∣2+⋯+wp∣xip−xjp∣2
其中 w1 表示屬性 1 的權重 , w2 表示屬性 2 的權重 , wp 表示屬性 p 的權重 ;