K均值聚類算法(Kmeans)講解及源碼實現

算法核心

K均值聚類的核心目標是將給定的數據集劃分成K個簇，並給出每個數據對應的簇中心點。算法的具體步驟描述如下。

數據預處理，如歸一化、離羣點處理等。

隨機選取K個簇中心，記爲 $\mu_1^{(0)},\mu_2^{(0)},...,\mu_k^{(0)}$ 。

定義代價函數： $J(c,\mu)=min_{\mu}min_{c}\Sigma_{i=1}^M||x_i-\mu_{c_i}||^2$ 。

令 $t=0,1,2,...$ 爲迭代步數，重複下面過程直到 $J$ 收斂

對於每一個樣本 $x_i$ ，將其分配到距離最近的簇 $c_i^{(t)}\leftarrow argmin_k ||x_i-\mu_k^{(t)}||^2$

對於每一個類簇 $k$ ，重新計算該類簇的中心 $\mu_k^{(t+1)}\leftarrow argmin_{\mu}\Sigma_{i:x_i^{(t)}=k}||x_i-\mu||^2$

$K$ 均值算法在迭代時，假設當前損失函數 $J$ 沒有達到最小值，那麼首先固定簇中心 $\{\mu_k\}$ ，調整每個樣例 $x_i$ 所屬的類別 $c_i$ 來讓 $J$ 函數減少；
然後固定 $\{c_i\}$ ，調整簇中心 $\{\mu_k\}$ 使 $J$ 減少。
這兩個過程交替循環， $J$ 單調遞減：當 $J$ 遞減到最小值時， ${\mu_k}$ 和 ${c_i}$ 也同時收斂。

源碼實現（含可視化）

導入包

import numpy as np
import matplotlib.pyplot as plt

數據預處理

設置地圖尺寸

# map 100*100
high = 100
width = 100

創建隨機數據
每一條數據的格式爲 $(x座標,y座標,類別)$ ，列表初始化爲0，類別序數間隔1遞增

data = np.random.rand(100, 2)
data = data * [high, width]
data = np.hstack((data, np.zeros([100, 1])))

定義簇數目

# count of classes
classes = 5

定義距離函數，此處我們使用歐氏距離

def distance(point1, center):
    return np.sqrt((point1[0] - center[0]) ** 2 + (point1[1] - center[1]) ** 2)

定義從類別到顏色的映射函數，即
$類別*255/總類別數$

def color(i):
    global classes
    return i * 255. / classes

定義主函數

先將plt設置爲連續作圖模式
然後隨機挑選簇中心點，並加入到中心點數組 $centers\_data$ 中

if __name__ == '__main__':
    plt.ion()
    # select center randomly
    centers = np.random.randint(0, 100, [classes])
    centers_data = []
    for i in range(classes):
        data[i][2] = i
        centers_data.append(data[i])

先畫散點圖，且暫停0.5秒以顯示迭代中的聚類情況。

    while True:
        colors = [color(x) for x in data[:, 2]]
        plt.scatter(data[:, 0], data[:, 1], c=colors)
        plt.pause(0.5)

先後依次迭代更新每個點所對應的簇，和每個簇的中心點。

        # caculate nearest center
        for i in range(100):
            distances = np.array([distance(data[i], center_data) for center_data in centers_data])
            i_class = np.argmin(distances)
            data[i][2] = i_class
        # caculate new center
        new_centers_data = np.zeros([classes, 2])
        new_centers_count = np.zeros([classes])
        for j in range(5):
            for i in range(100):
                if data[i][2] == j:
                    new_centers_count[j] += 1
                    new_centers_data[j] += data[i][0:2]

計算五個簇的中心點位置先後變化的最大值，其值小於1e-4（可自定義）時，跳出循環，停止迭代。

		new_centers_data /= np.array([new_centers_count]).T
        dist = np.max([distance(new_centers_data[i], centers_data[i]) for i in range(classes)])
        print('max distance ', dist)
        if dist < 1e-4:
            break

在每次迭代的最後更新中心點數據

		centers_data = new_centers_data

最後關閉連續作圖模式，並展示最後的圖畫，打印結束。

	plt.ioff()
    plt.show()
    print('kmeans completed.')

效果

命令行

max distance  28.36595846126929
max distance  7.136259328045152
max distance  3.533885366585787
max distance  2.153654229308223
max distance  0.0
kmeans completed.

可視化過程

第1次迭代

第2次迭代

第3次迭代

第4次迭代

全部代碼

import numpy as np
import matplotlib.pyplot as plt

# map 100*100
high = 100
width = 100
# create random data
data = np.random.rand(100, 2)
data = data * [high, width]
data = np.hstack((data, np.zeros([100, 1])))
# count of classes
classes = 5


def distance(point1, center):
    return np.sqrt((point1[0] - center[0]) ** 2 + (point1[1] - center[1]) ** 2)


def color(i):
    global classes
    return i * 255. / classes


if __name__ == '__main__':
    plt.ion()
    # select center randomly
    centers = np.random.randint(0, 100, [classes])
    centers_data = []
    for i in range(classes):
        data[i][2] = i
        centers_data.append(data[i])
    while True:
        colors = [color(x) for x in data[:, 2]]
        plt.scatter(data[:, 0], data[:, 1], c=colors)
        plt.pause(0.5)
        # caculate nearest center
        for i in range(100):
            distances = np.array([distance(data[i], center_data) for center_data in centers_data])
            i_class = np.argmin(distances)
            data[i][2] = i_class
        # caculate new center
        new_centers_data = np.zeros([classes, 2])
        new_centers_count = np.zeros([classes])
        for j in range(5):
            for i in range(100):
                if data[i][2] == j:
                    new_centers_count[j] += 1
                    new_centers_data[j] += data[i][0:2]
        new_centers_data /= np.array([new_centers_count]).T
        dist = np.max([distance(new_centers_data[i], centers_data[i]) for i in range(classes)])
        print('max distance ', dist)
        if dist < 1e-4:
            break
        centers_data = new_centers_data
    plt.ioff()
    plt.show()
    print('kmeans completed.')

K均值聚類算法(Kmeans)講解及源碼實現

K均值聚類算法(Kmeans)講解及源碼實現

算法核心

源碼實現（含可視化）

導入包

數據預處理

定義主函數

效果

可視化過程

全部代碼

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

C# 代碼學習

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

一個簡單的MD5加鹽

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

win10常用軟件彙總

一個爬取谷歌圖片的python程序

電子科技大學信軟學院大三實習實訓報告文檔格式調整（文尾附贈實習總結報告完整模板）

手寫邏輯斯蒂迴歸

K均值聚類算法(Kmeans)講解及源碼實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結