簡單粗暴理解與實現機器學習之聚類算法（七）：聚類算法案例：探究用戶對物品類別的喜好細分降維

原創

2020-03-07 00:18

聚類算法

文章目錄

聚類算法

學習目標

6.7 案例：探究用戶對物品類別的喜好細分降維

學習目標

掌握聚類算法實現過程
知道K-means算法原理
知道聚類算法中的評估模型
說明K-means的優缺點
瞭解聚類中的算法優化方式
應用Kmeans實現聚類任務

6.7 案例：探究用戶對物品類別的喜好細分降維

數據如下：

order_products__prior.csv：訂單與商品信息
- 字段：order_id, product_id, add_to_cart_order, reordered
products.csv：商品信息
- 字段：product_id, product_name, aisle_id, department_id
orders.csv：用戶的訂單信息
- 字段：order_id,user_id,eval_set,order_number,….
aisles.csv：商品所屬具體物品類別
- 字段： aisle_id, aisle

1 需求

2 分析

1.獲取數據
2.數據基本處理
- 2.1 合併表格
- 2.2 交叉表合併
- 2.3 數據截取
3.特徵工程 — pca
4.機器學習（k-means）
5.模型評估
- sklearn.metrics.silhouette_score(X, labels)
  - 計算所有樣本的平均輪廓係數
  - X：特徵值
  - labels：被聚類標記的目標值

3 完整代碼

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

1.獲取數據

order_product = pd.read_csv("./data/instacart/order_products__prior.csv")
products = pd.read_csv("./data/instacart/products.csv")
orders = pd.read_csv("./data/instacart/orders.csv")
aisles = pd.read_csv("./data/instacart/aisles.csv")

2.數據基本處理

2.1 合併表格

# 2.1 合併表格
table1 = pd.merge(order_product, products, on=["product_id", "product_id"])
table2 = pd.merge(table1, orders, on=["order_id", "order_id"])
table = pd.merge(table2, aisles, on=["aisle_id", "aisle_id"])

2.2 交叉表合併

table = pd.crosstab(table["user_id"], table["aisle"])

2.3 數據截取

table = table[:1000]

3.特徵工程 — pca

transfer = PCA(n_components=0.9)
data = transfer.fit_transform(table)

4.機器學習（k-means）

estimator = KMeans(n_clusters=8, random_state=22)
estimator.fit_predict(data)

5.模型評估
```
silhouette_score(data, y_predict)
```

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

簡單粗暴理解與實現機器學習之聚類算法（七）：聚類算法案例：探究用戶對物品類別的喜好細分降維

聚類算法

文章目錄

學習目標

6.7 案例：探究用戶對物品類別的喜好細分降維

1 需求

2 分析

3 完整代碼

對促銷活動效果評估的一些思考

SQL中怎麼表示不等於你知道嗎？SQL中怎麼篩選奇數偶數？

對電商數據分析中用戶分析的思考

對預測銷售情況的一些思考，需要從那幾個方面去分析呢？

總體分佈概況符合無界約翰遜分佈（johnsonsu）的情況

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結