簡 介
據《福布斯》報道,每天大約會有 250 萬字節的數據被產生。然後,可以使用數據科學和機器學習技術對這些數據進行分析,以便提供分析和作出預測。儘管在大多數情況下,在開始任何統計分析之前,需要先對最初收集的數據進行預處理。有許多不同的原因導致需要進行預處理分析,例如:
-
收集的數據格式不對(如 SQL 數據庫、JSON、CSV 等)
-
缺失值和異常值
-
標準化
-
減少數據集中存在的固有噪聲(部分存儲數據可能已損壞)
-
數據集中的某些功能可能無法收集任何信息以供分析
在本文中,我將介紹如何使用 python 減少 kaggle Mushroom Classification 數據集中的特性數量。本文中使用的所有代碼在 kaggle 和我的 github 帳號上都有。
減少統計分析期間要使用的特徵的數量可能會帶來一些好處,例如
-
提高精度
-
降低過擬合風險
-
加快訓練速度
-
改進數據可視化
-
增加我們模型的可解釋性
事實上,統計上證明,當執行機器學習任務時,存在針對每個特定任務應該使用的最佳數量的特徵(圖 1)。如果添加的特徵比必要的特徵多,那麼我們的模型性能將下降(因爲添加了噪聲)。真正的挑戰是找出哪些特徵是最佳的使用特徵(這實際上取決於我們提供的數據量和我們正在努力實現的任務的複雜性)。這就是特徵選擇技術能夠幫到我們的地方!