數據挖掘
何爲數據挖掘,百度百科講到:
數據挖掘是指從大量的數據中通過算法搜索隱藏於其中信息的過程。
數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。
數據挖掘流程
(一)數據讀取
- 讀取數據,進行演示
- 統計數據各項指標
- 明確數據規模與要完成的任務
(二)特徵理解分析
- 單特徵分析,逐個變量分析其對結果的影響
- 多變量統計分析,綜合考慮多種情況影響
- 統計繪圖得出結論
(三)數據清洗與預處理
- 對缺失值進行填充
- 特徵標準化、歸一化
- 篩選有價值的特徵
- 分析特徵之間的相關性
(四)建立模型
- 特徵數據與標籤設備
- 數據集切分
- 多種建模算法對比
- 集成策略等方案改進