數據挖掘學習筆記——(一)初探數據挖掘

數據挖掘

何爲數據挖掘,百度百科講到:
數據挖掘是指從大量的數據中通過算法搜索隱藏於其中信息的過程。
數據挖掘通常與計算機科學有關,並通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。

數據挖掘流程

(一)數據讀取

  • 讀取數據,進行演示
  • 統計數據各項指標
  • 明確數據規模與要完成的任務

(二)特徵理解分析

  • 單特徵分析,逐個變量分析其對結果的影響
  • 多變量統計分析,綜合考慮多種情況影響
  • 統計繪圖得出結論

(三)數據清洗與預處理

  • 對缺失值進行填充
  • 特徵標準化、歸一化
  • 篩選有價值的特徵
  • 分析特徵之間的相關性

(四)建立模型

  • 特徵數據與標籤設備
  • 數據集切分
  • 多種建模算法對比
  • 集成策略等方案改進
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章