數據質量分析
主要檢查原始數據中是否存中髒數據:
- 缺失值
- 異常值
- 不一致的值
- 重複數據及含有特殊符號的數據
缺失值
處理方式:刪除、插補、不處理
異常值
- 簡單統計量分析
- 3σ原則
- 箱型圖分析
數據特徵分析
- 分佈分析
定量或定性分析,一般用直方圖,餅圖等 - 對比分析
- 統計量分析
1)集中度
2)離中度 - 週期性分析
- 貢獻度分析
- 相關性分析
主要檢查原始數據中是否存中髒數據:
處理方式:刪除、插補、不處理
上一節我們講了數據清晰的內容,通過清晰我們保留了正常的數據,在處理特徵預處理內容之前,我們先要確定標註,反應目的的屬性就是標註,其他有關係的特徵