數據爲什麼需要清洗
- 字段缺失
- 前後結構不一致
- 數據取值範圍不對
- 不是易於分析的格式
清洗數據技巧
- 使用斷言 Assertions
例如每條記錄有4個字段,斷言之; 某個字段是整數,斷言之。反正,能斷言的都斷言,不要嫌麻煩。 - 對於不完整或者損壞的記錄,不要默默跳過
可以打印出提示信息,方便之後查找
記錄跳過記錄的條數,和總記錄數,看看比例 - 如果有枚舉字段,且種類多,可以不用斷言,遇到新種類時打印出來提醒一下,清洗完在檢查
- 斷點清洗。適用於數據集較大,程序中途崩潰
- 先在一部分數據集上測試清洗
- 打印清洗日誌
- 驗證清洗後的數據
- (可選)如果效率空間允許情況下,把原始數據一併保存下來