數據清洗經驗

數據爲什麼需要清洗

  • 字段缺失
  • 前後結構不一致
  • 數據取值範圍不對
  • 不是易於分析的格式

清洗數據技巧

  • 使用斷言 Assertions
    例如每條記錄有4個字段,斷言之; 某個字段是整數,斷言之。反正,能斷言的都斷言,不要嫌麻煩。
  • 對於不完整或者損壞的記錄,不要默默跳過
    可以打印出提示信息,方便之後查找
    記錄跳過記錄的條數,和總記錄數,看看比例
  • 如果有枚舉字段,且種類多,可以不用斷言,遇到新種類時打印出來提醒一下,清洗完在檢查
  • 斷點清洗。適用於數據集較大,程序中途崩潰
  • 先在一部分數據集上測試清洗
  • 打印清洗日誌
  • 驗證清洗後的數據
  • (可選)如果效率空間允許情況下,把原始數據一併保存下來

參考

http://kb.cnblogs.com/page/514866/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章