數據探索與數據清洗概述
數據探索的目的是早發現數據的一些簡單規律,數據清洗的目的是留下可靠數據,必滿髒數據的干擾。這兩者沒有嚴格的先後順序。經常在一個階段進行。
數據探索核心
數據質量分析(跟數據清洗密切相關)
數據特徵分析(分佈、對比、週期性、相關性、常見統計量)
數據清洗的步驟
1、缺失值處理(通過describe與len直接發現、通過0數據發現【不可能爲0的數據】)
2、異常值處理(通過散點圖發現【數據偏離太大就可以預估爲異常數據】)
一般遇到缺失值,處理方式爲(刪除、插補、不處理)
插補的方式有:均值插補、中位數插補、衆數插補、固定值插補、最近數據插補、迴歸插補、拉格朗日插值、牛頓插值法、分段插值法等等
遇到異常值,一般處理的方式爲視爲缺失值、刪除、修補(平均數、中位數等等)、不處理。
import pandas as pd
data = pd.read_csv('文件名')
print(data.describe())
# 缺失值處理
len(data) # 如果數據不同,則存在缺失值
data['異常字段'][data['異常字段']==0]==None
x = 0
for i in data.columns:
for j in range(len(data)):
if (data[i].isnull)[j]:
data[i][j]='*'
x = x+1
print(x)