立即學習:https://edu.csdn.net/course/play/6861/371100?utm_source=blogtoedu
3、異常值的識別與處理
3.1 Z得分法
必須符合正態分佈
3.2 分位數法
3.3 距離法
https://mp.weixin.qq.com/s/aWTDJtafY9XHZdHdOUaqXw
https://mp.weixin.qq.com/s/728HfX6VFi0tN6MBkFrTsA
4、缺失值的識別與處理
df.isnull
df.fillna
df.dropna
import pandas as pd
data = pd.read_excel(r'E:\pylean\database\data_test05.xlsx')
data.isnull()
data.isnull().any(axis=0)
data.isnull().sum(axis=0)/data.shape[0]
data.fillna(value={'gender':data.gender.mode(),'age':data.age.mean(),'income':data.income.mean()},inplace=True)
#實現了填充 但是沒有實現gender的填充
data.fillna(value={'gender':data.gender.mode()[0],'age':data.age.mean(),'income':data.income.mean()},inplace=True)
#衆數 也是一組數據中出現次數最多的數值,故通過data.gender.mode() 可能會找到幾個變量有相同的衆數,這樣的情況下取【0】最保險
print(data)