學習筆記(39):零基礎搞定Python數據分析與挖掘-冗餘值、異常值和缺失值的處理(二)...

立即學習:https://edu.csdn.net/course/play/6861/371100?utm_source=blogtoedu

3、異常值的識別與處理

3.1 Z得分法

必須符合正態分佈

 

3.2 分位數法

3.3 距離法

https://mp.weixin.qq.com/s/aWTDJtafY9XHZdHdOUaqXw

https://mp.weixin.qq.com/s/728HfX6VFi0tN6MBkFrTsA

4、缺失值的識別與處理

df.isnull

df.fillna

df.dropna

import pandas as pd
data = pd.read_excel(r'E:\pylean\database\data_test05.xlsx')
data.isnull()
data.isnull().any(axis=0)
data.isnull().sum(axis=0)/data.shape[0]
data.fillna(value={'gender':data.gender.mode(),'age':data.age.mean(),'income':data.income.mean()},inplace=True)
#實現了填充 但是沒有實現gender的填充
data.fillna(value={'gender':data.gender.mode()[0],'age':data.age.mean(),'income':data.income.mean()},inplace=True)
#衆數 也是一組數據中出現次數最多的數值,故通過data.gender.mode() 可能會找到幾個變量有相同的衆數,這樣的情況下取【0】最保險

print(data)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章