Python數據分析——數據探索與數據清洗

數據探索與數據清洗概述

數據探索的目的是早發現數據的一些簡單規律,數據清洗的目的是留下可靠數據,必滿髒數據的干擾。這兩者沒有嚴格的先後順序。經常在一個階段進行。

數據探索核心

數據質量分析(跟數據清洗密切相關)

數據特徵分析(分佈、對比、週期性、相關性、常見統計量)

數據清洗的步驟

1、缺失值處理(通過describe與len直接發現、通過0數據發現【不可能爲0的數據】)

2、異常值處理(通過散點圖發現【數據偏離太大就可以預估爲異常數據】)

一般遇到缺失值,處理方式爲(刪除、插補、不處理)

插補的方式有:均值插補、中位數插補、衆數插補、固定值插補、最近數據插補、迴歸插補、拉格朗日插值、牛頓插值法、分段插值法等等

遇到異常值,一般處理的方式爲視爲缺失值、刪除、修補(平均數、中位數等等)、不處理。

import pandas as pd
data = pd.read_csv('文件名')
print(data.describe())

# 缺失值處理
len(data)  # 如果數據不同,則存在缺失值
data['異常字段'][data['異常字段']==0]==None
x = 0
for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull)[j]:
            data[i][j]='*'
            x = x+1
print(x)  

 

發佈了66 篇原創文章 · 獲贊 32 · 訪問量 16萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章