Python數據分析——數據探索與數據清洗

原創

2020-02-22 15:29

數據探索與數據清洗概述

數據探索的目的是早發現數據的一些簡單規律，數據清洗的目的是留下可靠數據，必滿髒數據的干擾。這兩者沒有嚴格的先後順序。經常在一個階段進行。

數據探索核心

數據質量分析（跟數據清洗密切相關）

數據特徵分析（分佈、對比、週期性、相關性、常見統計量）

數據清洗的步驟

1、缺失值處理（通過describe與len直接發現、通過0數據發現【不可能爲0的數據】）

2、異常值處理（通過散點圖發現【數據偏離太大就可以預估爲異常數據】）

一般遇到缺失值，處理方式爲（刪除、插補、不處理）

插補的方式有：均值插補、中位數插補、衆數插補、固定值插補、最近數據插補、迴歸插補、拉格朗日插值、牛頓插值法、分段插值法等等

遇到異常值，一般處理的方式爲視爲缺失值、刪除、修補（平均數、中位數等等）、不處理。

import pandas as pd
data = pd.read_csv('文件名')
print(data.describe())

# 缺失值處理
len(data)  # 如果數據不同，則存在缺失值
data['異常字段'][data['異常字段']==0]==None
x = 0
for i in data.columns:
    for j in range(len(data)):
        if (data[i].isnull)[j]:
            data[i][j]='*'
            x = x+1
print(x)

發佈了66 篇原創文章 · 獲贊 32 · 訪問量 16萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python運算符和表達式

本文轉載自http://www.cnblogs.com/yueya/p/5811937.html 算術運算符：比較運算符：賦值運算符：位運算符：邏輯運算符：身份運算符：對比：isinst

liangyingyi1006

2020-07-04 10:41:01

【Python數據分析】1st-數據探索與數據預處理

《Python數據分析與挖掘實戰》讀書筆記之數據探索與數據預處理文章目錄@[toc] ##一、數據探索 Python中用於數據探索的庫主要是Pandas（數據分析）和Matplotlib（數據可視化） ###數據分析內容數據質

2020-07-02 21:24:03

[數據分析基礎] 2. Matplotlib庫

[數據分析基礎] 2. Matplotlib庫文章目錄[數據分析基礎] 2. Matplotlib庫一、Matplotlib庫入門1. pyplot的繪圖區域2. pyplot的plot()函數format_string**kw

2020-07-02 19:25:02

利用Python進行數據分析(三)：繪圖與可視化

本文爲《利用Python進行數據分析》的部分讀書筆記目錄matplotlib入門圖片與子圖顏色，標記和線類型刻度，標籤和圖例將圖片保存到文件顯示圖像註釋與子圖加工matplotlib設置 matplotlib入門本文爲入門內

2020-07-02 18:52:51

利用Python進行數據分析(一)：IPython及Jupyter notebook

本文爲《利用Python進行數據分析》的部分讀書筆記目錄IPython與Jupyter notebook簡介IPython基礎使用IPython命令行運行Jupyter notebook配置文件Jupyter Notebook

2020-07-02 18:52:51

利用Python進行數據分析(二)：Numpy

本文爲《利用Python進行數據分析》的部分讀書筆記目錄Numpy ndarray: 多維數組對象ndarray屬性NumPy 數據類型生成ndarrayNumpy數組算術基礎索引與切片布爾索引神奇索引數組轉置與轉軸通用函數：快

2020-07-02 18:52:51

數據分析之Pandas-01Series和DataFrame

01-什麼是Pandas Python Data Analysis Library 或 pandas 是基於NumPy 的一種工具，該工具是爲了解決數據分析任務而創建的。 pandas 納入了大量庫和一些標準的數據模型，提供了高

Python小学生

2020-07-02 10:12:42

Pandas使用（二）

文章目錄DataFrame介紹DataFrame創建DataFrame基礎操作DataFrame查詢DateFrame索引Pandas字符串的常用方法使用loc及iloc選擇數據DataFrame算術DataFrame排序 Dat

2020-06-30 11:35:03

Numpy常用的數據清洗函數

排序函數 np.sort 將元素進行小到大的順序排序 axis -1 默認情況下爲-1，當爲-1的時候是進行小到大排序 0 當爲0的時候，是進行列的方式進行操作(從小到大) 1 當爲1的時候，是進行行的方式進行操作(從小到大的順序

2020-06-30 11:35:02

我的2019年度代碼報告

不知從何時起，年度報告總能在舊年將近、新年伊始的時候掀起朋友圈的熱潮。近日，網易雲音樂、知乎等各大流行app也如期放出了其用戶2019年的年度報告，我突發奇想，爲何不爲自己生成一個GitHub的年度代碼報告？綠油油的Git

2020-06-29 16:25:22

IPython Notebook 簡介

IPython 是python語言的一個shell，其中i 是interaction 的縮寫，表示交互。 IPython有以下幾個特性：交互shell功能；基於瀏覽器即可完成代碼編寫、編譯、調試功能；支持交互式可視化圖形；支持並行計算。

2020-06-28 16:14:07

利用Python進行數據分析(十二) - pandas高級應用

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:59:02

利用Python進行數據分析(十三) - Python建模庫介紹

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。 Patsy創建模型描述這一節雲裏霧裏，看不明白。

方糖冰红茶

2020-06-27 08:58:51

利用Python進行數據分析(十) - 數據聚合與分組運算

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:58:51

利用Python進行數據分析(六) - 數據加載、存儲和文件格式

注：本文根據《利用Python進行數據分析》總結而來，內容版權歸原作者所有。

方糖冰红茶

2020-06-27 08:58:50

24小時熱門文章

最新文章

最新評論文章