【數據分析day04】pandas數據處理二：異常值檢測和過濾&抽樣

原創

2020-07-05 06:29

pandas數據處理二：異常值檢測和過濾&抽樣

1. 異常值檢測和過濾

思路：

2. 抽樣

1. 異常值檢測和過濾

使用describe()函數查看每一列的描述性統計量

ddd.describe()

上面的統計不包含字符串那兩列

思路：

1. 確定異常的檢測標準.

2. 寫成條件的形式.使用條件去過濾原始數據

練習:
新建一個形狀爲10000*3的標準正態分佈的DataFrame(np.random.randn)，去除掉所有滿足以下情況的行：其中任一元素絕對值大於3倍標準差

# randn：從標準正態分佈中返回一個或多個樣本值，這裏是10000行
df = DataFrame(data=np.random.randn(10000, 3))
df.head()

使用std()函數可以求得DataFrame對象每一列的標準差

df.std()

寫成條件的形式,使用條件去過濾原始數據

# 條件：其中任一元素絕對值大於3倍標準差
cond = (df.abs() > 3 * df.std()).any(axis=1)
df.loc[~cond]

過濾掉74個

2. 抽樣

分爲兩種：“有放回” 和 “無放回”
使用.take()函數排序：take就是按照指定的順序把數據取出
可以藉助np.random.permutation()函數隨機排序
如：np.random.permutation([0, 1,2,3])
一般數據量小使用有放回，數據量大使用無放回

無放回：permutation()

np.random.permutation 和take結合可以達到無放回抽樣的效果. 數據量大的時候可以用無放回.

ddd.take(np.random.permutation([0,1,2,3]))

有放回：

ddd.take(np.random.randint(0, 4, size=4))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Excel複合圖表的使用

複合圖表亦稱“複式條形圖”。以兩個或兩個以上的條形爲一組代表一個大項目,用每組中的各個條......個同類指標在不同地點、條件下的變動，表明事物之間的差異其實就把兩張圖表組合到一起，用對比的思維看問題首先建立一個數據表格，如何把數據累

2020-07-08 05:25:47

Excel輔助列的使用方法案例

輔助列的使用，輔助列就是輔助統計及分析的一列數據，它能讓數據統計與分析變得更加的簡單快捷，提高我們的工作效率，有時候輔助列能將非常複雜的問題變得非常的簡單，善用輔助列能一定程度的提高我們的工作效率，下面就讓我們用2個例子來看輔助列的常見的

2020-07-08 05:25:47

阿里雲 MaxCompute 2020-12 月刊

【12月新發布功能】 1、MaxCompute 查詢編輯器支持查詢加速提升數據分析能力 MaxCompute 數據分析支持查詢加速，當分析師通過SQL查詢數據時，速度可提升至秒級，爲數據分析師提供更優的數據分析體驗。適用客戶及場景數據分

2021-01-05 14:43:48

阿里雲 MaxCompute 2020-11 月刊

【11月新功能發佈】1、MaxCompute支持以RAM角色身份訪問使用服務在雲賬號、RAM用戶基礎上，支持以RAM角色身份訪問服務，滿足跨雲服務的安全數據交換以及與企業已有身份系統實現SSO對接訪問需求。適用客戶已自建身份系統需要以R

2020-12-03 09:55:49

阿里雲 MaxCompute 2020-9 月刊

【9月新功能發佈】 1. MaxCompute作業監控診斷工具Logview功能升級發佈此次Logview功能升級，擴展了MaxCompute作業的監控指標，提供作業回放功能，新增Fuxi Sensor支持查看作業內存及CPU使用。適用

2020-10-10 10:31:48

物聯網和人工智能在疫苗研發中的作用

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！出於顯而易見的原因，研發疫苗是人們目前的首要考慮目標。尋找安全有效的冠狀病毒疫苗是成千上萬甚至數百萬人的生命以及全球經濟健康的基礎。在疫

雲棲號資訊小哥

2020-08-03 14:07:50

適合 Python 入門的 8 款強大工具！

Python是一種開源的編程語言，可用於Web編程、數據科學、人工智能以及許多科學應用。學習Python可以讓程序員專注於解決問題，而不是語法。由於Python相對較小，且擁有各式各樣的工具，因此比Java和C++等語言更具優勢，同時豐富的

雲棲號資訊小編

2020-07-27 11:40:52

星辰大海：阿里數據體驗技術揭祕！

雲棲號資訊：【點擊查看更多行業資訊】在這裏您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！阿里妹導讀：阿里巴巴數據體驗技術團隊從一開始建立就致力於打造數據領域體驗技術的標杆。經過多年的深耕，形成了一整套面向兩個階段的用戶產品的

雲棲號資訊小編

2020-07-23 13:04:56

python--內置函數

1、python內置函數：類型轉換數學運算常用 int() max() all() range() help() float() min() any() set() format() long() sum() type()

2020-07-08 10:38:40

數學建模之傳染病SIR模型（新冠真實數據）

傳染病模型的基本問題描述傳染病的傳播過程分析受感染人數的變化規律預報傳染病高潮到來的時刻預防傳染病蔓延的手段按照傳播過程的一般規律用機理分析方法建立模型注：我們這裏是介紹數學醫學領域中基本的傳染病模型。不從醫學角度

小白不白nie

2020-07-08 04:34:52

數據調度平臺系統二大種類及其實現方法與流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 04:22:11

numpy利用矢量計算距離

什麼是矢量。利用矢量計算距離，cos相似度，矢量之間的點乘(內積) 矢量：有方向有長度的變量計算距離： #將座標用數組的形式表示 a = np.array([2,7]) b = np.array([8,3]) #求a,b的範式，

2020-07-08 03:51:04

生鮮電商行業以及APP體驗分析

2020-07-08 03:46:15

etl數據調度平臺系統類別的實現方法及工作流程

什麼是調度系統調度系統，更確切地說，作業調度系統（Job Scheduler）或者說工作流調度系統（workflow Scheduler）是任何一個稍微有點規模，不是簡單玩玩的大數據開發平臺都必不可少的重要組成部分。除了Crontab

taskctl调度工具

2020-07-08 03:42:10

5-04標註

上一節我們講了數據清晰的內容，通過清晰我們保留了正常的數據，在處理特徵預處理內容之前，我們先要確定標註，反應目的的屬性就是標註，其他有關係的特徵

(๑• . •๑)框

2020-07-08 02:07:20

24小時熱門文章

最新文章

最新評論文章