python數據分析中的相關性和協方差

原創

qq5c822f9bb7f5c

2019-03-23 13:16

　　相關性和協方差

　　相關性和協方差是兩個重要的統計量，pandas計算這兩個量的函數分別是corr( )和cov( )。這兩個量的計算通常涉及兩個Series對象。

　　另外一種情況是，計算單個DataFrame對象的相關性和協方差，返回兩個新DataFrame對象形式的矩陣。

　　用corrwith( )方法可以計算DataFrame對象的列或行與Series對象或其他DataFrame對象元素兩兩之間的相關性。

　　NaN數據鄭州人流醫院那家好：www.zzchxb120.com鄭州×××多少錢：www.zztjyiyuan.com

由前幾節可知，補上缺失的數據很容易，它們在數據結構中用NaN來表示，以便於識別。在數據分析過程中，有些元素在某個數據結構中沒有定義，這種情況很常見。

　　pandas意在更好地管理這種可能出現的情況。事實上，這一節我們將講解缺失值的處理方法，這樣很多問題就可以避免。比如，pandas庫在計算各種描述性統計量的時候，並沒有將NaN值考慮在內。

　　爲元素賦NaN值

　　有時需要爲數據結構中的元素賦NaN值，這時用NumPy的np.NaN(或np.nan)即可。

　　過濾NaN

　　數據分析過程中，有幾種去除NaN的方法。然而，若要人工逐一刪除NaN元素很麻煩，也很不安全，因爲無法確保刪除了所有的NaN。而dropna( )函數可以幫我們解決這個問題。

　　另一種方法是，用notnull( )函數作爲選取元素的條件，實現直接過濾。

　　DataFrame處理起來要稍微複雜點。如果對這類對象使用dropna( )方法，只要行或列有一個NaN元素，該行或列的全部元素都會被刪除。

　　因此，爲了避免刪除整行或整列，需要用how選項，指定其值爲all，告知dropna( )函數只刪除所有元素均爲NaN的行或列。

　　爲NaN元素填充其他值

　　刪除NaN元素，可能會刪除跟數據分析相關的其他數據，所以與其冒着風險去過濾NaN元素，不如用其他數值替代NaN。fillna( )函數能夠滿足大多數需要。這個函數以替換NaN的元素作爲參數。所有NaN值都可以替換爲同一個元素，如下所示：

　　或者，若要將不同列的NaN替換爲不同的元素，依次指定列名稱及要替換成的元素即可。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

自動化Reddit圖片收集：Python爬蟲技巧

引言 Reddit，作爲一個全球性的社交平臺，擁有海量的用戶生成內容，其中包括大量的圖片資源。對於數據科學家、市場研究人員或任何需要大量圖片資源的人來說，自動化地從Reddit收集圖片是一個極具價值的技能。本文將詳細介紹如何使用Pyth

2024-06-05 00:06:19

二進制文件查看工具和方法

查看二進制文件可以通過多種方法實現，取決於你想要的具體信息和你使用的操作系統。以下是一些常見的方法和工具：使用十六進制編輯器十六進制編輯器可以顯示文件的十六進制表示和對應的ASCII字符。這些工具非常適合查看和編輯二進制文件。 Win

2024-05-30 02:27:38

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

昔日輝煌不再，PHP老矣，尚能飯否？

導語 | 近期 TIOBE 最新指數顯示，PHP 的流行度降至了歷史最低，排在第 17 名，同時，在年度 Stack Overflow 開發者調查報告中，PHP 在開發者中的受歡迎程度已經從之前的約 30% 萎縮至現在的 18%。“P

2024-05-23 23:48:42

代理服務器調試技巧：優化Kotlin網絡爬蟲的數據抓取過程

在網絡爬蟲的開發過程中，經常會遇到需要使用代理服務器的情況。代理服務器不僅可以幫助隱藏真實IP地址，還可以繞過網站的訪問限制，提高數據抓取的成功率。然而，在實際應用中，使用代理服務器也會遇到一些問題，如連接超時、IP被封禁等。因此，本文將

2024-05-21 00:07:04

OSS_PIPE：Rust編寫的大規模文件遷移工具

‍ 隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場景。編寫 oss_pipe 的初衷 •同類產品面臨的問題 •rust 語

京東雲開發者

2024-05-15 23:59:27

Python函數與模塊的精髓與高級特性

本文分享自華爲雲社區《Python函數與模塊的精髓與高級特性》，作者：檸檬味擁抱。 Python 是一種功能強大的編程語言，擁有豐富的函數和模塊，使得開發者能夠輕鬆地構建複雜的應用程序。本文將介紹 Python 中函數和模塊的基本使用方法，

2024-05-14 11:00:07

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

OSS_PIPE：Rust編寫的大規模文件遷移工具| 京東雲技術團隊

文盤rust 好久沒有更新了。這段時間筆者用rust寫了個小東西，跟各位分享一下背景隨着業務的發展，文件數量和文件大小會急劇增加，文件遷移的數量和難度不斷攀升。oss_pipe 是rust編寫的文件遷移工具，旨在支撐大規模的文件遷移場

2024-05-13 23:59:27

通義靈碼企業版正式發佈，滿足企業私域知識檢索、數據合規、統一管理等需求

5 月 9 日阿里雲 AI 峯會，阿里雲智能集團首席技術官周靖人宣佈，通義靈碼企業版正式發佈，滿足企業用戶的定製化需求，幫助企業提升研發效率。通義靈碼是國內用戶規模第一的智能編碼助手，基於 SOTA 水準的通義千問代碼模型 Code-Qw

2024-05-11 21:15:01

我們團隊來了一位新同事，主動要求幫忙敲代碼！歡迎 AI 001號

通義靈碼｜7X24的AI智能編程助手工號：AI001 他叫通義靈碼，一個硅基生命。出生在0101星球，沒有性別，但有人格類型。他是INTJ，建築師型人格，艾薩克·牛頓和甘道夫同款。他會寫一點代碼，但不如我們會得多。我看了下他的簡歷，

2024-05-07 21:12:06

Haskell 實現京東優惠券爬取的詳細步驟解析

在當今的電商行業中，優惠券活動是吸引用戶的一種重要方式。京東作爲中國領先的電商平臺之一，其優惠券活動頻繁且多樣，爲用戶提供了豐富的購物體驗。然而，想要及時獲取最新的京東優惠券信息並非易事，尤其是在優惠券數量龐大的情況下。爲了解決這一問題，

2024-04-28 23:27:18

三十分鐘入門基礎Go（Java小子版）

前言 Go語言定義 Go（又稱 Golang）是 Google 的 Robert Griesemer，Rob Pike 及 Ken Thompson 開發的一種靜態、強類型、編譯型語言。Go 語言語法與 C 相近，但功能上有：內存安

2024-04-25 23:17:43

數據結構筆記淺記（十三）哈希表

「哈希表 hash table」，又稱「散列表」，它通過建立鍵 key 與值 value 之間的映射，實現高效的元素查詢。具體而言，我們向哈希表中輸入一個鍵 key ，則可以在 𝑂(1) 時間內獲取對應的值 value 。從本質上看，哈

2024-04-24 23:39:16

數組和鏈表的適用場景

簡介在計算機中要對給定的數據集進行若干處理，首要任務是把數據集的一部分（當數據量非常大時，可能只能一部分一部分地讀取數據到內存中來處理）或全部存儲到內存中，然後再對內存中的數據進行各種處理。例如，對於數據集 S{1，2，3，4，5，6

2024-04-24 09:31:34

24小時熱門文章

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

最新文章

最新評論文章