python日記Ddy19——Pandas速查中文手冊

原創

石石石大帅

2020-06-14 17:38

python日記——Pandas中文備查手冊

本文大部分內容轉載自文章Pandas速查手冊中文版，同時對部分內容進行了添加和修改。

導入數據

pd.read_csv(filename)：從CSV、TSV、TXT文件導入數據
pd.read_table(filename)：從限定分隔符的文本文件導入數據
pd.read_excel(filename)：從Excel文件導入數據
pd.read_sql(query, connection_object)：從SQL表/庫導入數據
pd.read_json(json_string)：從JSON格式的字符串導入數據
pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()：從你的粘貼板獲取內容，並傳給read_table()
pd.DataFrame(dict)：從字典對象導入數據，Key是列名，Value是數據

導出數據

df.to_csv(filename)：導出數據到CSV文件
df.to_excel(filename)：導出數據到Excel文件
df.to_sql(table_name, connection_object)：導出數據到SQL表
df.to_json(filename)：以Json格式導出數據到文本文件

創建測試對象

pd.DataFrame(np.random.rand(20,5))：創建20行5列的隨機數組成的DataFrame對象
pd.Series(my_list)：從可迭代對象my_list創建一個Series對象
df.index = pd.date_range(‘1900/1/30’, periods=df.shape[0])：增加一個日期索引

查看、檢查數據

df.head(n)：查看DataFrame對象的前n行，默認爲前5行
df.tail(n)：查看DataFrame對象的最後n行，默認爲後5行
df.shape()：查看行數和列數
df.info()：查看索引、數據類型和內存信息
df.describe()：查看數值型列的彙總統計
s.value_counts(dropna=False)：查看Series對象的唯一值和計數d
f.apply(pd.Series.value_counts)：查看DataFrame對象中每一列的唯一值和計數

數據選取

df[col]：根據列名，並以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列s.iloc[0]：按位置選取數據s
df.loc[‘index_one’]：定位，按索引選取數據
df.iloc[0,:]：返回第一行df.iloc[0,0]：返回第一列的第一個元素

數據清理

df.columns = [‘a’,‘b’,‘c’]：重命名列名
pd.isnull()：檢查DataFrame對象中的空值，並返回一個Boolean數組
pd.notnull()：檢查DataFrame對象中的非空值，並返回一個Boolean數組
df.drop(index,columns=):刪除行或列
df.dropna()：刪除所有包含空值的行
df.dropna(axis=1)：刪除所有包含空值的列
df.dropna(axis=1,thresh=n)：刪除所有小於n個非空值的行
df.fillna(x)：用x替換DataFrame對象中所有的空值
s.astype(float)：將Series中的數據類型更改爲float類
s.replace(1,‘one’)：用‘one’代替所有等於1的值
s.replace([1,3],[‘one’,‘three’])：用’one’代替1，用’three’代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={‘old_name’: ‘new_ name’})：選擇性更改列名
df.set_index(‘column_one’)：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引

數據處理：Filter、Sort和GroupBy

df[df[col] > 0.5]：選擇col列的值大於0.5的行
df.sort_values(col1)：按照列col1排序數據，默認升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列數據
df.sort_values([col1,col2],
ascending=[True,False])：先按列col1升序排列，後按col2降序排列數據
df.groupby(col)：返回一個按列col進行分組的Groupby對象
df.groupby([col1,col2])：返回一個按多列進行分組的Groupby對象
df.groupby(col1)[col2]：返回按列col1進行分組後，列col2的均值
df.pivot_table(index=col1, values=[col2,col3],
aggfunc=max)：創建一個按列col1進行分組，並計算col2和col3的最大值的數據透視表
df.groupby(col1).agg(np.mean)：返回按列col1分組的所有列的均值
data.apply(np.mean)：對DataFrame中的每一列應用函數
np.meandata.apply(np.max,axis=1)：對DataFrame中的每一行應用函數np.max

數據合併

df1.append(df2)：將df2中的行添加到df1的尾部
df.insert(columns_num,columns,value)：在columns_num列之前插入一列
df.concat([df1, df2],axis=1)：將df2中的列添加到df1的尾部
df1.join(df2,on=col1,how=‘inner’)：對df1的列和df2的列執行SQL形式的join

數據統計

df.describe()：查看數據值列的彙總統計
df.mean()：返回所有列的均值
df.corr()：返回列與列之間的相關係數
df.count()：返回每一列中的非空值的個數
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位數
df.std()：返回每一列的標準差

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python：幾種websocket的鏈接方式

轉載：https://blog.csdn.net/Darkman_EX/article/details/82592118 第一種, 使用create_connection鏈接，需要pip install websocket-client

2020-07-07 07:37:15

Python 基礎內容

Python 基礎文章目錄Python 基礎整數浮點數字符串布爾值空值變量常量/除法字符編碼整數可以處理任意大小的數，包括負整數十六進制數用0x前綴表示浮點數科學計數法表示時10可以用e來表示如： 1.23e9 12

Drops__of__Jupiter

2020-07-06 06:45:55

Python 基礎內容2

Python 基礎內容2 文章目錄Python 基礎內容2list 和 tuplelist列表[]tuple元組()條件判斷dictset不可變對象 list 和 tuple list列表[] list是長度可變的有序集合，可隨時

Drops__of__Jupiter

2020-07-06 06:45:55

【Pyhton】Error expected an indented block

這種錯誤意思是指：應爲縮進塊 1、for循環、while循環、if、elif、else後面的冒號後一定要加上內容，python對此要求很嚴格 for i in range(n): 千萬不能這樣寫 2、縮進塊不對也會出現錯誤 for

2020-07-05 15:03:19

【Python】合併有序數組兩種方法

數組是程序設計語言的通用稱呼，在python裏，列表就是我們常說的數組（以下列表 = 數組）目錄 1、用指針合併兩個有序數組（兩個都是有序的） 2、用sort函數合併兩個有序數組 1、用指針合併兩個有序數組（兩個都是有序的）先看下面兩

2020-07-05 15:03:19

python中用字符串來調用函數

參考： http://blog.sina.com.cn/s/blog_76e94d210100w1bl.html https://taizilongxu.gitbooks.io/stackoverflow-about-python/c

2020-07-02 22:03:24

30行Python代碼爬取英雄聯盟全英雄全皮膚

30行Python代碼爬取英雄聯盟全英雄全皮膚碎碎念英雄聯盟遊戲裏擁有數百個個性英雄，然後每個英雄都有多個皮膚。作爲一個收集控就非常想收齊全部皮膚----的圖片。家境貧寒一言難盡看官點個讚唄！前期分析英雄皮膚的圖鑑信息可以

2020-07-02 17:10:54

numpy.savetxt() 報錯 Mismatch between array dtype (‘object‘) and format specifier (‘%.18e‘)的解決方法

將數組存儲爲文件： import numpy as np a = np.array([[1,2,3],[1,2]]) np.savetxt('xxx.txt',a) 報錯： TypeError: Mismatch betwe

2020-07-02 12:44:05

數據結構與算法_渡劫5_鏈表

文章目錄一、概念二、線性表1. 定義2. 線性表的抽象數據類型3. 線性表的順序存儲結構的騷操作4. 順序表的鏈式存儲結構三、單鏈表的相關操作1. 單鏈表的元素查找2. 單鏈表的元素插入3. 單鏈表的元素刪除4. 單鏈表的整表刪除

2020-07-02 04:04:53

在Anaconda上安裝Tensorflow，並在jupyter上使用——兩種方式

此鏈接是安裝Tensorflow的詳細步驟，https://blog.csdn.net/weixin_42182599/article/details/104794856 但是在jupyter中怎麼使用Tensorflow呢，如果

小曾同学.com

2020-07-02 03:24:39

方法推薦——解決Python安裝庫問題

今天給大家安利一個下載Python庫特別好用的一個網站，這個網站是我同學小閔推薦給我的，相當的好用。網址：http://pypi.douban.com/simple/（豆瓣的一個鏡像）問題描述：當我們在安裝Python所需要的

小曾同学.com

2020-07-02 03:24:38

tensorflow2.0版本的安裝，並指定python=3.7

之前只是嘗試用3.5，3.6的python版本，這次來嘗試使用python3.7版本可以參考python=3.6 安裝,鏈接如下：https://blog.csdn.net/weixin_42182599/article/det

小曾同学.com

2020-07-02 03:24:37

Python學習筆記（五）——全局變量、變量、global、nonlocal

在Python中定義變量時，不需要指定變量的數據類型，系統會根據等號右邊的值，自動判斷出數據類型。變量包括：全局變量局部變量 1. 全局變量全局變量是在函數外部定義的變量，所有函數內部都可以使用這個變量。當程序執行

小曾同学.com

2020-07-02 03:24:37

Python學習筆記（三）——數據類型

Python的數據類型可以分爲：數字類型 bool----布爾(真假)（True 1，False 0） int-----整數 float—浮點數(小數) 非數字類型字符串—str 列表-----list 元組----

小曾同学.com

2020-07-02 03:24:37

Python學習筆記（四）——自定義函數、多值參數、缺省參數、函數遞歸、元組和字典的拆包

1 函數函數是組織好的，可重複使用的，用來實現單一，或相關聯功能的代碼段。函數能提高應用的模塊性，和代碼的重複利用率。定義一個函數的格式： def 函數名(): 函數體 ()中用於存放傳入的參數

小曾同学.com

2020-07-02 03:24:37

24小時熱門文章

最新文章

最新評論文章