python日記Day15——Pandas之入門

python日記——Pandas之入門

  • Pandas庫的介紹
    1、Pandas是Python第三方庫,提供高性能易用數據類型和分析工具,Pandas基於NumPy實現,常與NumPy和Matplotlib一同使用;
    2、Pandas包含兩種數據類型:Series, DataFrame,基於上述數據類型有各類操作:基本操作、運算操作、特徵類操作、關聯類操作;
    3、對比:NumPy 提供基礎數據類型,關注數據的結構表達,主要體現在維度,數據間的關係;Pandas提供基於ndarray的擴展數據類型Series和DataFrame,關注數據的應用表達,主要體現在數據與索引間的關係

  • Series類型
    1、Series類型由一組數據及與之相關的數據索引組成,Series是一維帶“標籤”數組;
    2、Series類型可以由如下類型創建:Python列表、標量值(不能省略index)、Python字典(index表示進行選擇操作)、ndarray(索引和數據都可以通過ndarray類型創建)、其他函數(range()函數等);
    在這裏插入圖片描述
    3、可以用過index自定義索引,自定義索引和自動索引可以共存,但不能混用
    4、Series類型的操作:
    Series類型包括index和values兩部分:
    在這裏插入圖片描述
    Series類型的操作類似ndarray類型:
    在這裏插入圖片描述
    Series類型的操作類似Python字典類型:
    log.csdnimg.cn/20200310130235464.png)
    5、對齊操作:Series類型在運算中會自動對齊不同索引的數據
    在這裏插入圖片描述
    6、Series對象和索引都可以有一個名字,存儲在屬性.name中
    在這裏插入圖片描述
    7、Series對象可以隨時修改並即刻生效。

  • DataFrame類型
    1、DataFrame類型由共用相同索引的一組列組成,DataFrame是二維帶“標籤”數組:
    在這裏插入圖片描述
    2、DataFrame是一個表格型的數據類型,每列值類型可以不同,DataFrame既有行索引(index)、也有列索引(column),DataFrame常用於表達二維數據,但可以表達多維數據:
    在這裏插入圖片描述
    3、DataFrame類型可以由如下類型創建:
    • 二維ndarray對象
    • 由一維ndarray、列表、字典、元組或Series構成的字典
    • Series類型
    • 其他的DataFrame類型
    在這裏插入圖片描述
    4、DataFrame基本操作類似Series,依據行列索引,可通過df.info()查看df的信息。

  • Pandas庫的數據類型操作
    1、如何改變Series和DataFrame對象?
    增加或重排:重新索引
    刪除:drop
    2、.reindex()能夠改變或重排Series和DataFrame索引,
    .reindex(index=None, columns=None, …)的參數:
    在這裏插入圖片描述
    在這裏插入圖片描述
    3、索引類型的常用方法:
    Series和DataFrame的索引是Index類型。在這裏插入圖片描述在這裏插入圖片描述
    4、.drop()能夠刪除Series和DataFrame指定行或列索引,默認爲刪除行索引,當刪除列索引時,需要添加"axis=1"
    在這裏插入圖片描述

  • Pandas庫的數據類型運算
    1、算術運算根據行列索引,補齊後運算,運算默認產生浮點數;補齊時缺項填充NaN (空值);二維和一維、一維和零維間爲廣播運算;採用+ ‐ * /符號進行的二元運算產生新的對象;
    2、方法形式的運算:
    在這裏插入圖片描述
    在這裏插入圖片描述

    廣播運算是指兩個數組進行運算,一個是Series數組(即一維數組),另一個是DataFrame數組(多維數組),即 一維數組看成是一行分別與多維數組的每一行進行運算。需要注意的是,如果一維數組過短,結果每行的長度以最大值爲準,超過的部分空值,即NaN
    3、比較運算只能比較相同索引的元素,不進行補齊;二維和一維、一維和零維間爲廣播運算;採用> < >= <= == !=等符號進行的二元運算產生布爾對象。
    在這裏插入圖片描述
    在這裏插入圖片描述

  • df.loc[ ]和df.iloc[ ]
    1、df.loc[ ]:用index定位數據,也就是說loc是根據index來索引,比如下邊的df定義了一個index,那麼loc就根據這個index來索引對應的行
    2、df.iloc[ ]:用position定位數據,iloc並不是根據index來索引,而是根據行號來索引,行號從0開始,逐次加1。

本文內容參考於北京理工大學嵩天老師相關課程

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章