Pandas-去除重複項函數drop_duplicates()

原創

2020-07-05 17:43

一、drop_duplicates函數用途

pandas中的drop_duplicates()函數可以通過SQL中關鍵字distinct的用法來理解，根據指定的字段對數據集進行去重處理。

二、drop_duplicates()函數的具體參數

用法：
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
參數說明

參數	說明
subset	根據指定的列名進行去重，默認整個數據集
keep	可選{‘first’, ‘last’, False}，默認first，即默認保留第一次出現的重複值，並刪去其他重複的數據，False是指刪去所有重複數據。
inplace	是否對數據集本身進行修改，默認False

三、drop_duplicates用法舉例

根據指定字段進行去重，保留第一次出現的數據

import pandas as pd
#創建數據框
df=pd.DataFrame({
    'a':[1,2,4,3,3,3,4],
    'b':[2,3,3,4,4,5,3]
})
print('去重前：\n',df)

#根據字段a進行去重，保留第一次出現的數據
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重後：\n',df)

>>>
去重前：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重後：
    a  b
0  1  2
1  2  3
2  4  3
3  3  4

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Python學習二：列表、循環、元組、字典

《毫無障礙學Python》鄧文淵著學習筆記 1.列表結構（List） (又稱清單，即爲其他語言的數組Array) 列表的使用：列表名 = [元素1,元素2,…] 中括號隔開，元素數據類型可同可不同，獲取元素值方法：下標訪問（下

2020-07-08 11:00:43

Python學習一：變量與數據類型、表達式、條件語句

《毫無障礙學Python》鄧文淵著學習筆記變量與數據類型、表達式、條件語句變量 score = 80 #Python變量不聲明就可使用，Python會根據變量值設定數據類型，該score爲int型 fruit = "香蕉"

2020-07-08 11:00:42

Python學習六：web數據抓取與分析

《毫無障礙學Python》鄧文淵著學習筆記 web數據抓取與分析 1.網址解析 . 　　通過Python的 urlparse組件中的 urlparse函數，可對網址進行解析，其返回值爲元組類型的ResultParse對象，通過其

2020-07-08 11:00:42

Python學習五：sqlite數據庫

《毫無障礙學Python》鄧文淵著學習筆記 sqlite數據庫注：需要有數據庫基礎（會用SQL語句創建表，對錶內容進行增刪改查操作即可） sqlite安裝教程參考：https://www.runoob.com/sqlite/

2020-07-08 11:00:42

Python學習四：文件操作

《毫無障礙學Python》鄧文淵著學習筆記文件操作 1. open() 函數 open() 函數打開文件　　python內建函數可打開指定文件用於對文件讀取、修改、添加內容　　open(filename[,mode]

2020-07-08 11:00:42

Python學習三：函數、導包、目錄（文件夾）管理

《毫無障礙學Python》鄧文淵著學習筆記 1.函數 1.1 函數基本（1）語法： . 　　def 函數名(參數1，參數2，參數3,…): 　　#參數可無　　　　程序塊　　return 返回值1,返回值2,返回值3…

2020-07-08 11:00:42

python中的list,tuple,set,dict總結

list,tuple,set,dict總結表名稱列表元組集合字典英文 list tuple set dict 可否讀寫讀寫只讀讀寫讀寫可否重複是是否是存儲方式值值鍵（

伊直程序媛

2020-07-08 04:31:41

python中eval函數和exec函數的區別與聯繫

前言最近在用python寫一個小工具，有一個場景是需要將用戶手動輸入的字符串轉成代碼，一開始不知道python中有內置函數可以直接完成這件事，倒騰了很久，後面還是靠度娘找到了eval函數，部分解決了我的問題，期間遇到困難，又發現

2020-07-07 18:08:31

jupyter 畫基礎圖

import numpy as np import matplotlib.pyplot as plt %matplotlib inline # 創建一個等差數列，初始是0，終值是100，有100個數 x = np.linspace(0

2020-07-07 11:59:12

Jupyter excel和csv數據導入

import os import pandas as pd os.getcwd() #當前路徑 df = pd.read_csv(r'D:\Workspaces\Jupyter\fullevents.csv') # 注意這個r # 還有

2020-07-07 11:59:12

Jupyter 缺失值處理

import os import pandas as pd import numpy as np os.chdir('D:\Workspaces\Jupyter') df = pd.read_excel('data_test.xlsx'

2020-07-07 11:59:12

【Pandas】讀取和保存文件

1.讀取文件 Pandas可以讀取xlsx、json、csv、sql等多種文件格式 import pandas as pd # 讀取文件 file = pd.read_excel("test.xlsx", encoding="u

冰冷的希望

2020-07-08 02:02:18

【Pandas】選擇數據

1.創建一個DataFrame import numpy as np import pandas as pd dates = pd.date_range("20200301", periods=6) df1 = pd.DataF

冰冷的希望

2020-07-08 01:22:12

【Pandas】merge合併

1.on屬性 import pandas as pd df1 = pd.DataFrame({"a": ["A1", "A2", "A3"], "c": ["C1", "C2", "C3"

冰冷的希望

2020-07-08 01:22:12

pandas閱讀筆記

這幾天在閱讀python的pandas庫。現在還在閱讀第二章的內容，在第二章中又一個實例，有一個關於電影數據的數據集，然後，我們對它做一些簡單的分析，做個今天學習的總結。 Part 1 讀取數據首先使用的是pandas的read

2020-07-08 00:18:13

24小時熱門文章

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

最新文章

最新評論文章