一、drop_duplicates函數用途
pandas中的drop_duplicates()函數可以通過SQL中關鍵字distinct的用法來理解,根據指定的字段對數據集進行去重處理。
二、drop_duplicates()函數的具體參數
-
用法:
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False) -
參數說明
參數 | 說明 |
---|---|
subset | 根據指定的列名進行去重,默認整個數據集 |
keep | 可選{‘first’, ‘last’, False},默認first,即默認保留第一次出現的重複值,並刪去其他重複的數據,False是指刪去所有重複數據。 |
inplace | 是否對數據集本身進行修改,默認False |
三、drop_duplicates用法舉例
- 根據指定字段進行去重,保留第一次出現的數據
import pandas as pd
#創建數據框
df=pd.DataFrame({
'a':[1,2,4,3,3,3,4],
'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)
#根據字段a進行去重,保留第一次出現的數據
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重後:\n',df)
>>>
去重前:
a b
0 1 2
1 2 3
2 4 3
3 3 4
4 3 4
5 3 5
6 4 3
去重後:
a b
0 1 2
1 2 3
2 4 3
3 3 4