Pandas-去除重複項函數drop_duplicates()

一、drop_duplicates函數用途

pandas中的drop_duplicates()函數可以通過SQL中關鍵字distinct的用法來理解,根據指定的字段對數據集進行去重處理。

二、drop_duplicates()函數的具體參數

  • 用法:
    DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • 參數說明

參數 說明
subset 根據指定的列名進行去重,默認整個數據集
keep 可選{‘first’, ‘last’, False},默認first,即默認保留第一次出現的重複值,並刪去其他重複的數據,False是指刪去所有重複數據。
inplace 是否對數據集本身進行修改,默認False

三、drop_duplicates用法舉例

  • 根據指定字段進行去重,保留第一次出現的數據
import pandas as pd
#創建數據框
df=pd.DataFrame({
    'a':[1,2,4,3,3,3,4],
    'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)

#根據字段a進行去重,保留第一次出現的數據
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重後:\n',df)

>>>
去重前:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重後:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章