Pandas去除重复项函数详解drop_duplicates(),


目录
  • drop_duplicates函数用途
  • drop_duplicates()函数的具体参数
  • drop_duplicates用法举例
  • 总结

drop_duplicates函数用途

pandas中的drop_duplicates()函数

可以通过SQL中关键字distinct的用法来理解

根据指定的字段对数据集进行去重处理

drop_duplicates()函数的具体参数

用法:

DataFrame.drop_duplicates(subset=None, keep=‘first', inplace=False)

参数说明:

参数说明
subset根据指定的列名进行去重,默认整个数据集
keep可选{‘first’, ‘last’, False},默认first,即默认保留第一次出现的重复值,并删去其他重复的数据,False是指删去所有重复数据。
inplace是否对数据集本身进行修改,默认False

drop_duplicates用法举例

根据指定字段进行去重

保留第一次出现的数据

import pandas as pd
#创建数据框
df=pd.DataFrame({
    'a':[1,2,4,3,3,3,4],
    'b':[2,3,3,4,4,5,3]
})
print('去重前:\n',df)

#根据字段a进行去重,保留第一次出现的数据
df.drop_duplicates(['a'],keep='first',inplace=True)
print('去重后:\n',df)

>>>
去重前:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4
4  3  4
5  3  5
6  4  3
去重后:
    a  b
0  1  2
1  2  3
2  4  3
3  3  4

总结

以上为个人经验,希望能给大家一个参考,也希望大家多多支持3672js教程。

您可能感兴趣的文章:
  • Pandas之使用drop_duplicates:去除重复项
  • 详解pandas使用drop_duplicates去除DataFrame重复项参数
  • Pandas之drop_duplicates:去除重复项方法
  • Pandas 中的 drop_duplicates()详解
  • Python Pandas中DataFrame.drop_duplicates()删除重复值详解

评论关闭