pandas删除重复数据行

pandas删除重复数据行,第1张

在处理pandas数据时,有时候需要删除重复数据,pandas为我们提供了drop_duplicates()函数。下面对其使用方法进行介绍:

keep:{‘first’, ‘last’, False}, 默认值 ‘first’

那我就举个例子说明一下吧!

比如删除以下DataFrame的后两列:

0 1 2

0 1 0 1

1 0 0 1

2 1 0 1

3 0 0 1

4 0 0 1

然后这样写:df.ix[:,~((df==1).all()|(df==0).all())]

drop 方法是pandas中删除行或列的方法。

根据 索引名 删除目标行。

当需要根据索引位置删除时,可以使用 index 属性来组合完成。

根据 列名 删除目标列,同时需要设置 axis=1 或者 columns 。

当需要根据列位置删除时,可以使用 columns 属性来组合完成。

删除列也可以用关键字 del 实现,每次只能删除一列,且删除列后,原数据发生改变。

同时删除行和列,需要为行使用 index 参数,为列使用 columns 参数。

当数据框有多重索引时,删除行时,需要设置 level 参数。

多重索引数据框同时删除行和列时,只能删除第一层索引和列。

dropna 为删除缺失值的方法。

默认会删除包含缺失值的所有行。

可设置 how , thresh , subset 参数控制删除的行为。

设置参数 axis=1 或者 axis=columns 删除缺失列。

同样,可以设置 how , thresh , subset 参数来控制删除缺失列的行为。

删除重复值用 drop_duplicates 方法实现。

设置 subset 参数,根据列删除重复行。

设置 ignore_index=True 可以对删除重复行后的数据索引重排序。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6699679.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-27
下一篇 2023-03-27

发表评论

登录后才能评论

评论列表(0条)

保存