Python

code • 2022-5-13 • python • 阅读 20

去除重复数据——drop_duplicates

去除指定单列或多列中的完全重复的项通过drop_duplicates()函数实现，需要利用Pandas包。

其中：

1、subset=[] 表示整个dataframe基于[]内选定列进行数据重复内容识别，可以添加多列数据进行识别。

（1）添加一列列名时表示对选中的单列数据进行重复数据识别，

（2）添加多列时则表示识别多列数据同时重复的情况；

2、keep='' 表示对选中的重复数据 *** 作策略，可选择的参数为'first'、'last'和'False'三种。

（1）'first'表示在识别的重复项中保留按照索引顺序的第一个内容，其余删除，

（2）'last'表示在识别的重复项中保留按照索引顺序的最后一个内容，其余删除，

（3）'False'表示删除所有重复项；

3、inplace= 表示对处理好的dataframe存储策略，可选择参数为False和True

（1）False表示不对原始数据进行去重工作，例如示例代码中data1内容不改变，将处理结果赋予data参数中，

（2）True表示去重工作直接在原始数据中进行 *** 作，例如示例代码中data1中去重 *** 作会直接在data1中进行，data不会被赋值。

data = data1.drop_duplicates(subset=['列名1','列名2'], keep='first', inplace= False)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/870775.html

数据分析数据挖掘

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

用python进行温度转换案例

上一篇 2022-05-13

人工智能作业一——PyTorch安装教程

下一篇 2022-05-13

发表评论

登录后才能评论

评论列表（0条）