数据处理时,有时需要删除重复的数据。
excel有个功能叫“删除重复项”。步骤如下:①点击“数据”;②点击“数据工具栏”里的“删除重复值”;③选择要删除重复值的列;④点击“确定”。
python 是否也可以实现根据某列的重复值,来删除重复行的功能,且不想先把数组转化成frame格式,然后使用‘panda’库里的‘drop_duplicates’函数来 *** 作。
答案是:可以滴!
方法如下:
eg:删除第二列的重复值所在的行
①实现导入数据
data = [['a',1,2,3],['b',5,5,6],['b',4,5,6],['c',4,7,8]] print(data)
out: ['a', 1, 2, 3] ['b', 5, 5, 6] ['b', 4, 5, 6] ['c', 4, 5, 6]
②使用for语句实现逐行检测,使用if not in 排除重复值所在行,并把新的数组赋值给一个新变量。
其中:row 为查找第几列重复值,data1为排查重复值数据,data_new剔除重复值后的新数组
row = 1 data1 = [] data_new = [] for i in range(len(data)): #遍历data每行数据 if data[i][1] not in data1: #判断i行row列数据是否在data1里面 data1.append(data[i][1]) #如果不在,则将该数据添加进data1里 data_new.append(data[i][:]) #并把该行数据添加在datanew数组里
输出结果:
print(data_new)
['a', 1, 2, 3] ['b', 5, 5, 6] ['b', 4, 5, 6]
实现了删除第二列的重复值所在行的功能
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)