在Linux系统软件的实际 *** 作中,如果文档中的数据太少,删除重复的数据行非常不方便,查找起来也不方便,那么用什么方法可以快速删除文档中重复的数据行呢?详细介绍了在linux系统软件中去除一个文档中重复数据线的方法,需要朋友们学习和训练。
1.删除相邻的重复数据行。
编码如下:
$catdata1.txt|uniq
输出:
北京
武汉
北京
武汉
其次,删除所有重复的数据行。
编码如下:
$catdata1.txt|排序|唯一
注意:
如果只有uniq指令,则只删除相邻的重复数据线。
如果先拿到,就把所有重复的数据线换成相邻的数据线,如果再拿到,就把所有重复的数据线去掉。
输出:
北京
武汉
附:data1.txt
编码如下:
[root@syy~]#catdata1.txt
北京
北京
武汉
武汉
武汉
北京
北京
北京
武汉
武汉
注意:过滤器日志中的IP地址非常有效。
删除Linux下大数据文档中一些有重复字段的行
最近,一个数据收集程序进程形成了一个包含1000多万元数据的文档,它由四个字段组成。按照规定,第二个字段的重复行必须删除,在linux下找不到合适的专用工具。sed/gawk等流解析专用工具只能逐行解决问题,找不到重复的行。看到只能用自己的python程序流,突然想起要用mysql,于是出了个干坤大招:
1.使用MySQLimport-localdbnamedata.txt将数据导入表中,表名要和文件夹名一致。
2.实现下面的sql语句(规定唯一字段是uniqfield)
编码如下:
使用dbname
altertabletablenameaddrowidintauto_incrementnotnull;
从tablenamegroupbyuniqfield中创建tabletselectmin(rowid)作为rowid;
创建表t2选择表名。*fromtablename,t其中tablename.rowid=t.rowid;《p》删除表格tablename
将表t2重命名为tablename
以上是我总结的Linux中删除文件重复数据线的方法的详细介绍。本文详细介绍了各种情况下删除文件重复数据行的方法,期待对你有所帮助。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)