如何快速删除Linux文件中的重复数据行

如何快速删除Linux文件中的重复数据行,第1张

如何快速删除Linux文件中的重复数据行

在Linux系统软件的实际 *** 作中,如果文档中的数据太少,删除重复的数据行非常不方便,查找起来也不方便,那么用什么方法可以快速删除文档中重复的数据行呢?详细介绍了在linux系统软件中去除一个文档中重复数据线的方法,需要朋友们学习和训练。

1.删除相邻的重复数据行。

编码如下:

$catdata1.txt|uniq

输出:

北京

武汉

北京

武汉

其次,删除所有重复的数据行。

编码如下:

$catdata1.txt|排序|唯一

注意:

如果只有uniq指令,则只删除相邻的重复数据线。

如果先拿到,就把所有重复的数据线换成相邻的数据线,如果再拿到,就把所有重复的数据线去掉。

输出:

北京

武汉

附:data1.txt

编码如下:

[root@syy~]#catdata1.txt

北京

北京

武汉

武汉

武汉

北京

北京

北京

武汉

武汉

注意:过滤器日志中的IP地址非常有效。

删除Linux下大数据文档中一些有重复字段的行

最近,一个数据收集程序进程形成了一个包含1000多万元数据的文档,它由四个字段组成。按照规定,第二个字段的重复行必须删除,在linux下找不到合适的专用工具。sed/gawk等流解析专用工具只能逐行解决问题,找不到重复的行。看到只能用自己的python程序流,突然想起要用mysql,于是出了个干坤大招:

1.使用MySQLimport-localdbnamedata.txt将数据导入表中,表名要和文件夹名一致。

2.实现下面的sql语句(规定唯一字段是uniqfield)

编码如下:

使用dbname

altertabletablenameaddrowidintauto_incrementnotnull;

从tablenamegroupbyuniqfield中创建tabletselectmin(rowid)作为rowid;

创建表t2选择表名。*fromtablename,t其中tablename.rowid=t.rowid;《p》删除表格tablename

将表t2重命名为tablename

以上是我总结的Linux中删除文件重复数据线的方法的详细介绍。本文详细介绍了各种情况下删除文件重复数据行的方法,期待对你有所帮助。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/770949.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存