linux– 使用“uniq -c”命令时需要从输出中删除计数

linux– 使用“uniq -c”命令时需要从输出中删除计数,第1张

概述我正在尝试读取文件并按特定字段的出现次数对其进行排序.假设我想从日志文件中找出最重复的日期,然后我使用uniq -c选项并按降序排序.这样的事情uniq -c | sort -nr 这将产生这样的输出 - 809 23/Dec/2008:19:20 实际上是计数的第一个字段对我来说是个问题....我想从上面的输出得到日期,但是我无法得到它.我尝试使用cut

我正在尝试读取文件并按特定字段的出现次数对其进行排序.假设我想从日志文件中找出最重复的日期,然后我使用uniq -c选项并按降序排序.这样的事情

uniq -c | sort -nr 

这将产生这样的输出 –

809 23/Dec/2008:19:20

实际上是计数的第一个字段对我来说是个问题….我想从上面的输出得到日期,但是我无法得到它.我尝试使用cut命令并执行此 *** 作

uniq -c | sort -nr | cut -d' ' -f2 

但这只是打印空白区域…请有人帮助我获取日期并切断计数.我只想要

23/Dec/2008:19:20

谢谢最佳答案来自uniq的计数前面有空格,除非计数中有超过7位数,因此您需要执行以下 *** 作:

uniq -c | sort -nr | cut -c 9-

获取列(字符位置)9向上.或者你可以使用sed:

uniq -c | sort -nr | sed 's/^.\{8\}//'

要么:

uniq -c | sort -nr | sed 's/^ *[0-9]* //'

面对重复计数10,000,000或更多,第二种选择是强劲的;如果你认为这可能是一个问题,它可能比削减替代品更好.毫无疑问,还有其他选择.

警告:计数是通过Mac OS X 10.7.3上的实验确定的,但是使用来自coreutils 8.3的GNU uniq. BSD uniq -c在单个数字计数之前产生3个前导空格. POSIX规范说uniq -c的输出格式应如下:

printf("%d %s",repeat_count,line);

这不会有任何领先的空白.鉴于输出格式可能出现这种差异,带有[0-9]正则表达式的sed脚本是处理uniq -c的观察和理论输出变化的最可靠方法:

uniq -c | sort -nr | sed 's/^ *[0-9]* //'
总结

以上是内存溢出为你收集整理的linux – 使用“uniq -c”命令时需要从输出中删除计数全部内容,希望文章能够帮你解决linux – 使用“uniq -c”命令时需要从输出中删除计数所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/1047268.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存