linux – 为什么uniq不能处理这个大文件?庆典

linux – 为什么uniq不能处理这个大文件?庆典,第1张

概述我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行) 我执行此命令: cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt 问题是它给了我一个小小的错误:它认为我的语言不同. 例如,第一个条目是: 306 cont 我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)

我执行此命令:

cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt

问题是它给了我一个小小的错误:它认为我的语言不同.
例如,第一个条目是:

306 continua 278 apertura 211 eventi 189 murah 182 giochi 167 giochi

你可以看到,与giochi重复两次

在文件的底部它变得更糟,它看起来像这样:

1 win   1 win   1 win   1 win   1 win   1 win   1 win   1 win   1 win   1 winchester   1 wind   1 wind

对于所有的话

对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟.
我究竟做错了什么?

非常感谢

解决方法 首先尝试排序:
cat .temp_occ | sort| uniq -c | sort -k1,1nr -k2 > distribution.txt
总结

以上是内存溢出为你收集整理的linux – 为什么uniq不能处理这个大文件?庆典全部内容,希望文章能够帮你解决linux – 为什么uniq不能处理这个大文件?庆典所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/1048020.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-25
下一篇 2022-05-25

发表评论

登录后才能评论

评论列表(0条)

保存