linux命令对某一列去重统计

linux命令对某一列去重统计,第1张

cat file.csv | awk -F '\t' '{print $2}'

'\t'指的是file.csv不同列以'\t'分割,如果的是以其他符号分割,换成其她符号;

'{print $2}'是指取第2列,此处从1开始计数,第1列,第2列;

一般去重之前要进行排序

cat file.csv | awk -F '\t' '{print $2}' | sort | uniq

前半部分与命令1一样,后面加上| sort | uniq

比如通过命令2发现,第2列取值有两种,分别是'neg'和‘pos’,那么我想知道有多少行的第2列取值为'pos',多少行的第2列取值为'neg'。

cat file.csv | awk -F '\t' '{print $2}' | grep -o 'neg'| wc -l

前半部分与命令1一样,后面加上 | grep -o 'neg'| wc -l

grep -o 'neg'就是取出取值为'neg'的行

wc -l 是计数有多少行

在Linux系统里常用于文本查看、 *** 作、统计的命令:

通过多敲键盘,形成手感 肌肉记忆 ,熟练掌握这些命令,在以后生信分析中游刃有余。以下是每个命令的详细的介绍(主要是跟着 生信技能树小郭老师 学习做的笔记)

接下来通过示例把10个命令的常用参数和用法展示出来:

参数的用法介绍:

注意事项:

cat 命令可以 查看文本 ,也可以 编辑文本 ,编辑文本要加 > 符号,退出时,另起一行,按 control C 退出

zcat可以查看压缩的文本文件,tac逆向查看

结合 管道符| 使用

head / tail -n :查看文件的前 / 后 n 行,默认 10 (在R语言里head和tail默认是前6行)。

less命令用得最多 ,more命令用得比较少

3.1 less命令

less [参数] 文件名

less命令重要的补充用法1

需要注意 退出 :只要使用less命令, 按q键

less命令重要的补充用法2

参数用法:

less命令 不加参数 查看文件

less命令加 -N参数 查看文件:显示行号

less命令加 -S参数 查看文件:单行显示,非常规整

对比:less和cat命令显示文本行号的用法:less -N,cat -n

3.2 more命令

**more ** 逐页查看,按空格翻页,按回车换行 ,more命令一般很少用,熟练掌握less命令就好

查看压缩文件

wc 统计字符是也把换行符统计进去,但是别的命令不一定会把换行符算进去,。

常见参数:

切记:用less命令,按q退出

cut命令是按关键词来切的

常见参数:

排列前:

排列后:

解释:1和0比,1大;7和0比,7大…在sort字典排序里,100816比1737小,所以100816排在前面。

命令行查看一个表格结构时,因为制表符对齐的原因,出现一个错位的现象。还有 字典排序 可能和我们平时的认知不一样,所以 加上-n参数 让数值有数学意义上的大小来排序

uniq命令去重,只有两行出现重复,而且是相邻的两行,如果不相邻,即使出现两行一模一样,不会去重。

uniq命令通常和sort命令搭配使用

换其它文件试试

总之,uniq命令使用时经常和sort一起

常见参数:

常见用法1:

paste file1 file2

-s :按行合并 演示

常见用法2 : paste - -

常见参数:

要养成一个好习惯,原始数据不要轻易修改,修改的东西另外保存,文本保存用>(重定向)或是 >>(追加)

1. less 查看 example.gtf ,然后管道符传递给 wc

2. 截取 example.gtf 9 列的内容

3. 在第2步的基础上截取分号分割的第1列

4. 在第3步的基础上排序、去重复并统计

5. 在第4步的基础上,将空格替换成制表符

补充小知识

清屏 :control L

查看历史(输入过的)命令 :history

文件 test.log json文件数据

根据 data.ext.uid 字段排序

使用 jq 去重数据,并只显示 data.ext.uid 字段

多维度去重


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/6063532.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-13
下一篇 2023-03-13

发表评论

登录后才能评论

评论列表(0条)

保存