linux命令对某一列去重统计_系统运维

cat file.csv | awk -F '\t' '{print $2}'

'\t'指的是file.csv不同列以'\t'分割，如果的是以其他符号分割，换成其她符号；

'{print $2}'是指取第2列，此处从1开始计数，第1列，第2列；

一般去重之前要进行排序

cat file.csv | awk -F '\t' '{print $2}' | sort | uniq

前半部分与命令1一样，后面加上| sort | uniq

比如通过命令2发现，第2列取值有两种，分别是'neg'和‘pos’，那么我想知道有多少行的第2列取值为'pos'，多少行的第2列取值为'neg'。

cat file.csv | awk -F '\t' '{print $2}' | grep -o 'neg'| wc -l

前半部分与命令1一样，后面加上 | grep -o 'neg'| wc -l

grep -o 'neg'就是取出取值为'neg'的行

wc -l 是计数有多少行

用uniq，如下，将 1.txt 中所有 "相邻" 重复行合并成一行，结果存入 2.txt

uniq 1.txt > 2.txt

如果是想将相邻重复行彻底删掉（而不是合并成一行），可以用

uniq -u 1.txt > 2.txt

欢迎分享，转载请注明来源：内存溢出

linux命令对某一列去重统计