交集定义为同时出现在两个文件中的记录项;
并集定义为出现在任何一个文件中的记录项;
差集( A-B )定义为出现在A中而且不出现在B中的记录;
对称差集定义为只出现在一个文件中的记录;
假设 a.txt 包括 a, c, b 三行。假设 b.txt 包括 d, e, c, b 四行。
交集 ,把两个文件放到一起排序,只输出次数多于一次的项:
$ sort a.txt b.txt | uniq -d
并集 ,把两个文件放到一起排序,重复的项只算一次:
$ sort a.txt b.txt | uniq
差集(A-B) ,把B的元素重复2份和A的元素放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt b.txt | uniq -u
对称差 ,把两个文件放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt | uniq -u
指定分隔符(-t)及基于哪一列(-k)、基于数值(-n) 、逆序(-r)进行排序
#排序之后删除了重复行,同时在行首位置输出该行重复的次数:
执行命令:sort testfile | uniq -c ,输出结果如下
#仅显示存在重复的行,并在行首显示该行重复的次数:
执行命令:sort testfile | uniq -dc,输出结果如下
#仅显示没有重复的行:
执行命令:sort testfile | uniq -u,输出结果如下
通常如果我们想获取一个文件里不重复的行的时候,我们可以直接通过 sort -u 命令,先把文件排序,然后去掉连续的重复行就行。
可是,如果我们去掉重复行之后,还想保留文件原有的顺序,该怎么办呢?
虽然 Linux 下有个看上去似乎很有用的命令叫uniq,但事实上 uniq 命令仅仅只对连续的重复行有效。
如果不排序,直接使用 uniq 命令是没有用的;使用 sort -u 的话,我们就丢失了文件原有的行的顺序了。
一个终极的解决方案是使用 awk:
简要解释一下:awk 的基本执行流程是,对文件的每一行,做一个指定的逻辑判断,如果逻辑判断成立,则执行指定的命令;如果逻辑判断不成立,则直接跳过这一行。
我们这里写的 awk 命令是!x[$0]++,意思是,首先创建一个 map 叫x,然后用当前行的全文$0作为 map 的 key,到 map 中查找相应的 value,如果没找到,则整个表达式的值为真,可以执行之后的语句;如果找到了,则表达式的值为假,跳过这一行。
由于表达式之后有++,因此如果某个 key 找不到对应的 value,该++ *** 作会先把对应的 value 设成 0,然后再自增成 1,这样下次再遇到重复的行的时候,对应的 key 就能找到一个非 0 的 value 了。
我们前面说过,awk 的流程是先判断表达式,表达式为真的时候就执行语句,可是我们前面写的这个 awk 命令里只有表达式,没有语句,那我们执行什么呢?原来,当语句被省略的时候,awk 就执行默认的语句,即打印整个完整的当前行。就这样,我们通过这个非常简短的 awk 命令实现了去除重复行并保留原有文件顺序的功能。
uniq [选项] 文件说明:这个命令读取输入文件,并比较相邻的行。在正常情况下,第二个及以后更多个重复行将被删去,行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示,则从标准输入读取。该命令各选项含义如下:、– c 显示输出中,在每行行首加上本行在文件中出现的次数。它可取代- u和- d选项。– d 只显示重复行。– u 只显示文件中不重复的各行。– n 前n个字段与每个字段前的空白一起被忽略。一个字段是一个非空格、非制表符的字符串,彼此由制表符和空格隔开(字段从0开始编号)。+n 前n个字符被忽略,之前的字符被跳过(字符从0开始编号)。– f n 与- n相同,这里n是字段数。– s n 与+n相同,这里n是字符数。接下来通过实践实例说明:复制代码代码如下:[root@stu100 ~]# cat testboy took bat homeboy took bat homegirl took bat homeboy took bat homeboy took bat homedog brought hat homedog brought hat homedog brought hat home看test文件的内容复制代码代码如下:[root@stu100 ~]# uniq testboy took bat homegirl took bat homeboy took bat homedog brought hat homeuniq命令不加任何参数,仅显示连续重复的行一次复制代码代码如下:[root@stu100 ~]# uniq -c test2 boy took bat home1 girl took bat home2 boy took bat home3 dog brought hat home1-c 参数显示文件中每行连续出现的次数。复制代码代码如下:[root@stu100 ~]# cat test |sort | uniq -c14 boy took bat home3 dog brought hat home1 girl took bat home排序后再显示复制代码代码如下:[root@stu100 ~]# uniq -d testboy took bat homeboy took bat homedog brought hat home-d选项仅显示文件中连续重复出现的行。复制代码代码如下:[root@stu100 ~]# uniq -u testgirl took bat home-u选项显示文件中没有连续出现的行。复制代码代码如下:[root@stu100 ~]# uniq -f 2 -s 2 testboy took bat home忽略每行的前2个字段,忽略第二 个空白字符和第三个字段的首字符,结果at home复制代码代码如下:[root@stu100 ~]# uniq -f 1 testboy took bat homedog brought hat home忽 略每行的第一个字段,这样boy ,girl开头的行看起来是连续重复的行。复制代码代码如下:[root@stu100 ~]# uniq -D testboy took bat homeboy took bat homeboy took bat homeboy took bat homedog brought hat homedog brought hat homedog brought hat home显示所有重复的行,每个重复的行都显示当你有一个包含相同条目的雇员(employee)的文件,你可以以如下方式来删除相同的条目复制代码代码如下:$ sort namesd.txt | uniq$ sort –u namesd.txt如果你想知道有多少行是相同的,可以像下面这个做。以下例子中的第一列显示该行的重复数量。在本例中,以Alex和Emma开头的行,在文件中有两个重复行。复制代码代码如下:$ sort namesd.txt | uniq –c2 Alex Jason:200:Sales2 Emma Thomas:100:Marketing1 Madison Randy:300:Product Development1 Nisha Singh:500:Sales1 Sanjay Gupta:400:Support3. 以下命令仅仅列出了相同的条目复制代码代码如下:$ sort namesd.txt | uniq –cd2 Alex Jason:200:Sales2 Emma Thomas:100:Marketing欢迎分享,转载请注明来源:内存溢出
评论列表(0条)