交集定义为同时出现在两个文件中的记录项;
并集定义为出现在任何一个文件中的记录项;
差集( A-B )定义为出现在A中而且不出现在B中的记录;
对称差集定义为只出现在一个文件中的记录;
假设 a.txt 包括 a, c, b 三行。假设 b.txt 包括 d, e, c, b 四行。
交集 ,把两个文件放到一起排序,只输出次数多于一次的项:
$ sort a.txt b.txt | uniq -d
并集 ,把两个文件放到一起排序,重复的项只算一次:
$ sort a.txt b.txt | uniq
差集(A-B) ,把B的元素重复2份和A的元素放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt b.txt | uniq -u
对称差 ,把两个文件放到一起排序,只输出出现一次的项:
$ sort a.txt b.txt | uniq -u
指定分隔符(-t)及基于哪一列(-k)、基于数值(-n) 、逆序(-r)进行排序
#排序之后删除了重复行,同时在行首位置输出该行重复的次数:
执行命令:sort testfile | uniq -c ,输出结果如下
#仅显示存在重复的行,并在行首显示该行重复的次数:
执行命令:sort testfile | uniq -dc,输出结果如下
#仅显示没有重复的行:
执行命令:sort testfile | uniq -u,输出结果如下
ref: Linux diff --比较两个文件并输出不同之处 - 老莫小小朋友 - CSDN博客
两个文件必须是排序和唯一(sorted and unique)
默认输出为三列,第一列为是A-B,第二列B-A,第三列为A交B
aaa.txt的差集 -2 -3 参数
bbb.txt的差集 -1 -3 参数
ref: 如何求两个文件的交集、并集和差集?------sort和uniq闪亮登场 - stpeace的专栏 - CSDN博客
交集:
并集:
差集:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)