LINUX下去除文件中重复的行_系统运维

wk肯定行

这是一个cu的精华帖，差不多，对于你的问题你给稍等我修改一下。（ps感谢红袖添香大姐）

CU精华经典回顾

#假设我有如下文件：

#cat aa

#123 def1 456

#345 def2 812

#123 def3 563

#322 def4 684

#123 def5 879

#......................

#现在我想把第一列中字段相同的合并，第一列不相同的则保留，合并的原则就是保留第一个出现的前两个字段，第三个字段则把结果相加，以上面的示例为例：

#就是对于123开头的需要合并，合并后应该成为如下：

#cat aa

#123 def1 1898

#345 def2 812

#322 def4 684

#请问用shell如何实现？

#希望各位帮助！，谢谢！！

#要求总结：

#1 合并相同的第一列数据，并且计算第三列和

#2 第二列只保留第一次出现

#3 第一列顺序不变

觉得这个问题很经典，所以从CU论坛转过来了。

请大家一起学习

我们站在巨人的肩膀上。

问题补充：

看不太懂实现可以讲一下思路吗？

a[$1]+=$3

if(length(b[$1])==0)b[$1]=$2

我是这样做的

－－－－－－－－－－－－－－－－－－－－－－－－－－2

谢谢你的补充，已经明白了你对split的适用技巧，是用split(a[$1],tmp)在碰到匹配的$1时取出以前的统计结然后再用$3加上以前的结果是吧，很巧妙。谢谢

但是有2个问题：

1不满足第二列保留第一次出现记录（现在是保留最后一次出现）

2不满足第一列按照原来文件顺序出现

看看这个

awk 'BEING

{

a[$1]+=$3

if(length(b[$1])==0)b[$1]=$2

if($1 in ind)next

ind[$1]

key[n]=$1

n++

}

END{

for(i in key)print key[i],b[key[i]],a[key[i]]

}' filename

＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃＃

这样就行了

#!/bin/bash

awk 'BEGIN

{

if($0 in a)next

a[$0]

b[n]=$0

n++

}

END{

for(i in b)print b[i]

}' data

前提是你的数据文件里面每行没有空格，如果有用-F设定一个没有的字符作分隔符就

利用linux命令行进行文本按行去重并按重复次数排序linux命令行提供了非常强大的文本处理功能，组合利用linux命令能实现好多强大的功能。本文这里举例说明如何利用linux命令行进行文本按行去重并按重复次数排序。主要用到的命令有sort，uniq和cut。其中，sort主要功能是排序，uniq主要功能是实现相邻文本行的去重，cut可以从文本行中提取相应的文本列(简单地说，就是按列 *** 作文本行)。用于演示的测试文件内容如下：[plain]Hello

World.

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

The

Iphone

Apple

company.

Hello

World.

The

Iphone

Apple

company.

name

Friendfish.

Hello

World.

Apple

and

Nokia.

实现命令及过程如下：[plain]1、文本行去重

(1)排序

由于uniq命令只能对相邻行进行去重复 *** 作，所以在进行去重前，先要对文本行进行排序，使重复行集中到一起。

sort

test.txt

Apple

and

Nokia.

Apple

and

Nokia.

Hello

World.

Hello

World.

Hello

World.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

The

Iphone

Apple

company.

(2)去掉相邻的重复行

sort

test.txt

uniq

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

2、文本行去重并按重复次数排序

(1)首先，对文本行进行去重并统计重复次数(uniq命令加-c选项可以实现对重复次数进行统计。)。

sort

test.txt

uniq

-c

Apple

and

Nokia.

Hello

World.

wanna

buy

Apple

device.

name

Friendfish.

The

Iphone

Apple

company.

(2)对文本行按重复次数进行排序。

sort

-n可以识别每行开头的数字，并按其大小对文本行进行排序。默认是按升序排列，如果想要按降序要加-r选项(sort

-rn)。

sort

test.txt

uniq

-c

sort

-rn

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

(3)每行前面的删除重复次数。

cut命令可以按列 *** 作文本行。可以看出前面的重复次数占8个字符，因此，可以用命令cut

-c

取出每行第9个及其以后的字符。

sort

test.txt

uniq

-c

sort

-rn

cut

-c

Hello

World.

The

Iphone

Apple

company.

Apple

and

Nokia.

name

Friendfish.

wanna

buy

Apple

device.

下面附带说一下cut命令的使用，用法如下：[plain]cut

-b

list

[-n]

[file

...]

cut

-c

list

[file

...]

cut

-f

list

[-d

delim][-s][file

...]

上面的-b、-c、-f分别表示字节、字符、字段（即byte、character、field）；

list表示-b、-c、-f *** 作范围，-n常常表示具体数字；

file表示的自然是要 *** 作的文本文件的名称；

delim（英文全写：delimiter）表示分隔符，默认情况下为TAB；

-s表示不包括那些不含分隔符的行（这样有利于去掉注释和标题）

三种方式中，表示从指定的范围中提取字节（-b）、或字符（-c）、或字段（-f）。

范围的表示方法：

只有第n项

从第n项一直到行尾

n-m

从第n项到第m项(包括m)

-m

从一行的开始到第m项(包括m)

从一行的开始到结束的所有项

在写这篇文章的时候，用到了vim的大小写转化的快捷键：gu变小写，gU变大写。结合ctrl+v能够将一片文字中的字符进行大小写转换，非常好用。

你算问对人咯。使用linux的comm

如果是WIN下的文件，注意先转换换行符号！！！

先对文件进行排序去重复:sort filename1 |uniq>filename1-sorted

然后对第2个文件也排序去重复并管道使用comm 找出符合你要求的：

共同拥有的行：sort filename2|uniq|comm -12 - filename1-sorted>共同拥有的

文件 filename1-sorted独有的： sort filename2|uniq|comm -13 - filename1-sorted>filename1-sorted独有

文件 filename2独有的： sort filename2|uniq|comm -23 - filename1-sorted>filename2独有。

赶紧给分，哈哈！

用comm相对比较简单，也可以用 awk做：

共同拥有的：

gakw 'ARGIND==1{a[$1]=$1} ARGIND>1{if(a[$1]!="") print $0}' file1 file2>共同拥有

gakw 'ARGIND==1{a[$1]=$1} ARGIND>1{if(a[$1]＝="") print $0}' file1 file2>file2独有

gakw 'ARGIND==1{a[$1]=$1} ARGIND>1{if(a[$1]＝="") print $0}' file2 file1>file1独有

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8730894.html

LINUX下去除文件中重复的行

发表评论

评论列表（0条）