awk 多文件合并,多列索引等 *** 作

awk 多文件合并,多列索引等 *** 作,第1张

例 1  索引

a.txt 文件内容如下:

b.txt文件如下

执行命令:

awk 'NR==FNR{a[$1]=$2}NR!=FNR{if($1 in a) print $1, a[$1], $2else print $1, 0, $2}' a.txt b.txt

输出结果:

参数解释:

awk 'NR==FNR{a[$1]=$2}NR!=FNR{if($1 in a) print $1, a[$1], $2else print $1, 0, $2}' a.txt b.txt

NR==FNR{a[$1]=$2}  : NR==FNR判断是否是第一个文件,如果是第一个文件执行 {a[$1]=$2 } *** 作,将a.txt第一列作为key 第二列作为value生成索引a。 这一步执行后得出的结果宏改大概是 a={'20000401':'100000999', '20100503':'100000888'} (实际上并不是json结构)

NR!=FNR{if($1 in a) print $1, a[$1], $2else print $1, 0, $2} : 如果不是第一个文件, 这个例子中是指b.txt, 这段命令中 $1, $2 都是b.txt 中的第一、二列,逻辑很简单不解释了。

例 2. 统计

awk '{if (($3 >= 10 ) &&($3 <20)) _cnt_10+=1 else _cnt_20+=1} END {print _cnt_10, _cnt_20}' res.txt

awk '{if (($3 >= 10 ) &&($3 <20)) {_cnt_10+=1} else if($3>=0 &&$3<10) {_cnt_1+=1} else {_cnt_20+=1}} END {print _cnt_1,_cnt_10, _cnt_20}' res.txt

结果:局扒

上面两个范围统计的例子原理不难, 主要是语法难记, 需要注意蔽腊判的是我的mac笔记本里不能用elif 报语法错误, 只能用else if 不知道怎么回事。

AWK

语法: awk -F/f/v/ + ‘pattern’ +文件全路径

或者:标准输出|awk -F/f/v/ + ‘pattern’

参数含义: -F 指定域的分隔符,如默冒号“:”

写法有三个

1.awk -F: ‘pattern’ 文件全路径

2.awk -F “:” ‘pattern’ 文件全路径

3.awk -F’[:,\t]’ ‘pattern’ 文件全路径 #这里用单引号+中括号,表示分隔字符的集合,集合中的每一个符号都会被用作分隔符去分隔当前行

-f 指定从awk文件中执行awk指令

awk是一门语言,它有自己的语法,如果在考虑复用已经awk语句比较复杂的情况下,建议将其写入文件。文件尾建议定为.awk的后缀。

在awk脚本文件的第一行,写入命令解释器的位置,所以这里要写入awk解释器的路劲

终端执行 which awk 命令得到位置

一般为 /usr/bin/awk

于是,文件开头写为 #!/usr/bin/awk -f

然后就在下一行写你的awk语句,保存退出。

这么执行 awk -f script.awk file

-v 自定义变量

awk -v var="name" 'BEGIN{print var}'

感觉没什么用,如果要定义变量,不如直接定义在BEGIN里面

awk -F: ‘BEGIN{var=”name”}{print var}END{print “balabalaba”}’ file

awk 可以使用条件判断、for、do-while等控制语句

语法都和C语言近似,如有需要请看这里

https://www.cnblogs.com/chengmo/archive/2010/10/04/1842073.html

awk 的print 语句支持格式控制,和C类似 ,

语法为: print “balabal %-6s balabala %d\n”,name,age

%s,控制字符串类型输出

%d,控制整形类型输出

%f,控制浮点型

%%,转义为%号

awk存在数组数据类型

数组也和变量一样,初始化语句也同时是声明语句,arr[110]=”aaa”,arr[nihao] = 123,

可以看出来,awk的数组其实并不是正真意义槐余上的数组,更像一个字典

awk内置变量

(一)FS:字段分隔符(field separator) #设置域分隔字符,是用某个字符的替换之前的内容

(二)OFS:输出的字段分隔符(output field separator)#替换FS的内容

(三)RS:记录分隔符(record separator) #设置换行符,使某个字符后面的内容换到下一行

(四)ORS:输出的记录分隔符(output record separator)#将换行符替换成ORS的内容

(五)NF:字段数量(number of field)

这里 (NF-1)可以取到倒数第唯带二个域的值

(六)NR:记录编号(number of record)#行号

(七)FNR:按文件计算“记录编号”(file (1)FNR 表示当前行在不同输入流中处于第几行 #用同一个AWk处理多个文件时,正确显示改行指明芦在文件中的行号

(八)FILENAME:文件名

(九)ARGC:参数个数(arguments account)

(十)ARGV:参数列表数组(arguments variable)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8224276.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-14
下一篇 2023-04-14

发表评论

登录后才能评论

评论列表(0条)

保存