Linux入门系列——awk命令详解

Linux入门系列——awk命令详解,第1张

awk是一个强大的文本分析工具,与grep、sed相比,awk在对数据分析并生成报告时,显得有很大的优势。

awk有三个不同的版本:awk、nawk和gawk,在没有做特殊说时的时候默认的就是gawk,gawk是awk的GNU版本。

其中command是真正的awk命令,-F表示域的分隔符,是个可选项。Filename是等待处理的文件

将所有的awk命令写入到一个文件,并使用该文件有X权限,然后awk命令解释器作为脚本的首行,也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk

最后直接执行这个脚本文件就行了。

-f 指定要加载的awk脚本,是一个文件。Filename是等待处理的文件

awk的工作流程是这样的:读入一行后(最后面带有” ”的),就按-F指定的分隔符来将该行划分成N个区域, 总结:awk先执行BEGIN内的命令,然后再读入文件中的行,接着就是按照指定的分隔符将该行分成N个区域,然后再来执行模式所对应的动作action。然后,再来读入第二行。。再重复执行action,直到所有的行都处理完成。最后再执行END中的命令。 表示所有的区域,表示第一个域,表示第二个域,依此类推,$n表示第n个域。

//

注意:' delete array[index] '之间是支持正则表达式的,如果此处只有pattern,而没有action,那么awk默认会把匹配到的行打印出来。

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些,如下:

还可以使用-v key=value来自定义变量。如下:

awk中的条件语句是从C中借鉴过来的

语法:if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小,不包括子目录的,并过滤掉目录。

循环语句也和C中的一样,支持while、do/while、for、continue、break等关键字。

break和continue常用于循环中;

在awk中,数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息,用于计算总和、统计单词等。

在awk中要删除一个元素的时候使用

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

awk格式化:前面接触到的awk的输出功能,是{print}的功能,只能对文本简单的输出,并不能美化或修改格式

printf格式化输出:对文本格式化输出

printf和print的区别:format的使用

要点

1、其与print命令的最大不同是,printf需要指定format

2、format用于指定后面的每个item的输出格式

3、printf语句不会自动打印换行符;\nprint默认添加空格换行符

format格式的指示符都以%开头,后跟一个字符

%c 显示字符的ASCII码

%d, %i 十进制整数

%e, %E 科学计数法显示数值

%f 显示浮点数

%g, %G 以科学计数法的格式或浮点数的格式显示数值

%s 显示字符串

%u 无符号整数

%% 显示%自身

printf修饰符

- 左对齐;默认右对齐

+ 显示数值符号;printf "%+d"

给printf添加格式

格式化字符串%s代表字符串的意思

awk '{printf "%s\n",$1}' file

对对个变量进行格式化

当我们使用Linux命令printf时,一个%s格式替换符,可以对多个参数进行重复格式化

printf "%s\n" a b c d

然而awk的格式替换符想要修改多个变量,必须传入多个

awk 'BEGIN{printf "%d\n%d\n%d\n%d\n%d\n",1,2,3,4,5}'

注意awk不跟上文件数据,必须添加BEGIN, %d代表的是十进制数字

awk通过空格切割文档,printf动作对数据格式化输出

awk '{printf "第一列:%s第二列:%s第三列:%s\n", 2,$3}' file

对pwd.txt进行格式化输出

awk -F ":" 'BEGIN{printf

"%-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %-25s\n",

"用户名","密码","UID","GID","用户注释","用户家目录","用户使用的解释器"}

{printf "%-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %s\n",

2, 4, 6,$7}'

pwd.txt

参数解释

'BEGIN{printf "格式替换符 格式替换符2","变量1","变量2"}' 执行BEGIN模式

"%-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %-25s\t %-25s\n" 先打印第一行信息

%s是格式替换符 ,替换字符串

%s\t 格式化字符串后,添加制表符,四个空格

%-25s 已然是格式化字符串, - 代表左对齐 ,25个字符长度

printf对输出的文本不会换行,必须添加对于的格式替换符和\n

使用printf动作,'{printf "%s\n",$1}',替换的格式和变量之间得有逗号

使用printf动作,%s %d 等格式化替换符,必须和被格式化的数据一一对应

用shell命令删除目录下文件,但是排除某些特殊文件,第一时间无脑从谷歌获取。

丢到脚本执行发现,并没有删除,原来rm后面命令返回结果有问题,必须事当前目录才行,脚本脱离当前目录就懵逼。那想办法改吧。

既然【 ls *.txt | grep -v test.txt 】返回的的是文件名称,那拼上目录就完事了。

使用awk拼接目录和文件:

由于【ls -l 】返回的第一行【total 272】需过滤:

过滤第一行统计信息:

awk内置了一些变量可以拼接,还有常量也可以拼接,此处不表,重点提及awk作用域外的变量引用,有一下三种方式:

格式如:awk ‘{action}’ 变量名=变量值 ,这样传入变量,可以在action中获得值。 注意:变量名与值放到’{action}’后面。

这种变量在:BEGIN的action不能获得。

格式如:awk –v 变量名=变量值 [–v 变量2=值2 …] 'BEGIN{action}’ 注意:用-v 传入变量可以在3中类型的action 中都可以获得到,但顺序在 action前面。

只需要调用:awk内置变量 ENVIRON,就可以直接获得环境变量。它是一个字典数组。环境变量名 就是它的键值。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7256985.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-03
下一篇 2023-04-03

发表评论

登录后才能评论

评论列表(0条)

保存