Linux之awk详解_系统运维

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在对数据分析并生成报告时，显得尤为强大。

简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。

awk有三个不同的版本：awk、nawk和gawk，未作特别说明，一般指gawk，gawk是awk的GNU版本。

之所以叫awk是因为其取了三位创始人Alfred Aho,Peter Weinberger,和Brian Kernighan的Family Name的首字符。

awk格式：

格式: sed -n '3p' sed.txt

找谁干啥(条件动作)

awk格式

#取出/etc/passwd 第1行的第1列和第3列

awk -F: 'NR==1{print $1.$3}' /etc/passwd

awk 选项 '条件{动作}' /etc/passwd

条件: 哪一行,过滤什么内容

动作: print输出与显示 ,计算....

awk取行：与sed类似

案例01：取出sed.txt的第2行

[root@oldboy81-golden-lnb /oldboy]# cat sed.txt

101.oldgirl,CEO

102.zhangya,CTO

103.lidao007.COO

104.yy,CFO

105.feixue,CIO

110.lidao,COCO

[root@oldboy81-golden-lnb /oldboy]# awk 'NR==2' sed.txt

102.zhangya,CTO

#awk '行号等于 2' sed.txt

#NR awk内置变量

Number of Record 记录号(行号)

案例02：取出sed.txt中包含oldboy或lidao的行

[root@oldboy81-golden-lnb /oldboy]# sed -rn '/oldboy|lidao/p' sed.txt

103.lidao007.COO

110.lidao,COCO

[root@oldboy81-golden-lnb /oldboy]# awk '/oldboy|lidao/' sed.txt

103.lidao007.COO

110.lidao,COCO

案例03：取出文件第2行到第5行内容

#awk '行号大于等于2 并且行号小于等于5' sed.txt

#方法01

awk 'NR>=2 &&NR<=5' sed.txt #必会

&&表示并且.

#方法02

sed -n '2.5p' sed.txt

#方法03 了解

awk 'NR==2.NR==5' sed.txt #从行号是2的行开始到行号是5的行结束( 了解)

案例04：取出文件第3行到最后一行内容

[root@oldboy81-golden-lnb /oldboy]# awk 'NR >= 3' sed.txt

103.lidao007.COO

104.yy,CFO

105.feixue,CIO

110.lidao,COCO

[root@oldboy81-golden-lnb /oldboy]# sed -n '3.$p' sed.txt

103.lidao007.COO

104.yy,CFO

105.feixue,CIO

110.lidao,COCO

案例05：取出从包含oldboy的行到lidao的行

[root@oldboy81-golden-lnb /oldboy]# cat sed.txt

101.oldgirl,CEO

102.zhangya,CTO

103.lidao007.COO

104.yy,CFO

105.feixue,CIO

110.lidao,COCO

root@oldboy81-golden-lnb /oldboy]# sed -n '/old/,/lidao/p' sed.txt

101.oldgirl,CEO

102.zhangya,CTO

103.lidao007.COO

[root@oldboy81-golden-lnb /oldboy]# awk '/old/ , /lidao/' sed.txt

101.oldgirl,CEO

102.zhangya,CTO

103.lidao007.COO

awk是一个强大的文本分析工具，与grep、sed相比，awk在对数据分析并生成报告时，显得有很大的优势。

awk有三个不同的版本：awk、nawk和gawk，在没有做特殊说时的时候默认的就是gawk，gawk是awk的GNU版本。

其中command是真正的awk命令，-F表示域的分隔符，是个可选项。Filename是等待处理的文件

将所有的awk命令写入到一个文件，并使用该文件有X权限，然后awk命令解释器作为脚本的首行，也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk

最后直接执行这个脚本文件就行了。

-f 指定要加载的awk脚本，是一个文件。Filename是等待处理的文件

awk的工作流程是这样的：读入一行后(最后面带有” ”的)，就按-F指定的分隔符来将该行划分成N个区域，总结：awk先执行BEGIN内的命令，然后再读入文件中的行，接着就是按照指定的分隔符将该行分成N个区域，然后再来执行模式所对应的动作action。然后，再来读入第二行。。再重复执行action，直到所有的行都处理完成。最后再执行END中的命令。表示所有的区域，表示第一个域，表示第二个域，依此类推，$n表示第n个域。

注意：' delete array[index] '之间是支持正则表达式的，如果此处只有pattern,而没有action，那么awk默认会把匹配到的行打印出来。

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些，如下：

还可以使用-v key=value来自定义变量。如下：

awk中的条件语句是从C中借鉴过来的

语法：if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小，不包括子目录的，并过滤掉目录。

循环语句也和C中的一样，支持while、do/while、for、continue、break等关键字。

break和continue常用于循环中；

在awk中，数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息，用于计算总和、统计单词等。

在awk中要删除一个元素的时候使用

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/8921973.html

Linux之awk详解

发表评论

评论列表（0条）