Linux入门系列——awk命令详解_系统运维

awk是一个强大的文本分析工具，与grep、sed相比，awk在对数据分析并生成报告时，显得有很大的优势。

awk有三个不同的版本：awk、nawk和gawk，在没有做特殊说时的时候默认的就是gawk，gawk是awk的GNU版本。

其中command是真正的awk命令，-F表示域的分隔符，是个可选项。Filename是等待处理的文件

将所有的awk命令写入到一个文件，并使用该文件有X权限，然后awk命令解释器作为脚本的首行，也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk

最后直接执行这个脚本文件就行了。

-f 指定要加载的awk脚本，是一个文件。Filename是等待处理的文件

awk的工作流程是这样的：读入一行后(最后面带有” ”的)，就按-F指定的分隔符来将该行划分成N个区域，总结：awk先执行BEGIN内的命令，然后再读入文件中的行，接着就是按照指定的分隔符将该行分成N个区域，然后再来执行模式所对应的动作action。然后，再来读入第二行。。再重复执行action，直到所有的行都处理完成。最后再执行END中的命令。表示所有的区域，表示第一个域，表示第二个域，依此类推，$n表示第n个域。

注意：' delete array[index] '之间是支持正则表达式的，如果此处只有pattern,而没有action，那么awk默认会把匹配到的行打印出来。

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些，如下：

还可以使用-v key=value来自定义变量。如下：

awk中的条件语句是从C中借鉴过来的

语法：if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小，不包括子目录的，并过滤掉目录。

循环语句也和C中的一样，支持while、do/while、for、continue、break等关键字。

break和continue常用于循环中；

在awk中，数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息，用于计算总和、统计单词等。

在awk中要删除一个元素的时候使用 一、awk if分支结构

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

二、awk数组 for循环

一、awk if分支结构

案例1

二、awk数组

awk过滤中的if分支结构

1）单分支

统计/etc/passwd文件中UID小于或等于1000的用户个数：

统计/etc/passwd文件中UID大于1000的用户个数：

统计/etc/passwd文件中登录Shell是“/bin/bash”的用户个数：

2）双分支

分别统计/etc/passwd文件中UID小于或等于1000、UID大于1000的用户个数：

分别统计/etc/passwd文件中登录Shell是“/bin/bash”、登录Shell不是“/bin/bash”的用户个数：

案例3：awk扩展应用

注意，awk数组的下标除了可以使用数字，也可以使用字符串，字符串需要使用双引号：

案例4：编写监控脚本

1）awk统计Web访问排名

在分析Web日志文件时，每条访问记录的第一列就是客户机的IP地址，其中会有很多重复的IP地址。因此只用awk提取出这一列是不够的，还需要统计重复记录的数量并且进行排序。

通过awk提取信息时，利用IP地址作为数组下标，每遇到一个重复值就将此数组元素递增1，最终就获得了这个IP地址出现的次数。

针对文本排序输出可以采用sort命令，相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列，而-r表示反序，-k可以指定按第几个字段来排序

实现此案例需要按照如下步骤进行。

步骤一：统计Web访问量排名

分步测试、验证效果如下所述。

1）提取IP地址及访问量

2）对第1）步的结果根据访问量排名

本案例要求编写脚本，实现计算机各个性能数据监控的功能，具体监控项目要求如下：

CPU负载

网卡流量

内存剩余容量

磁盘剩余容量

计算机账户数量

当前登录账户数量

计算机当前开启的进程数量

本机已安装的软件包数量

步骤

实现此案例需要按照如下步骤进行。

步骤一：准备工作

1）查看性能数据的命令

步骤二：编写参考脚本

1）脚本内容如下：

#问题在于对于数组file_list的引用错误，修改如下：

#!/bin/sh

#Get the file list name and the directory to search

listname=$1

pathname=$2

#read the content of the list line to line and put them into an array

k=0

while read LINE

file_list[$k]=$LINE

k=$k+1

done < $listname

cd $pathname

i=0

j=0

for LINE in "${file_list[@]}" #问题在于这里对数组的引用

FILE=`find . -name $LINE -print -quit`

if [ -n "$FILE" ]

then

a[$i]=$FILE

i=$i+1

else

b[$j]=$LINE

j=$j+1

done

echo "found files:"

for i in "${a[@]}" do

echo $i

done

echo "missing files:"

for j in "${b[@]}" do

echo $j

done

另外补充一点：

数组下标：最好不要使用k=$k+1表达，应该使用((k+1))或者 k=`expr $k + 1`。因为，如果列表文件太多，会引起数组越界，超过系统允许数组下标的最大长度。

希望能够帮助到你，你的好评是我前进的动力，谢谢！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/6252839.html

Linux入门系列——awk命令详解

发表评论

评论列表（0条）