Linux入门系列——awk命令详解

Linux入门系列——awk命令详解,第1张

awk是一个强大的文本分析工具,与grep、sed相比,awk在对数据分析并生成报告时,显得有很大的优势。

awk有三个不同的版本:awk、nawk和gawk,在没有做特殊说时的时候默认的就是gawk,gawk是awk的GNU版本。

其中command是真正的awk命令,-F表示域的分隔符,是个可选项。Filename是等待处理的文件

将所有的awk命令写入到一个文件,并使用该文件有X权限,然后awk命令解释器作为脚本的首行,也就是说可以把脚本最开始的 #!/bin/bash 换成 #!/bin/awk

最后直接执行这个脚本文件就行了。

-f 指定要加载的awk脚本,是一个文件。Filename是等待处理的文件

awk的工作流程是这样的:读入一行后(最后面带有” ”的),就按-F指定的分隔符来将该行划分成N个区域, 总结:awk先执行BEGIN内的命令,然后再读入文件中的行,接着就是按照指定的分隔符将该行分成N个区域,然后再来执行模式所对应的动作action。然后,再来读入第二行。。再重复执行action,直到所有的行都处理完成。最后再执行END中的命令。 表示所有的区域,表示第一个域,表示第二个域,依此类推,$n表示第n个域。

//

注意:' delete array[index] '之间是支持正则表达式的,如果此处只有pattern,而没有action,那么awk默认会把匹配到的行打印出来。

awk中的print还可以使用C语言中的printf来替代。在输出格式比较复杂的时候使用printf函数会比print函数要更直观一些,如下:

还可以使用-v key=value来自定义变量。如下:

awk中的条件语句是从C中借鉴过来的

语法:if (condition) {then-body} else {else-body}

例如使用awk来统计某个目录下的普通文件的大小,不包括子目录的,并过滤掉目录。

循环语句也和C中的一样,支持while、do/while、for、continue、break等关键字。

break和continue常用于循环中;

在awk中,数组的下标可以是数字或字母。一般awk中的数组的作用是从记录中收集信息,用于计算总和、统计单词等。

在awk中要删除一个元素的时候使用 一、awk if分支结构

更多请参见awk官方文档[http://www.gnu.org/software/gawk/manual/gawk.html]

二、awk数组 for循环

一、awk if分支结构

案例1

二、awk数组

awk过滤中的if分支结构

1)单分支

统计/etc/passwd文件中UID小于或等于1000的用户个数:

统计/etc/passwd文件中UID大于1000的用户个数:

统计/etc/passwd文件中登录Shell是“/bin/bash”的用户个数:

2)双分支

分别统计/etc/passwd文件中UID小于或等于1000、UID大于1000的用户个数:

分别统计/etc/passwd文件中登录Shell是“/bin/bash”、 登录Shell不是“/bin/bash”的用户个数:

案例3:awk扩展应用

注意,awk数组的下标除了可以使用数字,也可以使用字符串,字符串需要使用双引号:

案例4:编写监控脚本

1)awk统计Web访问排名

在分析Web日志文件时,每条访问记录的第一列就是客户机的IP地址,其中会有很多重复的IP地址。因此只用awk提取出这一列是不够的,还需要统计重复记录的数量并且进行排序。

通过awk提取信息时,利用IP地址作为数组下标,每遇到一个重复值就将此数组元素递增1,最终就获得了这个IP地址出现的次数。

针对文本排序输出可以采用sort命令,相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列,而-r表示反序,-k可以指定按第几个字段来排序

实现此案例需要按照如下步骤进行。

步骤一:统计Web访问量排名

分步测试、验证效果如下所述。

1)提取IP地址及访问量

2)对第1)步的结果根据访问量排名

本案例要求编写脚本,实现计算机各个性能数据监控的功能,具体监控项目要求如下:

CPU负载

网卡流量

内存剩余容量

磁盘剩余容量

计算机账户数量

当前登录账户数量

计算机当前开启的进程数量

本机已安装的软件包数量

步骤

实现此案例需要按照如下步骤进行。

步骤一:准备工作

1)查看性能数据的命令

步骤二:编写参考脚本

1)脚本内容如下:

#问题在于对于数组file_list的引用错误,修改如下:

#!/bin/sh

#Get the file list name and the directory to search

listname=$1

pathname=$2

#read the content of the list line to line and put them into an array

k=0

while read LINE 

do  

file_list[$k]=$LINE 

k=$k+1

done < $listname

 

cd $pathname

 

i=0

j=0

for LINE in "${file_list[@]}"    #问题在于这里对数组的引用

do 

FILE=`find . -name $LINE -print -quit`

if [ -n "$FILE" ]

then

    a[$i]=$FILE

    i=$i+1

else

   b[$j]=$LINE

    j=$j+1

fi

done

echo "found files:"

for i in "${a[@]}" do

     echo $i

done

echo "missing files:"

for j in "${b[@]}" do

     echo $j

done

另外补充一点:

数组下标:最好不要使用k=$k+1表达,应该使用((k+1))或者 k=`expr $k + 1`。因为,如果列表文件太多,会引起数组越界,超过系统允许数组下标的最大长度。

希望能够帮助到你,你的好评是我前进的动力,谢谢!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/6252839.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-19
下一篇 2023-03-19

发表评论

登录后才能评论

评论列表(0条)

保存