grep不做过多的介绍, 打印出匹配的行, 着重点在于输出结果并不对文本本身做修改。
有个关于grep的小故事, 从sed和grep能追溯到最初的unix行编辑器ed而grep的命名代表 g(全局)/re(正则表达式)/p(打印)正是ed中全局打印行匹配的语法. grep自身的劣势在于无法实现多行匹配, 这时sed和awk相继出现弥补了grep的不足。
在进入sed的相关讨论之前,先就sed跟awk之间进行简单的比较。
可使用指定的脚本文件对相应文本进行编辑。
sed -f 'script filename' or stdin
awk -f 'script filename' or stdin
默认全局匹配并且拥有自身的主输入循环。
除去影响控制流的命令或语句(sed中: t,bawk中continue,break等)默认对文本的每一读取的行依次执行相应的命令或语句。
awk相较于文本编辑工具更像是一门语言,awk条件、循环、判断语句有显性的标识(if,while,for...);而sed只存在单一的判断逻辑(参考b label,t label)。
取出upstream awk_test对应的配置块:
Solution1:
Solution2:
相较之下Solution 2不需要复杂的判断,只需通过寻址来匹配并打印相应的文本;Solution 1更适合于进行多行匹配并替换。另一方面,Solution 1中sed通过创建多行空间模式并输出,而awk通过修改记录分隔符来实现多行匹配的不同。
awk拥有系统变量(FS,RS,OFS,ORS...)、内置函数、数组数据结构、传参(-v var=value)、引用系统命令(通过system() getline() close()函数)等。
awk除去主输入循环还存在BEGIN和END过程,用于某些在处理输入之前或者处理输入完成之后的 *** 作。
sed也有过人之处,如果对sed的工作模式进行深入了解,会发现有一个叫做保持空间(hold space)的东西,下图大体描述了sed的工作模式,并且阐述了模式空间(pattern space)跟保持空间(hold space)之间的联系。模式空间跟保持空间中的内容可进行删除,交换等。
sed的指令集都是单一的字母,并且有option可直接修改文件。而awk可能需要指定内置变量的值,或是通过输出重定向保存为新的文件。
综上所述:
grep适用于单行匹配打印的场景;
sed适用于多行模式的替换的场景;
awk适合更多的逻辑表达式并输出的场景。
但三个命令都需要文本格式统一化的大前提,对于一个文本中的多种格式,可以先将同一种格式的内容整理到文件中,再将其他格式再分别整理到新的文件中。
统一文本格式固然重要,能准确匹配意图的正则表达式也必不可少,这也是大家头疼的部分。如若有机会,我会再跟大家介绍文本匹配中磨人的小妖精——正则表达式。它在不同的命令中、语言中支持不同的标准,更易于与Unix-like系统的file globbing混淆,常常让人咬牙切齿,欲罢不能。
Linux基础课程系列:
grep:一种强大的文本搜索工具,它能使用正则表达式匹配模式搜索文本,并把匹配的行打印出来
格式: grep [options] pattern file ([]内的部分可以省略)
sed:流编辑器,一般用来对文本进行 增删改查 (sed是以 行 为单位来处理的)。
用法: sed [-options] 'script' file(s)
[!] 表示否定,取反(相当于grep -v)
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其 对数据分析并生成报告 时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。gawk 是 AWK 的 GNU 版本。
用法: awk [options] '' file 。
基础结构: ' '
匹配结构: ' /pattern/ '
扩展结构: 'BEGIN END'
awk 在读取一行文本时,会用预定义的字段分隔符划分每个数据字段,并分配给一个变量。
$0 代表整个文本行;
$1 代表文本行中的第1个数据字段;
……
$NF 代表文本行中的最后一个数据字段
awk 默认的字段分隔符是任意空白字符(如:空格or 制表符),也可以用-F 参数自定义分隔符
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)