Linux4-文本处理三驾马车:grep, sed, awk

Linux4-文本处理三驾马车:grep, sed, awk,第1张

Linux基础课程系列:

grep:一种强大的文本搜索工具,它能使用正则表达式匹配模式搜索文本,并把匹配的行打印出来

格式: grep [options] pattern file ([]内的部分可以省略)

sed:流编辑器,一般用来对文本进行 增删改查 (sed是以 为单位来处理的)。

用法: sed [-options] 'script' file(s)

[!] 表示否定,取反(相当于grep -v)

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其 对数据分析并生成报告 时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。gawk 是 AWK 的 GNU 版本。

用法: awk [options] '' file 。

基础结构: ' '

匹配结构: ' /pattern/ '

扩展结构: 'BEGIN END'

awk 在读取一行文本时,会用预定义的字段分隔符划分每个数据字段,并分配给一个变量。

$0 代表整个文本行;

$1 代表文本行中的第1个数据字段;

……

$NF 代表文本行中的最后一个数据字段

awk 默认的字段分隔符是任意空白字符(如:空格or 制表符),也可以用-F 参数自定义分隔符

Linux对文本 *** 作命令及正则表达式:

cat

cat 是 concatenate 的缩写,所以它的作用其实是连接文件。但默认情况下它会将连接文件的结果送到标准输出。所以我们常用来显示文件内容。类似于 dos 中的 type。

more

当一个文件的内容超过一屏后,我们可以用 more 这个指令来逐屏 察看 文件内容。

less

less 在 more 的基础上,更可以逐行 察看 ,前后翻页。

head

head 显示文件开头部分内容,默认显示前十行参数 --lines 或者 –n 指明显示行数基本格式:

tail

tail 显示文件结尾部分内容,命令用法同 head,参数 -f 显示文件的纪实更新,用于监视日志文件

tail 默认显示文件列表中每个文件的后 10 行,如果没有文件名或文件名为“-”则其从标准输入中读取文件,如果有多个文件则其会在文件前面加上“==>文件名<==”以便区别。

# tail /etc/mail/sendmail.mc 默认查看文件的后 10 行内容

# tail –n 20 /etc/passwd 查看文件后 20 行内容

注意: # tail –f /var/log/message 实时监控日志文件更新信息,非常重要

diff

diff 用于比较两个文件之间的区别,并送到标准输出。输出时先报告两个文件的哪一行不同。基本格式:

参数:

uniq 用于去除文本中相邻的重复行。

-u 参数可以只显示那些没有被重复过的行。 -d 显示有被重复过的行。

cut

cut 可以根据一个指定的标记(默认是 tab)来为文本划分列,然后将此列显示。使用权限:所有使用者

基本格式: cut -cnum1 -num2 filename

说明:显示每行从开头算起 num1 到 num2 的文字。

[root@uplooking root] $ cut –f1 –d: /etc/shadow 表示以 : 为分隔符,显示 /etc/shadow 的第一列 sort

sort 用来按各种需要重新排列文本,一般运用在一个管道之后。例如:

默认情况下 sort 按照字母顺序排列文本。

wc

wc 用来统计一个文件的行数、词数、字数并送到标准输出。也可以用-l(行数)、-w(词数)、-c(字数)来指定输出内容。

(自己)常用的文本文件的行处理命令

示例文件:test.vcf

1、head -n 10 test.vcf

head : 默认是提取文件的前10行,-n 参数可以设定选择文件的前n行

2、tial -n 10 test.vcf

tail : 默认是提取文件的末尾10行, -n 参数可以设定选择文件末尾的n行

3、sed -n '10,20p' test.vcf

sed -n : 随意选择需要查看的行

sed命令是一个面向行处理的编辑器,可以和正则表达式配合使用,附上较全面的sed命令使用教程。

https://man.linuxde.net/sed

4、awk 截取行的指定长度字符串

less test.gz |awk '{if(NR%2==1){print}else{print substr($1,1,75)}}' | gzip -c >test.part.gz

说明:对test.gz文件指定行截取75bp,原来是150bp

5、对n行的第三列求和,求平均值

grep -v ‘#’ test.vcf |sed -n '20,35p' |awk -F '\t' '{sum+=$3n++}END{print sum,sum/n}'

(linux 一行命令计算速度比Python快,简单计算喜欢用linux命令)

记得随时整理使用过的命令,没学过linux,靠着各种帖子,随时需要随时补给,有点懒。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/yw/6122662.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-15
下一篇 2023-03-15

发表评论

登录后才能评论

评论列表(0条)

{script} {script}
保存
{script} {script} {script} {script}