我们都知道fastaq文件都是四行一组,第一行为header,第二行为序列,第三行为一个'+',第四行为质量值。
现在要求将一个fastaq文件中含有序列‘TCTGTACGGTGACAA’的信息提取出来,包括header、序列、+以及质量值,我们可以使用grep命令提取匹配行及符合匹配条件的前后行。
grep 在文件中提取行,cut awk sed 提取列
输出格式
awk '条件一{动作一} 条件2{动作二} ' 文件名
条件 一般使用关系表达式作为条件 x>10
动作 格式化输出,流程控制语句
print 不需要加换行符
df -h 查看系统容量使用情况
grep 截取行
awk 提取
cut 截取
手动指定分隔符,要加入begin
sed 是一种几乎包括在所有unix平台的轻量流编辑器。sed主要是用来将数据进行选取,替换,删除和新增的命令。
动作
删除2,3行
接收管道符
sort [选项] 文件名
sort /etc/passwd
sort -r /etc/passwd
按数值排序
wc [选项] 文件名
需要准备的材料分别是:电脑、linux连接工具。
1、首先连接上linux主机,进入命令行状态。
2、在命令行状态下,用cd命令进到文件目录,用vi命令打开文件。
3、此时会看到有3行记录,以查询同时包含123和fg字符为例。
4、在命令行页面,输入:grep 123 testtxt |grep fg,按回车。
5、此时会打印出同时包含123和fg的行。
在linux中grep命令是非常有用的,它和管道(|)配合使用,非常强大,用于搜索文本文件如果想要在几个文本文件中查找一字符串,可以使用‘grep’命令。‘grep’在文本中搜索指定的字符串。
假设您正在‘/usr/src/linux/Documentation’目录下搜索带字符串‘magic’的文件:
$ grep magic /usr/src/linux/Documentation/
sysrqtxt: How do I enable the magic SysRQ key
sysrqtxt: How do I use the magic SysRQ key
其中文件‘sysrptxt’包含该字符串,讨论的是 SysRQ 的功能。
默认情况下,‘grep’只搜索当前目录。如果此目录下有许多子目录,‘grep’会以如下形式列出:
grep: sound: Is a directory
这可能会使‘grep’的输出难于阅读。这里有两种解决的办法:
明确要求搜索子目录:grep -r
或忽略子目录:grep -d skip
当然,如果预料到有许多输出,您可以通过 管道 将其转到‘less’上阅读:
$ grep magic /usr/src/linux/Documentation/ | less
这样,您就可以更方便地阅读。
有一点要注意,您必需提供一个文件过滤方式(搜索全部文件的话用 )。如果您忘了,‘grep’会一直等着,直到该程序被中断。如果您遇到了这样的情况,按 ,然后再试。
下面是一些有意思的命令行参数:
grep -i pattern files :不区分大小写地搜索。默认情况区分大小写,
grep -l pattern files :只列出匹配的文件名,
grep -L pattern files :列出不匹配的文件名,
grep -w pattern files :只匹配整个单词,而不是字符串的一部分(如匹配‘magic’,而不是‘magical’),
grep -C number pattern files :匹配的上下文分别显示[number]行,
grep pattern1 | pattern2 files :显示匹配 pattern1 或 pattern2 的行,
grep pattern1 files | grep pattern2 :显示既匹配 pattern1 又匹配 pattern2 的行。
这里还有些用于搜索的特殊符号:
\ 分别标注单词的开始与结尾。
例如:
grep man 会匹配 ‘Batman’、‘manic’、‘man’等,
grep '\grep '\' 只匹配‘man’,而不是‘Batman’或‘manic’等其他的字符串。
'^':指匹配的字符串在行首,
'$':指匹配的字符串在行尾,
如果您不习惯命令行参数,可以试试图形界面的‘grep’,如 reXgrep 。这个软件提供 AND、OR、NOT 等语法,还有漂亮的按钮 :-) 。如果您只是需要更清楚的输出,不妨试试 fungrep 。
外置命令,grep 命令,是 global regular expressions print 的缩写。
并不需要列出文件的全部内容,而是从文件中找到包含指定信息的那些行,要实现这个目的,可以使用 grep 命令。
grep 命令作为 Linux 文本处理三剑客的一员。
grep默认只能识别基本的正则表达式,如果需要高级的,需要这样:
grep -E 'AB|BA' filename
可以找到符合要求的,或者使用awk:
awk '/A/&&/B/' filename
以上就是关于grep 提取匹配行及符合匹配条件的前后行全部的内容,包括:grep 提取匹配行及符合匹配条件的前后行、shell字符串截取、linux中怎么用grep提取同时满足两个条件的行等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)