序列比对软件 MUMmer 高级使用(二)

序列比对软件 MUMmer 高级使用(二),第1张

快速上手的话见上一篇,这篇详细介绍一下 MUMmer 4 软件下 nucmer 程序的详细参数。

序列比对软件 MUMmer 快速上手(一)

nucmer 的应用场景为:比较两个 genome assemblies,或者将一个 assembly 或测序 reads 比对到另一个基因组,或者比较可能存在大量重排和重复的两个相关物种的基因组。

常用命令:

其中,<reference>为包含 multi-FastA 的序列文件,即要与之比对的参考基因组;<query>为与参考基因组相同格式的文件,即要与参考基因组比对的基因组文件。

输出文件为:

即 reference 和 query 之间的比对结果,可以进一步使用 show-* 程序进行处理。

该过程中可选的参数有:

使用 -mum 或 -mumreference 选项帮助减少 repeat induced alignments 的数量;

降低 --mincluster 和 --minmatch 的值会提高比对的 sensitivity,但会减少获得更少的可靠比对结果;

在多个较大分化基因组之间进行比对时,显著提高 --maxgap 的值是必要的(比如增加至 1000);

设置 --noextend 可以防止 cluster 外延来加快进程,而 --nodelta 更进一步,甚至不对齐 cluster 中匹配的序列;该参数可以加快进程,但会减少输出中包含的信息量;

在不指定 -r 或 -f 的情况下,nucmer 会将查询序列的 forward 和 reverse strands 与参考序列的 forward 进行匹配,输出坐标总是与参考序列的 forward strand 进行匹配。

如果想要进一步了解该软件的使用,可以进一步阅读我写的其它分享;

序列比对软件 MUMmer 结果文件解读(三)

序列比对软件 MUMmer 结果可读化处理(四)

要是觉得有用可以登录一下账号,点个赞,以表支持!

该系列主要介绍了 MUMmer 软件下核苷酸序列比对程序 nucmer 的使用,计算 *** 作见前两篇推文;

序列比对软件 MUMmer 快速上手(一)

序列比对软件 MUMmer 高级使用(二)

这一块主要解释一下比对的结果文件 <prefix>.delta 如何解读;

delta file 表示 NUCmer pipeline 下所有 alignment 的编码表示,该软件还设计了一系列程序,通过以 <prefix>.delta 文件作为输入,从而输出一些可读的结果。

delta file 主要包含每个 alignment 的坐标,并强调这些 alignments 中包含的 insertions 或 deletions 之间的距离;

以下图为示例,简单解释一下每一行的内容:

第一行:展示了 query 和 reference 基因组文件的位置,这里我隐去了;

第二行:指定了 alignment 数据类型,即 "NUCMER" 或 "PROMER";

第三行:4 个词分别代表 ref 的 fastaID,qry 的 fastaID,ref 序列长度,qry 序列长度;

第四行:第一组 alignment 结果,指定两个对齐序列,后续每一组对齐都有这么一个 header,并描述对齐的坐标和一些错误信息;如果起始坐标大于结束坐标,则表明对齐是在反链上;前 4 个值分别表示 reference 中的起点和终点,以及 query 中的起点和终点;后 3 个值分别表示错误数(non-identities + indels),相似错误(non-positive match scores),终止密码子(NUCMER为0);

第五行始:每一个数字表示一个插入或确实,正值 query 相较于 reference 存在缺失,负值表示插入,0 表示该组 alignment 结束;数字坐标叠加表示,比如:上图中 query 第一个缺失的位置为 32,第二个缺失的位置为 32+27,第三个缺失的位置为 32+27+1,以此类推;

但是,在实际应用在,该结果需要进一步处理才能生成更加可读的结果,下一篇就介绍一下 delta-filter、mapview、mummerplot、show-aligns、show-coords、show-snps 等 *** 作。

序列比对软件 MUMmer 结果可读化处理(四)

要是觉得有用可以登录一下账号,点个赞,以表支持!

MUMmer(Maximal Unique Match mer)软件中使用率最高的命令nucmer能用于对两个基因组assemblies进行比较。现在最新版本的 MUMmer4 相比于 MUMmer3 ,能用于更大的基因组序列比较,运行速度更快。

先安装高版本autoconf、automake和yaggo

再安装MUMmer4

若需要使用MUMmer调用gunplot绘图,则需要安装高版本的gunplot

mummer命令是MUMmer软件的核心程序。其它程序,如nucmer就是perl编写的调用此核心程序进行数据分析的脚本。由于该程序是核心程序,MUMmer软件给出了该命令的详细说明文档。

mummer命令用于计算query assembly和reference assembly中>=20bp的匹配序列(maximal matches),该段maximal matches序列在query和reference基因组序列中完全一致,且延长到最长。

mumer命令的使用:

mummer命令的结果解读:

nucmer命令用于对nucleotide序列进行比对。相比于mummer命令,nucmer命令能将相邻的maximal matches连起来作为cluster,然后对cluster两端进行延伸,形成大的匹配区域;并且计算SNP数量和INDEL间的距离。

nucmer命令是MUMmer软件使用最多的命令,常用于相似性很高的核酸序列比较,特别是通一

个物种间的基因组序列比较,或不同De novo组装软件得到的assemblies之间的比较。

nucmer命令的使用:

nucmer程序输出文件为out.delta。该文件示例内容:

out.delta文件格式解析:

参考:

http://www.chenlianfu.com/?p=2559


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11764734.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-18
下一篇 2023-05-18

发表评论

登录后才能评论

评论列表(0条)

保存