nucmer 的应用场景为:比较两个 genome assemblies,或者将一个 assembly 或测序 reads 比对到另一个基因组,或者比较可能存在大量重排和重复的两个相关物种的基因组。
常用命令:
其中,<reference>为包含 multi-FastA 的序列文件,即要与之比对的参考基因组;<query>为与参考基因组相同格式的文件,即要与参考基因组比对的基因组文件。
输出文件为:
即 reference 和 query 之间的比对结果,可以进一步使用 show-* 程序进行处理。
该过程中可选的参数有:
使用 -mum 或 -mumreference 选项帮助减少 repeat induced alignments 的数量;
降低 --mincluster 和 --minmatch 的值会提高比对的 sensitivity,但会减少获得更少的可靠比对结果;
在多个较大分化基因组之间进行比对时,显著提高 --maxgap 的值是必要的(比如增加至 1000);
设置 --noextend 可以防止 cluster 外延来加快进程,而 --nodelta 更进一步,甚至不对齐 cluster 中匹配的序列;该参数可以加快进程,但会减少输出中包含的信息量;
在不指定 -r 或 -f 的情况下,nucmer 会将查询序列的 forward 和 reverse strands 与参考序列的 forward 进行匹配,输出坐标总是与参考序列的 forward strand 进行匹配。
如果想要进一步了解该软件的使用,可以进一步阅读我写的其它分享;
序列比对软件 MUMmer 结果文件解读(三)
序列比对软件 MUMmer 结果可读化处理(四)
要是觉得有用可以登录一下账号,点个赞,以表支持!
该系列主要介绍了 MUMmer 软件下核苷酸序列比对程序 nucmer 的使用,计算 *** 作见前两篇推文;
序列比对软件 MUMmer 快速上手(一)
序列比对软件 MUMmer 高级使用(二)
这一块主要解释一下比对的结果文件 <prefix>.delta 如何解读;
delta file 表示 NUCmer pipeline 下所有 alignment 的编码表示,该软件还设计了一系列程序,通过以 <prefix>.delta 文件作为输入,从而输出一些可读的结果。
delta file 主要包含每个 alignment 的坐标,并强调这些 alignments 中包含的 insertions 或 deletions 之间的距离;
以下图为示例,简单解释一下每一行的内容:
第一行:展示了 query 和 reference 基因组文件的位置,这里我隐去了;
第二行:指定了 alignment 数据类型,即 "NUCMER" 或 "PROMER";
第三行:4 个词分别代表 ref 的 fastaID,qry 的 fastaID,ref 序列长度,qry 序列长度;
第四行:第一组 alignment 结果,指定两个对齐序列,后续每一组对齐都有这么一个 header,并描述对齐的坐标和一些错误信息;如果起始坐标大于结束坐标,则表明对齐是在反链上;前 4 个值分别表示 reference 中的起点和终点,以及 query 中的起点和终点;后 3 个值分别表示错误数(non-identities + indels),相似错误(non-positive match scores),终止密码子(NUCMER为0);
第五行始:每一个数字表示一个插入或确实,正值 query 相较于 reference 存在缺失,负值表示插入,0 表示该组 alignment 结束;数字坐标叠加表示,比如:上图中 query 第一个缺失的位置为 32,第二个缺失的位置为 32+27,第三个缺失的位置为 32+27+1,以此类推;
但是,在实际应用在,该结果需要进一步处理才能生成更加可读的结果,下一篇就介绍一下 delta-filter、mapview、mummerplot、show-aligns、show-coords、show-snps 等 *** 作。
序列比对软件 MUMmer 结果可读化处理(四)
要是觉得有用可以登录一下账号,点个赞,以表支持!
MUMmer(Maximal Unique Match mer)软件中使用率最高的命令nucmer能用于对两个基因组assemblies进行比较。现在最新版本的 MUMmer4 相比于 MUMmer3 ,能用于更大的基因组序列比较,运行速度更快。
先安装高版本autoconf、automake和yaggo
再安装MUMmer4
若需要使用MUMmer调用gunplot绘图,则需要安装高版本的gunplot
mummer命令是MUMmer软件的核心程序。其它程序,如nucmer就是perl编写的调用此核心程序进行数据分析的脚本。由于该程序是核心程序,MUMmer软件给出了该命令的详细说明文档。
mummer命令用于计算query assembly和reference assembly中>=20bp的匹配序列(maximal matches),该段maximal matches序列在query和reference基因组序列中完全一致,且延长到最长。
mumer命令的使用:
mummer命令的结果解读:
nucmer命令用于对nucleotide序列进行比对。相比于mummer命令,nucmer命令能将相邻的maximal matches连起来作为cluster,然后对cluster两端进行延伸,形成大的匹配区域;并且计算SNP数量和INDEL间的距离。
nucmer命令是MUMmer软件使用最多的命令,常用于相似性很高的核酸序列比较,特别是通一
个物种间的基因组序列比较,或不同De novo组装软件得到的assemblies之间的比较。
nucmer命令的使用:
nucmer程序输出文件为out.delta。该文件示例内容:
out.delta文件格式解析:
参考:
http://www.chenlianfu.com/?p=2559
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)