首先先让我们从大的picture来回顾一下,基因组组装的相关知识。
目的:
组装成功的决定因素:
一般来说生物体的基因组越简单越好组装,像细菌真菌都比较好组装。那么影响组装的硬问题有哪些呢?
多态性
重复序列
具体例子如下图:
假如reads S和T 在橙色的片段都具有一长串A的碱基,那么组装工具将会很难识别,纠结这两个片段是拥有两个相同copy的重复序列,还是卖烂孝他们本来就是overlap的可以连接起来。这样会造成组装的错误。
这里也顺带简单介绍一下常见的重复序列:
一般长度为500bp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。
一般长度为1Kbp左右,人类的基因组大概还有1.5Mbp的这种短的重复片段。
可以长至40Kbp或者更多
测序的质量
水平的专业性
需要知道如何安装组装的工具,了解组装工具的工具原理,并且调试组装的相关参数让你组装结果得到最优化,还有选择合适的组装工具,都需要一定的专业水平。
重叠序列相连
简单来说这种算法就是将所有的reads拿出来历拍,相互比对,找到重叠的reads,然后构建长的连续的contigs,最后再将contigs组在一起形成scaffolds。这个过程可以基于下图来进行总结:
De Bruijn 图 或者 k-mer 方法
主要的步骤包括:
大概的过程如下图:
我该选用哪个组装的工具?
目前已经开发了很多不同的组中稿装工具,根据你的物种或者测序技术,可以相应的选择不同的工具,一般来说我们可以这样选择:
上面只是简单通用的推荐,当然如果你是专家,你可能还会使用一些更加个性化的工具方法。
这期介绍就到这里了,希望大家有所收获,组装并没有我们想像中那么难,后面会继续给大家带来组装的实战还有评估等等的教程,敬请大家关注点赞。
参考资料:
1. https://isugenomics.github.io/bioinformatics-workbook/dataAnalysis/GenomeAssembly/Intro_GenomeAssembly.html
2. https://environmentalmicrobiome.biomedcentral.com/articles/10.1186/1944-3277-10-18
全基因组测序是指对全部基因组完整测序 是决定一套完整染色体基因组上核苷酸碱基准确顺序组成的过程 基因组测序是一项庞大的工程 其中三个必需关键技术是DNA大片段的克隆 测序的自动化和用生物信息学处理数据 当一个基因组完成测序之后 应该对其进行注释 全基因组测序主要应用于癌症通常采用Fleischman等人在测定流感嗜血杆菌基因组中建立的 鸟q渣巧手随机测序法 而后再将测序结果进行整合
1.建立随机DNA文库如嫌
通过喷雾器进行机械剪切或使用超声波处理纯度高 完整性好的基因组DNA 制备随机片段 然后将随机片段插入到适宜的测序载体中 随机DNA文库建立后 对文库的随机质量和容量进行鉴定
2.高通量测序
最大限度地从文库中随机挑取克隆制备测序模板 并使用多台自动化测序仪进行高通量测序
3.随机片段的组装
将测序结果输入计算机 使用软件根据重叠序列将随机片段组装起来以还原整个基因组序列
4.缺口的补平
由于使用的是随机片段 因此在组装过程中可能出现物理缺口 对于这种情况 可以根据缺口两边的序列设计引物 以完整的DNA为模板进行PCR扩增 得到缺失部分宽没的序列
基因组组装(Genome assembly)是生物信息学领域的核心问题,基因组组装就是把序列测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。基因组组装软件可根据得到的所有读长组装成基因组。基因组组装这个步骤对于基因组分析是十分关键的,因为目前二代测序技术获得的测序序列一般都较短,需要组装拼接成较长的完整的序列用于进一步分析,例如长序列能提高物种注释分析的准确性。
宏观来说,基因组组装可以分为从头组装(De novo assembly) 和映射比对组装(mapping assembly), 从头组装是指不需要依靠任何已知的基因组信息,反过来,映射比对组装就是需要把测序序列和参考基因组来比对,找到序列的对应位置再进行组装,本文主要讲解的从头组装。 当然两种都有各个的用处,映射比对组装也有一些算法例如BWT算法。
由于目前组装技术的限制和实际情况的复杂性,最终组装得到的序列与真实基因组序列之间仍可能存在差异,甚至只能得到若干条无法进一步连接起来的序列。对组装效果的评价主要依由于据组装序列的连续性、完整性和准确性。连续性要求组装得到的(多条)序列长度尽可能长;完整性要求组装序列的总长度占基因组序列长度的比例尽可能大;准确性要求组装序列与真实序列尽可能符合。
目前基因组组装一般有基于OLC(Overlap-Layout-Consensus, 先重叠后扩展)和基于De Brujin Graph(DBG)两种组装算法,基于OLC的组装方法适合长序列组装,运行依赖的数据结构需要消耗大量的内存,且运行速度比较慢,错误率高,而DBG组装方法内存消耗相对较低,运算速度快,且准确率高。目前主流的基因组装算法都是基于后者改进设计的。
基本概念
在开始之前,有几个名词需要说明下:
reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。
contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是contig
scaffold:这是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)