生物背景入门生物信息学,需要补哪些计算机知识?

生物背景入门生物信息学,需要补哪些计算机知识?,第1张

‍‍

学会Linux的基础 *** 作,譬如常见的ls,grep,less,ark等即可。当然最开始接触Linux的时候会各种不习惯,比较好的学习手段是把自己的笔记本装成Linux,大多数人喜欢mate界面的fedora。然后在Linux里听歌看,如果写文档就用虚拟机或者bps。这么用个1-2个月就比较舒服了。学一门编程语言,会简单的文本处理。现在知乎上首推python,据说语法清晰入门简单。认认真真看个1个月加练习,基本上普通的文本处理就没什么问题了。本条目可以和第一条一起用,在Linux下用python有加乘效果。如果想稍微进阶一下,需要学习和了解常见的数据结构,譬如什么是二叉树,什么是哈希表,什么是链表,哈希碰撞是怎么产生的,链表相对数组有哪些性能优劣等等。这些基础数据结构大概花费几天即可掌握,不需要深入。如果在处理文本时能使用恰当的数据结构,则会事半功倍。那么如果能花1-2个月把上述问题都搞明白了,顺便做个简单的项目,譬如写个fastOz的过滤脚本,那么后面的进度就很简单了。目前主流二代测序的数据分析本质来说也就是用些开源软件倒腾下然后网上找公开数据库折腾。并没有多高的技术壁垒。反而是对生物学意义的理解更为重要。最后,编写代码方面,需要一些技能是光上一点基础课学不来的,必须在战争中学习战争。比如说会写了python或者C,java,但是还是需要一些高级技术以及技术细节。之前在做测序数据分析的时候要求写成并行的程序,这样服务器跑起来快,免得结果等好几天。如此种种还有很多,解决程序运行中出现的形形色色的幺蛾子需要扎实的经验积累。

‍‍

Fastqc
Fastqc website ( >摘要: Manta软件可以从比对文件中检测SVs和indels。它主要开发用于检测单个样品的germline变异和tumor/normal配对样品的somatic变异。它可以在一套流程中高效的发现、组装、打分大范围的SVs,中型indels和大型insertions。该软件主要用于标准计算硬件上进行快速的分析:NA12878细胞系50x覆盖基因组可以在20核服务器上20分钟分析完毕,大多数WGS tumor/normal配对样品可以在2个小时内分析完毕。在SV的检测和打分过程中,Manta结合paired-read和split-read来提高准确性,但是在有其他有力证据的情况下,不需要利用split-read或者断点组装来报告融合。Manta通过连续组装的方法可以使分辨率达到碱基级别,更有利于下游的注释和临床意义分析。Manta软件接受输入BAM或CRAM格式文件,并以VCF41的格式报告所有的SV和indels突变。

引言: 目前许多前进的结构变异检测方法都集中在科学研究和群体基因组上。然而,目前还没有一个流程专注于快速检测单个或者成组样本的多种类型变异。Manta软件主要专注于临床领域,可以根据输入的比对文件和基因组文件,迅速对变异进行发现、组装、打分。它可以对二倍体的germline类型变异,tumor/normal配对的somatic变异进行检测,而RNA-Seq分析,de novo变异分析,不配对的tumor样品变异分析应用还在开发中。在与其他代表型的工具的比较中,Manta软件可以在显著降低计算成本的情况下,高质量的检测变异。

方法:

流程汇总 : Manta流程设计用于高并行的检测单个或成组的样品。它运行包括两个阶段:1、首先建立基因组内所有断裂关联图表,2、对图表中的组成部分进行处理,包括备选假设变异的生成、组装、打分以及VCF文件的报出。断点关联图表包括了任意基因组区域内远距离相关的边界,和indel组装区域的自边界。由于这个图表不含具体的假设变异,所以它非常的紧凑,可以在基因组范围内进行大片段的重构。在图表重构后,单独的边界(应该是相关的变异)用于后续变异的分析。每个边界都被分析,用于寻找不精确的假设变异,每个变异reads都会被组装并重新比对到基因组上。每个变异都会尝试进行组装,但是组装不是报告一个变异的必须步骤。在先前的germline和somatic变异模型下,所有paired-read和split-read的证据会被整合成一个质量分数,相应的过滤指标也会补充这个质量分数,以提高变异变异检测的精度。为了便于应用,Manta会自动评估插入片段的大小分布排除基因组中高重复区域。

变异检测评估: 在CEPH 谱系 1463上评估了变异软件的germline检出能力。为了获得一致的变异检出结果并提供软件之间的recall比较,选择了公认标准的软件进行变异检测并比较。选择Pindel用于检测indels,选择Delly用于检测SVs。每种检测软件检出的变异与Manta检测出的变异会建立pedigree变异一致数据集,用于软件的精度的比较,选择的数据集是NA12878细胞系。Delly软件也被当做是检测somtaitc变异的基准软件,比较了它与Manta在乳腺癌细胞系HCC1954上的检出能力。

                           Recall =   召回率,评估的是灵敏度

                           Precision =   精确率,评估的是特异性
结果: 表1 结果 从NA12878细胞系的SVs(大片段的缺失和重复)检测结果来看,Manta具有较高的召回率。从NA12878细胞系的Indels检测结果来看,相对于500bp一下的小的插入缺失,大的插入缺失Manta软件的召回率优势更为明显。从HCC1954观测到Manta软件在所有变异类型中都具有强大的性能,并且所有类型中组装到basepair分辨率的比例都很高。

表2结果:通过运行时间或者内存度量,Manta软件在提供更多种类变异类型检测时,具有更低的计算消耗和计算时间。
Manta软件详细的变异检测算法原理稍后补充

参考文献:

Xiaoyu C , Ole S T , Richard S , et al Manta: rapid detection of structural variants and indels for germline and cancer sequencing applications[J] Bioinformatics, 2016(8):1220-1222


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/13448131.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-08-08
下一篇 2023-08-08

发表评论

登录后才能评论

评论列表(0条)

保存