引言:
PrecisionFDA平台是基因组信息学社区和共享数据平台,这是一个为研究人员准备的开源、基于云的工具,它将为下一代测序诊断提供依据,并且为所有开发者提供统一的、可共享的在线基因组信息数据库,使研究人员和测试开发人员可以探索NGS方法,推动创新以制定必要的标准,推动科学的监管、评估基因测序和软件的准确性。要做到测序的准确性,需要什么算法和相应的硬件平台的支撑呢?
最近,有一个挑战叫做“隐藏的宝藏(Hidden Treasures)”,这一挑战测试了基因组分析管道的能力和准确性,以便从参考细胞系的外显基因序列测序中发现在FASTQ中所注入的硅氧体,FASTQ文件是基于文本的,用于存储使用ASCII编码的生物序列。PrecisionFDA于2017年10月4日在波士顿举行的基因组学节上宣布了这一挑战的结果。有86个来自30个参与者的有效条目,在86个条目中,有45个发现了50个注入的变异。在所有50种被注射的变异中Edico Genome’s DRAGEN V2 的Germline Pipeline在6个准确度指标中的5个中获得了最高的分数,分别是SNP recall,SNP F-score,indel precision,indel recall和indel F-socre。Edico在6个指标上排名第二的条目是SNP precision。
为什么Edico Genome能够取得这么好的成绩呢?我们来简单的回顾一下这中间的历史。起初Edico Genome公司想要将其加速算法移植到ASIC上,设计一个ASIC需要较长的时间,算法也在不断的更新使设计ASIC的方案变得捉襟见肘,公司发现将算法直接移植到Xilinx的FPGA上是一个不错的选择,从性能和时间成本上都能解决这个问题。图.1是第一代的基于Xilinx FPGA的Dragen板卡,基于FPGA的Dragen板卡将外显子运行时间减小到了6分钟,而纯软件的外显子运行时间是6个小时,所以基于FPGA的硬件加速方案得到了50-60倍速度的提升。经过几年的发展,很多的算法都偏向于在云端运行,所以Edico Genome将基因分析和存储的算法移植到了Amazon的AWS EC2 F1 Instance平台上,这个平台还是多亏了有Xilinx UltraScale+ VU9P FPGAs,详情可见“AWS makes Amazon EC2 F1 instance hardware acceleraTIon based on Xilinx Virtex UltraScale+ FPGAs generally available.”有了Amazon的平台,基因算法和基于云端的基因存储得到了2-4倍的压缩,提升更多的效率。
图.1 Edico Genome Dragen应用于Exome和Genome分析的加速卡
总结:
下一代基因组测序(Next GeneraTIon Sequencing ,NGS)是一个很有意义的工作,全球很多国家都在积极的参与这件事情。这需要多个学科的结合,不仅仅是生命科学,计算机科学的软件和硬件都可以在这个人类的大工程中发挥强大的力量。硬件加速比软件加速在特定的算法中有着得天独厚的优势,本文中所提到的基因组的测序的例子就能体现。FPGA是在ASIC出现之前针对特定的算法的硬件加速有着独特的优势!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)