Ion Torrent 基因分析仪——介绍及原理_技术

IonTorrent基因分析仪组件：

IonTorrent与Illumina原理的主要区别：

Illumina：荧光信号

Ion Torrent：电信号

IonTorrent 核心理念：

核心理念：芯片就是测序仪

特点：扩展性、简捷、快速

半导体测序技术：

IonTorrent生物化学原理：

IonTorrent如何快速、直接检测：

Ion系列测序平台适用的chips及数据产出情况汇总：

PGM Chip：

314 Chip：1.2M Wells

316 Chip：6.1M Wells

318 Chip：11M Wells

Ion torrent测序过程：

Follow 和Cycle的含义：

一个“Follow”：将一个特定的dNTP(T, A, C, or G)打入芯片，随后进行洗脱；

一个“Cycle”：是由4个dNTP组成，例如：A-T-C-G= 1 Cycle。

测序时“Follow”的顺序是怎样的？

“Flow”的顺序是以下dNTP顺序的重复（参数可调）：

“TACG-TACG-TCTG-AGCA-TCGA-TCGA-TGTA-CAGC”

IonTorrent 测序记录“Ionograms”：

An “ionogram”代表信号的输出

必须“从上到下”和“从左向右”读

柱的高度代表在一个“Flow”中有几个核酸结合上去

“Negative ” 或 “zero” flows 代表没有核酸结合上去

IonTorrent实验流程汇总：

IonTorrent特点：

1.扩展性 :灵活高效的Ion Torrent

2.简捷：简单而又真实的生物化学原理

3.快速：最快速的 *** 作流程

IonTorrent应用与产品化：

提供快速鉴别与筛查食源性致病菌的整套工具

微生物全基因组测序— de novo 测序和重测序；

宏基因组测序（16S/18S…）—一项有效的工具；

RNA病毒测序：

1.纯化的RNA病毒分型

–病毒RNA抽提

–长PCR扩增子

–短PCR扩增子(利用AmpliSeq技术)

–TargetSeq捕获

2.未知的RNA病毒 denovo分析

–病毒RNA抽提

–反向富集，去除rRNA专有引物设计，去除宿主rRNA

Ion Total RNA-SeqKit (48 reactions)

•构建全外显子或Small RNA文库；

•维持原始单链并减少偏向性和错误；

•低起始量建库：总RNA 200ng或5ngmiRNA。

目标区域：

1.扩增子测序

基于PCR目标序列的深度测序，用于检测变异}扩增子的长度是可变的，

Ion Xpress™ 文库制备试剂盒与现有的Sanger测序法的引物完全兼容

利用barcoding试剂盒（条码试剂盒），可以实现多种样品的扩增子同时测序

检测生殖细胞和体细胞的突变

2.捕获目标序列 (目标序列>100kb)

通过杂交法或大量并行的PCR，实现目标序列的富集

•TargetSeq™定制富集试剂盒，可根据客户应用需求实现特定序列的富集

•可与其他富集方法兼容

Ion DNA 条码接头（Barcode Adaptor ）1-96试剂盒

1.Ion半导体测序技术采用优化的barcodes可以一次进行多达96种文库的同时测序。

2.支持多种文库的目标序列或全基因组的再测序，可以降低成本，节省样品。

3. 最少的接头序列和强大的校正功能确保样品种类的确认

4. 兼容自动化 *** 作

微生物测序

准确，快速的细菌和病毒的从头测序和重测序

线粒体测序

多重线粒体测序用于科研，临床和法医等应用

扩增子测序

•多重扩增子测序用于快速的检测生殖细胞和体细胞的突变

•与毛细管电泳测序的引物完全兼容

•利用测序进行基因分型

•细菌和病毒的分型质粒测序

大片段目标序列（>100kb）的在测序

快速，简单的 *** 作流程适用于所有的大片段目标序列的富集方法

验证全基因组和显子组的突变

正交技术验证SOLiD®System/Illumina的全基因组和外显子组的测序结果

文库评估

在进行高通量的测序之前，对构建的文库进行快速的复杂性验证或QC质控

RNA测序

快速，简单的RNA测序解决方案（最初主要针对于小RNA&低复杂度的转录组）

IonTorrent数据处理：

Ion Torrent下机数据格式（SFF、BAM、Fastq）

默认下机文件类型为：BAM；

通过插件FastqCreator可下机直接生成：Fastq；

原始下机数据路径：

Fastq格式文件：/results/analysis/output/Home/（ReportName）/plugin_out/FileExporter_out.*

BAM格式文件：/results/analysis/output/Home/（ReportName）

IonTorrent测序质控：

Positive-controlKit，上机制备模板时加入；

可自行设置，占据上样量；

IonTorrent上机情况反馈

机器运行及分析的日志文件压缩包（Support文件）。

第二代测序技术又称为下一代测序（NGS），与第一代相比主要是1.高通量测序2.边合成边测序。

回顾二代测序的发展史

1996年Ronaghi和Uhlen发明了焦磷酸测序，454 Life sciences 公司基于此原理推出了测序系统Genome Sequencer 20System，标志着二代测序的商用；

2006和07年 Solexa和ABI公司推出了GA SOLID测序平台

2010年Life Technologies 推出Ion PGM系统

2014年华大推出了BGISEQ-1000

1.Illumina/Solexa测序平台

之前也总结过Illumina测序的原理，现简要梗概一下其步骤

1）DNA文库准备：先将DNA链打断成200-500bp的片段，末端修复后在两端连上特异性的接头

2）流动槽杂交：

带有接头的DNA片段流过流通池，与其上固定的种接头通过互补配对结合。这些固定的接头其后充当引物的作用，在聚合酶的作用下进行合成反应。

3）DNA合成后，变性使得未与流动池共价连接的DNA链解离并洗掉，反向练则以共价键结合在流动池的表面。因为DNA单链另一端也含有接头，能够和临近的接头互补，DNA链形成桥式结构，同样的这个相邻的接头充当引物，在DNA聚合酶的作用下，合成双链桥式结构。重复此过程，形成5000-10000个copy。这个目的是形成序列相同的DNA簇，使得在测序的过程中产生足够强的信号。变性打开，各自形成单链的DNA链固定在表面。将反向链切除，将正向链的的3‘封闭，以免产生不必要的DNA延伸。

4）DNA测序：加入测序引物，DNA聚合酶，4种带不同荧光标记的dNTP，且这些dNTPde3’端羟基被封闭，无法继续下一个反应。计算机检测到荧光的信号后，将不同的信号转化为对应的碱基。加入化学试剂淬灭信号，并去除3’的保护基团，并进行下一个碱基的反应。

illumina测序一般能够检测150个碱基左右，因为在后续，由于DNA合成酶活力下降等原因，造成相同序列的DNA信号不一致，DNA测序的准确性下降。

在实际的测序过程中，通常一次性会测不同物种来源的DNA，此时，需要barcode来进行标记。不同的物种带有不同的barcode序列，在DNA测序完成后，需要加入barcode引物，将barcode也进行测序。

该测序系统基半导体测序原理，不需要进行光学感应。

原理简要概括如下：

在测序的过程中，识别不同的碱基不是依靠荧光信号，而是通过dNTP结合释放的H+。

更多的信息详见 7种测序平台 - Thinkando - 博客园 (cnblogs.com)

补充：

罗氏454测序

罗氏454的焦磷酸测序是最早发行的二代测序。其测序的文库的建立和Ion Torrent相似，一个磁珠吸附一个模板DNA，充当一个微型的反应器。外面裹以油，将不同的液滴隔离开来。不同的片段平行扩增，待反应结束后，破坏乳液，只剩下磁珠。此时一个磁珠=一条读长。

将磁珠放在PTP板中测序，依次加入ATCG四种碱基。让碱基能够成功配对时，会释放一个焦磷酸。

1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。 Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

不同于一代测序，NGS采用的是边合成边测序的策略，主要的技术路线以Roche公司的454技术、illumina公司的Solexa，Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性，需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增（一种可以快速复制大量产生相同DNA片段的技术）和测序两个步骤。但是PCR过程会一定程度增加系统的错误率，并且带来的错误具有偏向性，这也是二代技术存在的问题之一。

illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等，涵盖了不同的应用场景的不同需求。

第二代测序技术测序平台和测序成本，测序费用，花费时间，建库等实验技术难度，错误率以及读长（150-400bp），分析工作的体量，对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。

PacBio 的SMRT 技术，LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。

PacBio SMR

PacBio的SMRT仍然运用边合成边测序的策略，但是其超强活性的DNA聚合酶是实现超长读长（~1000bp）的关键。反应在纳米管中进行，方便达到超高通量的目的。利用的是ZMW（零模波导孔）原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快，每秒约10个dNTP。目前的问题在于测序的错误率太高（81-83%），这也是大多数三代技术需要解决的共同问题。不过错误随机，几乎没有偏向性，为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。

Oxford Nanopre MinlON

而Nanopore的MinlON测序仪应用纳米孔单分子技术，这是一种基于电信号的测序技术，比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔，由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压，使电流通过小孔。当不同的DNA碱基通过纳米孔时，其对电流的阻碍作用短暂地影响流过纳米孔的电流强度，不同碱基影响的程度不同，这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多，读长长（大约在几十kb，甚至100 kb），错误随机，而不是聚集在读取的两端，通量较高，该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序，还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制，或成为其投入市场的阻碍。

LifeTechnologies IonTorrent

IonTorrent 使用半导体芯片，在芯片的微孔中固定DNA链。依次加入AGCT的碱基，DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后，便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基，则记录到的信号翻倍，从而将其识别。如果不匹配，则记录不到变化。这种技术由于不涉及荧光激发和拍照，则运行时间被大大缩减（仅数小时），无需激光光源，光学系统和照相系统，也不需要荧光标记，规避了这些环节带来的误差。但是其读长不算太长（200bp），并且当遭遇多个连续的相同碱基时，强烈的PH变化会带来误差。

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1)微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2) Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变，称做SNV。

基因组上小片段（<50bp）的插入或缺失，形同SNP/SNV。

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。一些工具根据统计模型，如将这类reads分配给reads较多的区域。

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...…Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3...……Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read回贴到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构

Q30是指一个碱基的识别可靠性等于99.9%，或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中，质量高于等于Q30的数据的量的总和。

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6，是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中，如果低质量的数据有2个或更多，则这条read被判定为不合格，PF就不通过。反之，则质检通过。

PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序，我们保证数据质量是Q30的比例高于80%。对于mRNA测序，smRNA测序，我们保证对照Lane的数据质量是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序，GC比例在40%左右，Q30的比例是80~95%；

RNA-seq，GC比例在50%左右，Q30的比例是~80%。如果Poly(A)特别多的情况下，Q30会更低一些；

SmRNA-seq，因为有许多的read读通之后，只剩下一串的A，质量会更低，我们的实验结果%Q30在70~75%。

Illumina的测序仪的数据产量高，数据质量也是最高的。因为采用带终止基团的荧光dNTP，所以在测Homopolyer（碱基同聚物，例如一串4个T：TTTT）等的时候，不会产生移码错读。

Roche 454采用的是pyrosequencing的测序原理，通过水解DNA全成过程中所产生的焦磷，放出光，通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。

Ion Torrent，包括PGM和Proton，采用测量DNA合成过程中所释放的氢离子引起的PH值的变化，来得到序列。优点是速度最快，上机前约3~4天的时间，上机只要2~4个小时。

SOLID采用的是杂交，连接反应，再测荧光的方法。因为杂交，所以速度慢，测长较短。现在事实上已被淘汰。

PacBio是三代测序，也就是单分子测序。目前的情况是测序长度可以在1个KB以上，而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低，目前的测序准确度只有每个碱基80~90%。另一方面通量较小，一次读7万条reads.

部分参考：https://www.jianshu.com/p/acd38ee4b7a1

1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖，是第四位两度获得诺贝尔奖，以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列，证明蛋白质具有明确构造，而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体（Phage Φ-X174）的基因组序列。Sanger也是一个传奇的大科学家，现在基因组研究中举足轻重的桑格研究院（Sanger Institute）便是这位大牛一手建立的。

第一代测序技术的特点是测序读长可达1000bp，准确性高达99.999%，但测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。但由于高精度，现今一代测序仍然是基因检测的金标准，也是对新一代测序结果进行评估验证的主要手段。而在当时，正是一代测序技术使得基因组的研究在当时成为了可能，浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖，是第四位两度获得诺贝尔奖，以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列，证明蛋白质具有明确构造，而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体（Phage Φ-X174）的基因组序列。Sanger也是一个传奇的大科学家，现在基因组研究中举足轻重的桑格研究院（Sanger Institute）便是这位大牛一手建立的。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/7107708.html

Ion Torrent 基因分析仪——介绍及原理

发表评论

评论列表（0条）