不同于一代测序,NGS采用的是边合成边测序的策略,主要的技术路线以Roche公司的454技术、illumina公司的Solexa,Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性,需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增(一种可以快速复制大量产生相同DNA片段的技术)和测序两个步骤。但是PCR过程会一定程度增加系统的错误率,并且带来的错误具有偏向性,这也是二代技术存在的问题之一。
illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等,涵盖了不同的应用场景的不同需求。
第二代测序技术测序平台和测序成本,测序费用,花费时间,建库等实验技术难度,错误率以及读长(150-400bp),分析工作的体量,对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。
PacBio 的SMRT 技术,LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。
PacBio SMR
PacBio的SMRT仍然运用边合成边测序的策略,但是其超强活性的DNA聚合酶是实现超长读长(~1000bp)的关键。反应在纳米管中进行,方便达到超高通量的目的。利用的是ZMW(零模波导孔)原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快,每秒约10个dNTP。目前的问题在于测序的错误率太高(81-83%),这也是大多数三代技术需要解决的共同问题。不过错误随机,几乎没有偏向性,为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。
Oxford Nanopre MinlON
而Nanopore的MinlON测序仪应用纳米孔单分子技术,这是一种基于电信号的测序技术,比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔,由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压,使电流通过小孔。当不同的DNA碱基通过纳米孔时,其对电流的阻碍作用短暂地影响流过纳米孔的电流强度,不同碱基影响的程度不同,这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多,读长长(大约在几十kb,甚至100 kb),错误随机,而不是聚集在读取的两端,通量较高,该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序,还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制,或成为其投入市场的阻碍。
LifeTechnologies IonTorrent
IonTorrent 使用半导体芯片,在芯片的微孔中固定DNA链。依次加入AGCT的碱基,DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后,便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基,则记录到的信号翻倍,从而将其识别。如果不匹配,则记录不到变化。这种技术由于不涉及荧光激发和拍照,则运行时间被大大缩减(仅数小时),无需激光光源,光学系统和照相系统,也不需要荧光标记,规避了这些环节带来的误差。但是其读长不算太长(200bp),并且当遭遇多个连续的相同碱基时,强烈的PH变化会带来误差。
de novo测序也称为从头测序:其不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低,对研究已知基因的SNP、Indel等具有较大的优势,但无法研究基因组结构变异如染色体断裂重组等。
Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说,它具有众多优势,其中很重要的两点:(1)微生物通常是以群落方式共生于某一小生境中,它们的很多特性是基于整个群落环境及个体间的相互影响的,因此做Metagenomics研究比做单个个体的研究更能发现其特性;(2) Metagenomics研究无需分离单个细菌,可以研究那些不能被实验室分离培养的微生物。
单核苷酸多态性singlenucleotide polymorphism,SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化,其中有些单核苷酸多态性可能与疾病有关,但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时,相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变,称做SNV。
基因组上小片段(<50bp)的插入或缺失,形同SNP/SNV。
当基因组发生某一段的缺失,或转录组的剪接,在测序过程中,横跨缺失位点及剪接位点的reads回帖到基因组时,一条reads被切成两段,匹配到不同的区域,这样的reads叫做soft-clipped reads,这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。
由于大部分测序得到的reads较短,一个reads能够匹配到基因组多个位置,无法区分其真实来源的位置。一些工具根据统计模型,如将这类reads分配给reads较多的区域。
拼接软件基于reads之间的overlap区,拼接获得的序列称为Contig(重叠群)。
基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...…Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。举例:Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时,Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。
Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加,能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序,如获得Scaffold 1,Scaffold 2,Scaffold 3...……Scaffold 25。将Scaffold按照这个顺序依次相加,当相加的长度达到Scaffold总长度的一半时,最后一个加上的Scaffold长度即为Scaffold N50。举例:Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时,Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。
测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
用测序的数据组装成转录本。有两种组装方式:1,de-novo构建; 2,有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下,将有overlap的reads连接成一个更长的序列,经过不断的延伸,拼成一个个的contig及scaffold。常用工具包括velvet,trans-ABYSS,Trinity等。有参考基因组重构,是指先将read回贴到基因组上,然后在基因组通过reads覆盖度,junction位点的信息等得到转录本,常用工具包括scripture、cufflinks。
比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构
Q30是指一个碱基的识别可靠性等于99.9%,或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中,质量高于等于Q30的数据的量的总和。
PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6,是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中,如果低质量的数据有2个或更多,则这条read被判定为不合格,PF就不通过。反之,则质检通过。
PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序,我们保证数据质量是Q30的比例高于80%。对于mRNA测序,smRNA测序,我们保证对照Lane的数据质量是Q30的比例高于80%。
一般情况下:
哺乳动物基因组重测序、外显子测序,GC比例在40%左右,Q30的比例是80~95%;
RNA-seq,GC比例在50%左右,Q30的比例是~80%。如果Poly(A)特别多的情况下,Q30会更低一些;
SmRNA-seq,因为有许多的read读通之后,只剩下一串的A,质量会更低,我们的实验结果%Q30在70~75%。
Illumina的测序仪的数据产量高,数据质量也是最高的。因为采用带终止基团的荧光dNTP,所以在测Homopolyer(碱基同聚物,例如一串4个T:TTTT)等的时候,不会产生移码错读。
Roche 454采用的是pyrosequencing的测序原理,通过水解DNA全成过程中所产生的焦磷,放出光,通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。
Ion Torrent,包括PGM和Proton,采用测量DNA合成过程中所释放的氢离子引起的PH值的变化,来得到序列。优点是速度最快,上机前约3~4天的时间,上机只要2~4个小时。
SOLID采用的是杂交,连接反应,再测荧光的方法。因为杂交,所以速度慢,测长较短。现在事实上已被淘汰。
PacBio是三代测序,也就是单分子测序。目前的情况是测序长度可以在1个KB以上,而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低,目前的测序准确度只有每个碱基80~90%。另一方面通量较小,一次读7万条reads.
部分参考:https://www.jianshu.com/p/acd38ee4b7a1
1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。
第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。1977年,英国化学家桑格(Frederick Sanger)发明了双脱氧链终止法,这个技术以及吉尔伯特(W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖,是第四位两度获得诺贝尔奖,以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列,证明蛋白质具有明确构造,而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体(Phage Φ-X174)的基因组序列。Sanger也是一个传奇的大科学家,现在基因组研究中举足轻重的桑格研究院(Sanger Institute)便是这位大牛一手建立的。
第一代测序技术的特点是测序读长可达1000bp,准确性高达99.999%,但测序成本高,通量低等方面的缺点,严重影响了其真正大规模的应用。但由于高精度,现今一代测序仍然是基因检测的金标准,也是对新一代测序结果进行评估验证的主要手段。而在当时,正是一代测序技术使得基因组的研究在当时成为了可能,浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。
IonTorrent基因分析仪组件:IonTorrent与Illumina原理的主要区别:
Illumina:荧光信号
Ion Torrent:电信号
IonTorrent 核心理念:
核心理念:芯片就是测序仪
特点:扩展性、简捷、快速
半导体测序技术:
IonTorrent生物化学原理:
IonTorrent如何快速、直接检测:
Ion系列测序平台适用的chips及数据产出情况汇总:
PGM Chip:
314 Chip:1.2M Wells
316 Chip:6.1M Wells
318 Chip:11M Wells
Ion torrent测序过程:
Follow 和Cycle的含义:
一个“Follow”:将一个特定的dNTP(T, A, C, or G)打入芯片,随后进行洗脱;
一个“Cycle”:是由4个dNTP组成,例如:A-T-C-G= 1 Cycle。
测序时“Follow”的顺序是怎样的?
“Flow”的顺序是以下dNTP顺序的重复(参数可调):
“TACG-TACG-TCTG-AGCA-TCGA-TCGA-TGTA-CAGC”
IonTorrent 测序记录“Ionograms”:
An “ionogram”代表信号的输出
必须“从上到下”和“从左向右”读
柱的高度代表在一个“Flow”中有几个核酸结合上去
“Negative ” 或 “zero” flows 代表没有核酸结合上去
IonTorrent实验流程汇总:
IonTorrent特点:
1.扩展性 :灵活高效的Ion Torrent
2.简捷:简单而又真实的生物化学原理
3.快速:最快速的 *** 作流程
IonTorrent应用与产品化:
提供快速鉴别与筛查食源性致病菌的整套工具
微生物全基因组测序— de novo 测序和重测序;
宏基因组测序(16S/18S…)—一项有效的工具;
RNA病毒测序:
1.纯化的RNA病毒分型
–病毒RNA抽提
–长PCR扩增子
–短PCR扩增子(利用AmpliSeq技术)
–TargetSeq捕获
2.未知的RNA病毒 denovo分析
–病毒RNA抽提
–反向富集,去除rRNA专有引物设计,去除宿主rRNA
Ion Total RNA-SeqKit (48 reactions)
•构建全外显子或Small RNA文库;
•维持原始单链并减少偏向性和错误;
•低起始量建库:总RNA 200ng或5ngmiRNA。
目标区域:
1.扩增子测序
基于PCR目标序列的深度测序,用于检测变异}扩增子的长度是可变的,
Ion Xpress™ 文库制备试剂盒与现有的Sanger测序法的引物完全兼容
利用barcoding试剂盒(条码试剂盒),可以实现多种样品的扩增子同时测序
检测生殖细胞和体细胞的突变
2.捕获目标序列 (目标序列>100kb)
通过杂交法或大量并行的PCR,实现目标序列的富集
•TargetSeq™定制富集试剂盒,可根据客户应用需求实现特定序列的富集
•可与其他富集方法兼容
Ion DNA 条码接头(Barcode Adaptor )1-96试剂盒
1.Ion半导体测序技术采用优化的barcodes可以 一次进行多达96种文库的同时测序。
2.支持多种文库的目标序列或全基因组的再测序,可以降低成本,节省样品。
3. 最少的接头序列和强大的校正功能确保样品种类的确认
4. 兼容自动化 *** 作
微生物测序
准确,快速的细菌和病毒的从头测序和重测序
线粒体测序
多重线粒体测序用于科研,临床和法医等应用
扩增子测序
•多重扩增子测序用于快速的检测生殖细胞和体细胞的突变
•与毛细管电泳测序的引物完全兼容
•利用测序进行基因分型
•细菌和病毒的分型质粒测序
大片段目标序列(>100kb)的在测序
快速,简单的 *** 作流程适用于所有的大片段目标序列的富集方法
验证全基因组和显子组的突变
正交技术验证SOLiD®System/Illumina的全基因组和外显子组的测序结果
文库评估
在进行高通量的测序之前,对构建的文库进行快速的复杂性验证或QC质控
RNA测序
快速,简单的RNA测序解决方案(最初主要针对于小RNA&低复杂度的转录组)
IonTorrent数据处理:
Ion Torrent下机数据格式(SFF、BAM、Fastq)
默认下机文件类型为:BAM;
通过插件FastqCreator可下机直接生成:Fastq;
原始下机数据路径:
Fastq格式文件:/results/analysis/output/Home/(ReportName)/plugin_out/FileExporter_out.*
BAM格式文件:/results/analysis/output/Home/(ReportName)
IonTorrent测序质控:
Positive-controlKit,上机制备模板时加入;
可自行设置,占据上样量;
IonTorrent上机情况反馈
机器运行及分析的日志文件压缩包(Support文件)。
转自 http://www.biodiscover.com/news/research/732481.html
文库结构可分为以下几个部分:插入片段,P5、P7接头,测序引物结合位点及index。
P5、P7接头位于文库两端,可以与flowcell上的寡核苷酸结合,在簇生成和测序过程中可作为引物或起到固定模板链的作用。
Index是不同样本的区分依据,当同一条lane中混入多个样本测序时,即可根据index区分来自不同样本的reads。根据建库时使用接头结构不同,又分为单index文库和双index文库。随着测序通量的不断增加,每条lane可以容纳的样本量也越来越多,双index可以变化出更多种组合,且能够降低标签串扰的比例,因此一些对灵敏度要求较高的检测通常会构建双index文库[1]。
图中黄色和蓝色的部分是测序引物结合位点:index5在NovaSeq 6000和HiSeq X平台的测序方向是不同的。完成Read1、index7测序之后,NovaSeq 6000平台会继续以这条链为模板进行index5的测序,测序引物是flowcell上的P5接头,因此index5的测序方向和Read1、index7是一致的。而HiSeq X平台的index5、Read2测序则是在末端翻转后进行的,因此index5的测序方向与Read2一致,而与Read1、index7相反, 同样的index5在HiSeq X和NovaSeq 6000平台测得的序列是反向互补的,因此在填 写文库信息的时候一定要注意测序平台和序列的对应关系。
Illumina 测序仪在收集信号时,并不是拍摄一张彩色照片一次完成的,而是分 A、C、G、T 4 个波长,分别拍摄 4 张单色照片,然后通过软件处理把这 4 张图叠加成一张。这是一种权宜之计,目的是减少图片文件的大小,从而降低对于数据存贮空间的要求。但也有缺点,一旦某一张或几张照片的信号强度不够,或者没有信号,则图片的叠加就不能准确完成。 碱基不平衡文库 (即A、G、C、T 四种碱基的含量远远偏离 25%)在测序时会导致某些图片(波长)没有信号或者信号很弱,在碱基识别时准确性降低。常见的碱基不平衡文库有BS甲基化文库、单细胞转录组文库、PCR产物文库等,为了减少碱基不平衡对测序结果的影响,通常会混入一定比例的phix文库。
Phix 文库是校准文库 ,是 illumina 的一种试剂,来源于病毒基因组DNA。其基因序列已精确知晓,GC 比例约为 40%,与人类、哺乳类的基因组的 GC 比例接近。其基因序列又与人类的基因序列相去甚远,且不含有index。在与哺乳类基因组一起测序时,可以通过基因序列比对或数据拆分而将之去除。在测碱基不平衡的文库样本时,可以加入大量的 phix 文库,以部分抵消样本的不平衡性。也可以少量地加入phix文库,以作为 control library 来验证测序质量。
Index可以容纳多少种文库? 以8碱基index为例,单端index文库理论上可以有4^8=65536种index,双端index文库理论上可以有65536^2=4294967296种index,但实际pooling时为了避免因对焦不准造成index读错,造成数据无法拆分,需要使用碱基分布均匀的index。
文库质检的方法: 上机前使用Aglient 2100或LabChip GX Touch生物芯片分析系统检测文库片段大小,并使用StepOnePlusTM Real-Time PCR System,以P5、P7接头作为引物进行 QPCR定量(最准确) 。由于Illumina文库开始测序之前会先以P5、P7接头为引物进行桥式PCR,在flowcell上生成簇,因此这样的上机定量结果是比较准确的。
文库pooling的原则: 1) 去除低质量的reads :reads中质量值Q≤19的碱基占总碱基的50%以上则舍弃该条read,对于双端测序,若一端为低质量reads,则会去掉两端reads;2) 去除接头污染的reads :reads中接头污染的碱基数大于5bp则舍弃该条read,对于双端测序,若一端受到接头污染,则去掉两端的reads;3) 去除含N较多的reads :reads中读N碱基比例大于5%则舍弃该条read,对于双端测序,若一端含N比例大于5%,则会去掉两端reads。
Duplication 是指起始与终止位置完全一致的片段。引起Duplication的主要原因是在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会产生duplication。次要原因是正巧两个插入片段的头和尾的位置完全一致,导致这一现象可能的原因有以下几种:a. 物种基因组小,本身的片段多样性低 ,测定的数据量多,重复的数据多;b. 建库过程中 建库起始量少,片段多样性低 ,在相同的PCR条件下,会造成文库总量低,后期数据的dup率高;c. 片段打断或加接头存在偏好性,文库的多样性较差 。Dup率计算主要有以下2种方法:一种是数据质控时计算,利用 reads 序列来计算dup,要求 read 序列一样才算作duplication,duplicate reads数目除以总 reads数目计算比率;另一种是比对分析时计算,根据read比对上基因组的位置来判断,比对的位置一样就算作duplication,一般会有 2bp的容错。
参考文献
[1] Macconaill L E, Burns R T, NagA, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. Bmc Genomics , 2018, 19(1):30.
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)