华大基因背后的技术武器_技术

华大基因背后的技术武器

斥巨资采购128台基因测序仪，一举成为全球最大的基因测序中心，全额收购美国纳斯达克上市公司CompleteGenomics(下称CG)，改变中国生物科技企业被跨国企业单向并购的格局。华大基因向来不按套路出牌。看似有些疯狂的举动，实际是华大基因建立技术优势的精心布局。华大基因的服务规模和测序团队是全球最大的，但在测序技术平台上需购买大批设备和耗材。收购CG实现了资金技术的互补，也使技术优势成为打破原有国际基因市场格局的反击武器。

大数据支撑科研新模式

通常由于科学技术实现产业化的过程周期很长，但在生物科技领域，尤其是在21世纪以后，生命科学由原来经典的实验科学、作坊式的实验科学变成了工厂式大数据的大科学。这种大科学利用数据分析处理，大大缩短了从科学发现到产业化的过程，使得一家机构同时进行产学研一体化成为了可能。

1990年由美、英、日、德、法及中国六国科学家启动的“国际人类基因组计划”，用10年时间、耗费30亿美元才完成了一个人的基因组测序。2007年华大基因只用半年，不到3000万人民币就完成了“第一个中国人基因图谱”。省时、高效的基因测序得益于华大基因在大数据背景下开创的新型基因科研模式，华大基因打造了具有全球竞争力的综合性大平台。在强大“平台体系”驱动下，围绕生命中心法则，建起了测序、质谱、生物计算和国家基因库综合技术平台。

测序平台承载着基因测序产业的重任，它使人类进一步解读生命奥妙成为了可能。华大基因测序平台主要以高通量测序平台为主，此外，还包括了罗氏454测序平台及Ion Torrent测序平台。测序涉及生物学各领域，包括DNA测序、RNA测序、宏基因组测序、甲基化测序、外显子捕获测序等。此外，还有合成平台、基因分型平台、全基因酶切图谱平台等让测序结果更精确的辅助平台。

质谱平台基于高通量质谱技术进行工业规模的'蛋白质组学、代谢组学研究及目标分子检测，主要进行蛋白质组学和代谢组学的全谱分析、定量分析、蛋白修饰分析以及目标蛋白、多肽和各种小分子的分析检测，也可以结合基因组、转录组数据展开贯穿性科研项目。

信息中心以实现超大规模生物信息学计算为中心任务，不断提升其在高效能计算、云计算服务能力，为海量数据处理提供创新解决方案。华大基因拥有深圳、香港、北京、武汉、杭州等数个大型生物信息学超级计算中心，总峰值计算能力达到212 T flops，总内存容量达到35.9 TB，总存储能力达到18.38 PB。其位于深圳和香港的集群的峰值计算能力分列国内生物信息领域第一和第二位，有能力为海量生物信息学数据的存储、处理和分析提供稳定而高效的资源保障。

国家基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体，通过建立高水平的生物资源样本库、高效的生物信息数据处理、存储与管理系统以及覆盖广泛的联盟网络，有效保护、合理开发和利用我国生物资源及基因数据资源，充分调动、发挥及整合各地区、各单位的资源和技术优势，积极开展广泛交流与合作。

竞争王牌：测序技术革新

2013年3月18日，华大基因宣布完成对CG的全额收购。华大在并购完成之后，保留了CG在硅谷的研发团队，并将团队规模扩大了一倍，同时结合中国本土的经验丰富的研发团队共同合作，开发出将投入产业化应用的临床测序技术BGISEQ-1000和BGISEQ-100。新产品大大简化了样品处理的流程，缩短了整个周期，优化了生物云平台，做到一键式、傻瓜式、大数据库支持，能够进入任何一家医院而不需要任何前期测序基础。在临床产品的精度、可重现性和稳定性方面比市面已有技术提高几个数量级，达到99.999%以上的碱基准确性。

华大的测序技术采取的原理各有不同，其中代表性的有基于焦磷酸化学发光的454测序技术、基于连接反应的边连接边测序技术SBL、基于锚定探针连接的CPAL技术、基于可逆终止边合成边连接技术(SBS)和测序过程中基于氢质子浓度变化的半导体检测技术。

华大测序的特点主要是序列短(30—150bp)、但是检测通量大(从开始的几百Mb到目前的1Tb以上的通量)、检测周期灵活(几个小时到几天)。正是因为通量高，所以测序的价格已经是第一代测序的万分之一，甚至更低。最早做一个人类基因组测序需要30亿美元，现在测序成本只需要1000美元。

如今，华大基因在基因测序领域保持着领先的技术优势，包括效率高、成本低的高通量测序准确率高的高深度测序全球领先的基因组组装软件，自主研发的SOAPdenovo软件而且有着丰富的经验，华大基因已经成功完成几百个物种的全基因组从头测序。

产业化新起点

如今，华大基因已经进入到产业化的新阶段，除了传统的科技合作项目之外，个人基因检测服务于医疗领域，成为了华大基因发展的新起点。

全世界每年约有500万缺陷儿出生，给这些家庭造成了巨大的精神和经济负担。产前筛查、产前诊断是防治出生缺陷的重要方法之一，但是目前的方法都无法达到既精准又安全无创。近年来随着高通量测序技术的发展，DNA测序成本降低，一项新的产前检测技术——无创产前基因检测技术应运而生。华大基因在自身高通量测序平台的基础上，于2010年末推出了产前基因检测服务，只需通过采集孕妇外周血，提取血浆中的游离DNA，就可利用测序方法分析胎儿患染色体非整倍性疾病的风险率。目前，除无创产前基因检测技术外尚有针对染色体病、单基因病的众多项目在研发过程中。

目前全球基因测序领域处于一个快速向应用转化的产业化、民用化发展阶段。整个基因测序市场中从业公司的估值也都将随着产业的爆发而水涨船高，该领域前景将继续受到投资者和资本市场的广泛关注。

基因科技，这个揭示人类生命奥秘的学科，未来必将孕育出全世界最大、最重要的产业市场。

1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。 Sanger法测序利用一种DNA聚合酶来延伸结合在待定序列模板上的引物。直到掺入一种链终止核苷酸为止。每一次序列测定由一套四个单独的反应构成，每个反应含有所有四种脱氧核苷酸三磷酸(dNTP)，并混入限量的一种不同的双脱氧核苷三磷酸(ddNTP)。由于ddNTP缺乏延伸所需要的3-OH基团，使延长的寡聚核苷酸选择性地在G、A、T或C处终止。终止点由反应中相应的双脱氧而定。每一种dNTPs和ddNTPs的相对浓度可以调整，使反应得到一组长几百至几千碱基的链终止产物。它们具有共同的起始点，但终止在不同的的核苷酸上，可通过高分辨率变性凝胶电泳分离大小不同的片段，凝胶处理后可用X-光胶片放射自显影或非同位素标记进行检测。

不同于一代测序，NGS采用的是边合成边测序的策略，主要的技术路线以Roche公司的454技术、illumina公司的Solexa，Hiseq技术和ABI公司的Solid技术为代表。为了增强测序准确性，需要对同一模板通过PCR扩增多个拷贝来矫正偏差值。因此整个测序分为PCR扩增（一种可以快速复制大量产生相同DNA片段的技术）和测序两个步骤。但是PCR过程会一定程度增加系统的错误率，并且带来的错误具有偏向性，这也是二代技术存在的问题之一。

illumina公司主打产品MiSeq测序仪、HiSeq X Ten测序仪、Miseq FGx测序仪、NextSeq 500/550桌上型测序仪、MiniSeq台式测序仪等，涵盖了不同的应用场景的不同需求。

第二代测序技术测序平台和测序成本，测序费用，花费时间，建库等实验技术难度，错误率以及读长（150-400bp），分析工作的体量，对于满足更高的科研需求和在医疗诊断中的普及都是不小的阻碍。其PCR过程带来的误差和偏好或成为其在医疗诊断大规模运用的阻碍。三代技术主要解决二代测长较短的问题。

PacBio 的SMRT 技术，LifeTechnologies 的 IonTorrent 半导体测序技术和 Oxford NanoporeTechnologies 纳米孔单分子测序技术是三代测序技术的代表。

PacBio SMR

PacBio的SMRT仍然运用边合成边测序的策略，但是其超强活性的DNA聚合酶是实现超长读长（~1000bp）的关键。反应在纳米管中进行，方便达到超高通量的目的。利用的是ZMW（零模波导孔）原理在超小的纳米孔中区别荧光信号的背景。其测序速度很快，每秒约10个dNTP。目前的问题在于测序的错误率太高（81-83%），这也是大多数三代技术需要解决的共同问题。不过错误随机，几乎没有偏向性，为其通过矫正来减少错误率提供了可能。目前这个技术已经投入市场。

Oxford Nanopre MinlON

而Nanopore的MinlON测序仪应用纳米孔单分子技术，这是一种基于电信号的测序技术，比起其他的光信号测序技术来说是一个革新。技术核心是一种特殊的内有分子接头的纳米孔，由蛋白质小孔嵌在人造膜上形成。膜两侧加上电压，使电流通过小孔。当不同的DNA碱基通过纳米孔时，其对电流的阻碍作用短暂地影响流过纳米孔的电流强度，不同碱基影响的程度不同，这种差异被灵敏的电子设备捕捉从而鉴定所通过的碱基种类。这种技术的优点很多，读长长（大约在几十kb，甚至100 kb），错误随机，而不是聚集在读取的两端，通量较高，该公司也在努力简化样品制备流程。理论上运用这个技术RNA也可以直接测序，还能检测到甲基化的胞嘧啶。不过不能实现理想的错误率控制，或成为其投入市场的阻碍。

LifeTechnologies IonTorrent

IonTorrent 使用半导体芯片，在芯片的微孔中固定DNA链。依次加入AGCT的碱基，DNA合成时如果碱基可以结合到模板链则会释放一个氢离子。这个氢离子导致局部HP值发生变化。离子传感器检测到PH 变化后，便将化学信号转变为序列信息。而如果DNA 链有两个连续的相同碱基，则记录到的信号翻倍，从而将其识别。如果不匹配，则记录不到变化。这种技术由于不涉及荧光激发和拍照，则运行时间被大大缩减（仅数小时），无需激光光源，光学系统和照相系统，也不需要荧光标记，规避了这些环节带来的误差。但是其读长不算太长（200bp），并且当遭遇多个连续的相同碱基时，强烈的PH变化会带来误差。

de novo测序也称为从头测序：其不需要任何现有的序列资料就可以对某个物种进行测序，利用生物信息学分析手段对序列进行拼接，组装，从而获得该物种的基因组图谱。

外显子组测序是指利用序列捕获技术将全基因组外显子区域DNA捕捉并富集后进行高通量测序的基因组分析方法。外显子测序相对于基因组重测序成本较低，对研究已知基因的SNP、Indel等具有较大的优势，但无法研究基因组结构变异如染色体断裂重组等。

Magenomics研究的对象是整个微生物群落。相对于传统单个细菌研究来说，它具有众多优势，其中很重要的两点：(1)微生物通常是以群落方式共生于某一小生境中，它们的很多特性是基于整个群落环境及个体间的相互影响的，因此做Metagenomics研究比做单个个体的研究更能发现其特性；(2) Metagenomics研究无需分离单个细菌，可以研究那些不能被实验室分离培养的微生物。

单核苷酸多态性singlenucleotide polymorphism，SNP 或单核苷酸位点变异SNV。个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。不同物种、个体基因组DNA序列同一位置上的单个核苷酸存在差别的现象。有这种差别的基因座、DNA序列等可作为基因组作图的标志。人基因组上平均约每1000个核苷酸即可能出现1个单核苷酸多态性的变化，其中有些单核苷酸多态性可能与疾病有关，但可能大多数与疾病无关。单核苷酸多态性是研究人类家族和动植物品系遗传变异的重要依据。在研究癌症基因组变异时，相对于正常组织，癌症中特异的单核苷酸变异是一种体细胞突变，称做SNV。

基因组上小片段（<50bp）的插入或缺失，形同SNP/SNV。

当基因组发生某一段的缺失，或转录组的剪接，在测序过程中，横跨缺失位点及剪接位点的reads回帖到基因组时，一条reads被切成两段，匹配到不同的区域，这样的reads叫做soft-clipped reads，这些reads对于鉴定染色体结构变异及外源序列整合具有重要作用。

由于大部分测序得到的reads较短，一个reads能够匹配到基因组多个位置，无法区分其真实来源的位置。一些工具根据统计模型，如将这类reads分配给reads较多的区域。

拼接软件基于reads之间的overlap区，拼接获得的序列称为Contig（重叠群）。

基因组de novo测序，通过reads拼接获得Contigs后，往往还需要构建454 Paired-end库或Illumina Mate-pair库，以获得一定大小片段（如3Kb、6Kb、10Kb、20Kb）两端的序列。基于这些序列，可以确定一些Contig之间的顺序关系，这些先后顺序已知的Contigs组成Scaffold。

Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加，能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序，如获得Contig 1，Contig 2，Contig 3...…Contig 25。将Contig按照这个顺序依次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。举例：Contig 1+Contig 2+ Contig 3+Contig 4=Contig总长度*1/2时，Contig 4的长度即为Contig N50。Contig N50可以作为基因组拼接的结果好坏的一个判断标准。

Scaffold N50与Contig N50的定义类似。Contigs拼接组装获得一些不同长度的Scaffolds。将所有的Scaffold长度相加，能获得一个Scaffold总长度。然后将所有的Scaffolds按照从长到短进行排序，如获得Scaffold 1，Scaffold 2，Scaffold 3...……Scaffold 25。将Scaffold按照这个顺序依次相加，当相加的长度达到Scaffold总长度的一半时，最后一个加上的Scaffold长度即为Scaffold N50。举例：Scaffold 1+Scaffold 2+ Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold总长度*1/2时，Scaffold 5的长度即为Scaffold N50。Scaffold N50可以作为基因组拼接的结果好坏的一个判断标准。

测序深度是指测序得到的总碱基数与待测基因组大小的比值。假设一个基因大小为2M，测序深度为10X，那么获得的总数据量为20M。覆盖度是指测序获得的序列占整个基因组的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖有所的区域，这部分没有获得的区域就称为Gap。例如一个细菌基因组测序，覆盖度是98%，那么还有2%的序列区域是没有通过测序获得的。

用测序的数据组装成转录本。有两种组装方式：1，de-novo构建； 2，有参考基因组重构。其中de-novo组装是指在不依赖参考基因组的情况下，将有overlap的reads连接成一个更长的序列，经过不断的延伸，拼成一个个的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有参考基因组重构，是指先将read回贴到基因组上，然后在基因组通过reads覆盖度，junction位点的信息等得到转录本，常用工具包括scripture、cufflinks。

比较基因组学(ComparativeGenomics)是基于基因组图谱和测序基础上，对已知的基因和基因组结构进行比较，来了解基因的功能、表达机理和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性，克隆人类疾病基因，揭示基因功能和疾病分子机制，阐明物种进化关系，及基因组的内在结构

Q30是指一个碱基的识别可靠性等于99.9%，或者说出错可能性是0.1%。Q20则是指碱基识别的可靠性等于99%。Q30数据量是指一批数据中，质量高于等于Q30的数据的量的总和。

PF是pass filter的意思。也就是质量合格的意思。Illumina的测仪序会自动地对一个read(序列)的质量可靠性进行打分。对于前25个碱基中的是否有两个碱基的识别可靠性低于0.6，是PF的判断标准。这句话翻译成较容易理解的话: 就是前25个碱基中，如果低质量的数据有2个或更多，则这条read被判定为不合格，PF就不通过。反之，则质检通过。

PF是国际公认的质检标准。对于哺乳动物基因组重测序、外显子测序，我们保证数据质量是Q30的比例高于80%。对于mRNA测序，smRNA测序，我们保证对照Lane的数据质量是Q30的比例高于80%。

一般情况下:

哺乳动物基因组重测序、外显子测序，GC比例在40%左右，Q30的比例是80~95%；

RNA-seq，GC比例在50%左右，Q30的比例是~80%。如果Poly(A)特别多的情况下，Q30会更低一些；

SmRNA-seq，因为有许多的read读通之后，只剩下一串的A，质量会更低，我们的实验结果%Q30在70~75%。

Illumina的测序仪的数据产量高，数据质量也是最高的。因为采用带终止基团的荧光dNTP，所以在测Homopolyer（碱基同聚物，例如一串4个T：TTTT）等的时候，不会产生移码错读。

Roche 454采用的是pyrosequencing的测序原理，通过水解DNA全成过程中所产生的焦磷，放出光，通过测这光来读出序列。优点是读长最长。但是数据产量是最低的。

Ion Torrent，包括PGM和Proton，采用测量DNA合成过程中所释放的氢离子引起的PH值的变化，来得到序列。优点是速度最快，上机前约3~4天的时间，上机只要2~4个小时。

SOLID采用的是杂交，连接反应，再测荧光的方法。因为杂交，所以速度慢，测长较短。现在事实上已被淘汰。

PacBio是三代测序，也就是单分子测序。目前的情况是测序长度可以在1个KB以上，而且可以测出DNA序列的修饰情况。但是其缺点在于测序的准确度很低，目前的测序准确度只有每个碱基80~90%。另一方面通量较小，一次读7万条reads.

部分参考：https://www.jianshu.com/p/acd38ee4b7a1

1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖，是第四位两度获得诺贝尔奖，以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列，证明蛋白质具有明确构造，而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体（Phage Φ-X174）的基因组序列。Sanger也是一个传奇的大科学家，现在基因组研究中举足轻重的桑格研究院（Sanger Institute）便是这位大牛一手建立的。

第一代测序技术的特点是测序读长可达1000bp，准确性高达99.999%，但测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。但由于高精度，现今一代测序仍然是基因检测的金标准，也是对新一代测序结果进行评估验证的主要手段。而在当时，正是一代测序技术使得基因组的研究在当时成为了可能，浩浩荡荡的人类基因组计划即将轰轰烈烈的展开。1977年，英国化学家桑格（Frederick Sanger）发明了双脱氧链终止法，这个技术以及吉尔伯特（W.Gilbert)发明的化学降解法被称为一代测序技术。Sanger曾经在1958年及1980年两度获得诺贝尔化学奖，是第四位两度获得诺贝尔奖，以及唯一获得两次化学奖的人。其第一次获奖是凭借定序胰岛素的氨基酸序列，证明蛋白质具有明确构造，而第二次获奖就是因为其双脱氧链终止法——Sanger法的发明。利用这个技术他成功测定了Φ-X174噬菌体（Phage Φ-X174）的基因组序列。Sanger也是一个传奇的大科学家，现在基因组研究中举足轻重的桑格研究院（Sanger Institute）便是这位大牛一手建立的。

◆半导体的一些特性∶掺杂性（在形成晶体结构的半导体中，人为地掺入特定的杂质元素，导电性能具有可控性。），热敏性，光敏性（在光照和热辐射条件下，其导电性有明显的变化。），负电阻率温度特性，整流特性，磁变特性。因此用半导体制作的传感器就可以测量多方面的物理量：

●热敏传感器：利用半导体在不同温度下具有不同电阻的特性来测量物体的温度；

●光敏传感器：利用半导体受光量的不同而具备的电阻率的不同，实现光强度的测量、亮度自动控制，或利用遮光原理实现计数、转速测量及先后次序测量等；

●负阻特性可用来检测温度变化，实现恒稳控制等应用，也可以监控电压电流变化；

●利用参杂性可实现化学性质变化的测量和报警，可制成烟雾、瓦斯报警器等。

●利用半导体的磁特性设计的霍尔传感器，可以测磁、测距。

◆所有根据半导体的特性设计的传感器都可认为是半导体传感器。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/9201661.html

华大基因背后的技术武器

发表评论

评论列表（0条）