DNA数据库的GenBank

DNA数据库的GenBank,第1张

大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(High Throughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(Sequence Tagged Sites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。

序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图41中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供?

关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有‘/db-xref/’标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5’非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。

聚合酶链反应(Polymerase Chain Reaction ,PCR)是80年代中期发展起来的体外核酸扩增技术它具有特异、敏感、产率高、快速、简便、重复性好、易自动化等突出优点;能在一个试管内将所要研究 的目的基因或某一DNA片段于数小时内扩增至十万乃至百万倍,使肉眼能直接观察和判断;可从一根毛发、一滴血、甚至一个细胞中扩增出足量的DNA供分析研 究和检测鉴定过去几天几星期才能做到的事情,用PCR几小时便可完成PCR技术是生物医学领域中的一项革命性创举和里程碑

PCR技术简史

PCR的最早设想 核酸研究已有100多年的历史,本世纪60年代末、70年代初人们致力于研究基因的体外分离技术,Korana于1971年最早提出核酸体外扩增的设想:“经过DNA变性,与合适的引物杂交,用DNA聚合酶延伸引物,并不断重复该过程便可克隆tRNA基因”

PCR的实现 1985年美国PE-Cetus公司人类遗传研究室的Mullis等发明了具有划时代意义的聚合酶链反应其原理类似于DNA的体内复制,只是在试管中给 DNA的体外合成提供以致一种合适的条件---摸板DNA,寡核苷酸引物,DNA聚合酶,合适的缓冲体系,DNA变性、复性及延伸的温度与时间

PCR的改进与完善 Mullis最初使用的DNA聚合酶是大肠杆菌DNA聚合酶I的 Klenow片段,其缺点是:①Klenow酶不耐高温,90℃会变性失活,每次循环都要重新加②引物链延伸反应在37℃下进行,容易发生模板和引物之 间的碱基错配,其PCR产物特异性较差,合成的DNA片段不均一此种以Klenow酶催化的PCR技术虽较传统的基因扩增具备许多突出的优点,但由于 Klenow酶不耐热,在DNA模板进行热变性时,会导致此酶钝化,每加入一次酶只能完成一个扩增反应周期,给PCR技术 *** 作程序添了不少困难这使得 PCR技术在一段时间内没能引起生物医学界的足够重视1988年初,Keohanog改用T4 DNA聚合酶进行PCR,其扩增的DNA片段很均一,真实性也较高,只有所期望的一种DNA片段但每循环一次,仍需加入新酶1988年Saiki 等从温泉中分离的一株水生嗜热杆菌(thermus aquaticus) 中提取到一种耐热DNA聚合酶此酶具有以下特点:①耐高温,在70℃下反应2h后其残留活性大于原来的90%,在93℃下反应2h后其残留活性是原来的 60%,在95℃下反应2h后其残留活性是原来的40%②在热变性时不会被钝化,不必在每次扩增反应后再加新酶③大大提高了扩增片段特异性和扩增效 率,增加了扩增长度(20Kb)由于提高了扩增的特异性和效率,因而其灵敏性也大大提高为与大肠杆菌多聚酶I Klenow片段区别,将此酶命名为Taq DNA多聚酶(Taq DNA Polymerase)此酶的发现使PCR广泛的被应用

PCR技术基本原理

PCR技术的基本原理 类似于DNA的 天然复制过程,其特异性依赖于与靶序列两端互补的寡核苷酸引物PCR由变性--退火--延伸三个基本反应步骤构成:①模板DNA的变性:模板DNA经加 热至93℃左右一定时间后,使模板DNA双链或经PCR扩增形成的双链DNA解离,使之成为单链,以便它与引物结合,为下轮反应作准备;②模板DNA与引 物的退火(复性):模板DNA经加热变性成单链后,温度降至55℃左右,引物与模板DNA单链的互补序列配对结合;③引物的延伸:DNA模板--引物结合 物在TaqDNA聚合酶的作用下,以dNTP为反应原料,靶序列为模板,按碱基配对与半保留复制原理,合成一条新的与模板DNA 链互补的半保留复制链重复循环变性--退火--延伸三过程,就可获得更多的“半保留复制链”,而且这种新链又可成为下次循环的模板每完成一个循环需 2~4分钟,2~3小时就能将待扩目的基因扩增放大几百万倍到达平台期(Plateau)所需循环次数取决于样品中模板的拷贝

PCR的反应动力学 PCR的三个反应步骤反复进行,使DNA扩增量呈指数上升反应最终的DNA 扩增量可用Y=(1+X)n计算Y代表DNA片段扩增后的拷贝数,X表示平(Y)均每次的扩增效率,n代表循环次数平均扩增效率的理论值为100%, 但在实际反应中平均效率达不到理论值反应初期,靶序列DNA片段的增加呈指数形式,随着PCR产物的逐渐积累,被扩增的DNA片段不再呈指数增加,而进 入线性增长期或静止期,即出现“停滞效应”,这种效应称平台期数、PCR扩增效率及DNA聚合酶PCR的种类和活性及非特异性产物的竟争等因素大多数情 况下,平台期的到来是不可避免的

PCR扩增产物 可分为长产物片段和短产物片段两部分短产物片段的长度严格地限定在两个引物链5’端之间,是需要扩增的特定片段短产物片段和长产物片段是由于引物所 结合的模板不一样而形成的,以一个原始模板为例,在第一个反应周期中,以两条互补的DNA为模板,引物是从3’端开始延伸,其5’端是固定的,3’端则没 有固定的止点,长短不一,这就是“长产物片段”进入第二周期后,引物除与原始模板结合外,还要同新合成的链(即“长产物片段”)结合引物在与新链结合 时,由于新链模板的5’端序列是固定的,这就等于这次延伸的片段3’端被固定了止点,保证了新片段的起点和止点都限定于引物扩增序列以内、形成长短一致的 “短产物片段”不难看出“短产物片段”是按指数倍数增加,而“长产物片段”则以算术倍数增加,几乎可以忽略不计, 这使得PCR的反应产物不需要再纯化,就能保证足够纯DNA片段供分析与检测用

PCR反应体系与反应条件

标准的PCR反应体系:

10×扩增缓冲液 10ul

4种dNTP混合物 各200umol/L

引物 各10~100pmol

模板DNA 01~2ug

Taq DNA聚合酶 25u

Mg2+ 15mmol/L

加双或三蒸水至 100ul

PCR反应五要素: 参加PCR反应的物质主要有五种即引物、酶、dNTP、模板和Mg2+

引物: 引物是PCR特异性反应的关键,PCR 产物的特异性取决于引物与模板DNA互补的程度理论上,只要知道任何一段模板DNA序列,就能按其设计互补的寡核苷酸链做引物,利用PCR就可将模板DNA在体外大量扩增

设计引物应遵循以下原则:

①引物长度: 15-30bp,常用为20bp左右

②引物扩增跨度: 以200-500bp为宜,特定条件下可扩增长至10kb的片段

③引物碱基:G+C含量以40-60%为宜,G+C太少扩增效果不佳,G+C过多易出现非特异条带ATGC最好随机分布,避免5个以上的嘌呤或嘧啶核苷酸的成串排列

④避免引物内部出现二级结构,避免两条引物间互补,特别是3’端的互补,否则会形成引物二聚体,产生非特异的扩增条带

⑤引物3’端的碱基,特别是最末及倒数第二个碱基,应严格要求配对,以避免因末端碱基不配对而导致PCR失败

⑥引物中有或能加上合适的酶切位点,被扩增的靶序列最好有适宜的酶切位点,这对酶切分析或分子克隆很有好处

⑦引物的特异性:引物应与核酸序列数据库的其它序列无明显同源性

引物量: 每条引物的浓度01~1umol或10~100pmol,以最低引物量产生所需要的结果为好,引物浓度偏高会引起错配和非特异性扩增,且可增加引物之间形成二聚体的机会

酶及其浓度 目前有两种Taq DNA聚合酶供应, 一种是从栖热水生杆菌中提纯的天然酶,另一种为大肠菌合成的基因工程酶催化一典型的PCR反应约需酶量25U(指总反应体积为100ul时),浓度过高可引起非特异性扩增,浓度过低则合成产物量减少

dNTP的质量与浓度 dNTP的质量与浓度和PCR扩增效率有密切关系,dNTP粉呈颗粒状,如保存不当易变性失去生物学活性dNTP溶液呈酸性,使用时应配成高浓度后,以1M NaOH或1M TrisHCL的缓冲液将其PH调节到70~75,小量分装, -20℃冰冻保存多次冻融会使dNTP降解在PCR反应中,dNTP应为50~200umol/L,尤其是注意4种dNTP的浓度要相等( 等摩尔配制),如其中任何一种浓度不同于其它几种时(偏高或偏低),就会引起错配浓度过低又会降低PCR产物的产量dNTP能与Mg2+结合,使游离的Mg2+浓度降低

模板(靶基因)核酸 模板核酸的量与纯化程度,是PCR成败与否的关键环节之一,传统的DNA纯化方法通常采用SDS和蛋白酶K来消化处理标本 SDS的主要功能是: 溶解细胞膜上的脂类与蛋白质,因而溶解膜蛋白而破坏细胞膜,并解离细胞中的核蛋白,SDS 还能与蛋白质结合而沉淀;蛋白酶K能水解消化蛋白质,特别是与DNA结合的组蛋白,再用有机溶剂酚与氯仿抽提掉蛋白质和其它细胞组份,用乙醇或异丙醇沉淀 核酸提取的核酸即可作为模板用于PCR反应一般临床检测标本,可采用快速简便的方法溶解细胞,裂解病原体,消化除去染色体的蛋白质使靶基因游离,直接 用于PCR扩增RNA模板提取一般采用异硫氰酸胍或蛋白酶K法,要防止RNase降解RNA

Mg2+浓度 Mg2+对PCR扩增的特异性和产量有显著的影响,在一般的PCR反应中,各种dNTP浓度为200umol/L时,Mg2+浓度为15~20mmol/L为宜Mg2+浓度过高,反应特异性降低,出现非特异扩增,浓度过低会降低Taq DNA聚合酶的活性,使反应产物减少

PCR反应条件的选择

PCR反应条件为温度、时间和循环次数

温度与时间的设置: 基于PCR原理三步骤而设置变性-退火-延伸三个温度点在标准反应中采用三温度点法,双链DNA在90~95℃变性,再迅速冷却至40 ~60℃,引物退火并结合到靶序列上,然后快速升温至70~75℃,在Taq DNA 聚合酶的作用下,使引物链沿模板延伸对于较短靶基因(长度为100~300bp时)可采用二温度点法, 除变性温度外、退火与延伸温度可合二为一,一般采用94℃变性,65℃左右退火与延伸(此温度Taq DNA酶仍有较高的催化活性)

①变性温度与时间:变性温度低,解链不完全是导致PCR失败的最主要原因一般情况下,93℃~94℃lmin足以使模板DNA变性,若低于93℃则 需延长时间,但温度不能过高,因为高温环境对酶的活性有影响此步若不能使靶基因模板或PCR产物完全变性,就会导致PCR失败

②退火(复性)温度与时间:退火温度是影响PCR特异性的较重要因素变性后温度快速冷却至40℃~60℃,可使引物和模板发生结合由于模板DNA 比引物复杂得多,引物和模板之间的碰撞结合机会远远高于模板互补链之间的碰撞退火温度与时间,取决于引物的长度、碱基组成及其浓度,还有靶基序列的长 度对于20个核苷酸,G+C含量约50%的引物,55℃为选择最适退火温度的起点较为理想引物的复性温度可通过以下公式帮助选择合适的温度:

Tm值(解链温度)=4(G+C)+2(A+T)

复性温度=Tm值-(5~10℃)

在Tm值允许范围内, 选择较高的复性温度可大大减少引物和模板间的非特异性结合,提高PCR反应的特异性复性时间一般为30~60sec,足以使引物与模板之间完全结合

③延伸温度与时间:Taq DNA聚合酶的生物学活性:

70~80℃ 150核苷酸/S/酶分子

70℃ 60核苷酸/S/酶分子

55℃ 24核苷酸/S/酶分子

高于90℃时, DNA合成几乎不能进行

PCR反应的延伸温度一般选择在70~75℃之间,常用温度为72℃,过高的延伸温度不利于引物和模板的结合PCR延伸反应的时间,可根据待扩增片段的长度而定,一般1Kb以内的DNA片段,延伸时间1min是足够 的3~4kb的靶序列需3~4min;扩增10Kb需延伸至15min延伸进间过长会导致非特异性扩增带的出现对低浓度模板的扩增,延伸时间要稍长些

循环次数 循环次数决定PCR扩增程度PCR循环次数主要取决于模板DNA的浓度一般的循环次数选在30~40次之间,循环次数越多,非特异性产物的量亦随之增多

PCR反应特点

特异性强 PCR反应的特异性决定因素为:

①引物与模板DNA特异正确的结合;

②碱基配对原则;

③Taq DNA聚合酶合成反应的忠实性;

④靶基因的特异性与保守性

其中引物与模板的正确结合是关键引物与模板的结合及引物链的延伸是遵循碱基配对原则的聚合酶合成反应的忠实性及Taq DNA聚合酶耐高温性,使反应中模板与引物的结合(复性)可以在较高的温度下进行,结合的特异性大大增加,被扩增的靶基因片段也就能保持很高的正确度再通过选择特异性和保守性高的靶基因区,其特异性程度就更高

灵敏度高 PCR产物的生成量是以指数方式增加的,能将皮克(pg=10-12g)量级的起始待测模板扩增到微克(ug=10-6g)水平能从100万个细胞中检出一个靶细胞;在病毒的检测中,PCR的灵敏度可达3个RFU(空斑形成单位);在细菌学中最小检出率为3个细菌

简便、快速 PCR反应用耐高温的Taq DNA聚合酶,一次性地将反应液加好后,即在DNA扩增液和水浴锅上进行变性-退火-延伸反应,一般在2~4 小时完成扩增反应扩增产物一般用电泳分析,不一定要用同位素,无放射性污染、易推广

对标本的纯度要求低 不需要分离病毒或细菌及培养细胞,DNA 粗制品及总RNA均可作为扩增模板可直接用临床标本如血液、体腔液、洗嗽液、毛发、细胞、活组织等粗制的DNA扩增检测 PCR扩增产物分析

PCR产物是否为特异性扩增 ,其结果是否准确可靠,必须对其进行严格的分析与鉴定,才能得出正确的结论PCR产物的分析,可依据研究对象和目的不同而采用不同的分析方法

凝胶电泳分析:PCR产物电泳,EB溴乙锭染色紫外仪下观察,初步判断产物的特异性PCR产物片段的大小应与预计的一致,特别是多重PCR,应用多对引物,其产物片断都应符合预讦的大小,这是起码条件

琼脂糖凝胶电泳: 通常应用1~2%的琼脂糖凝胶,供检测用

聚丙烯酰胺凝胶电泳:6~10%聚丙烯酰胺凝胶电泳分离效果比琼脂糖好,条带比较集中,可用于科研及检测分析

酶切分析:根据PCR产物中限制性内切酶的位点,用相应的酶切、电泳分离后,获得符合理论的片段,此法既能进行产物的鉴定,又能对靶基因分型,还能进行变异性研究

分子杂交:分子杂交是检测PCR产物特异性的有力证据,也是检测PCR 产物碱基突变的有效方法

Southern印迹杂交: 在两引物之间另合成一条寡核苷酸链(内部寡核苷酸)标记后做探针,与PCR产物杂交此法既可作特异性鉴定,又可以提高检测PCR产物的灵敏度,还可知其分子量及条带形状,主要用于科研

斑点杂交: 将PCR产物点在硝酸纤维素膜或尼膜薄膜上,再用内部寡核苷酸探针杂交,观察有无着色斑点,主要用于PCR产物特异性鉴定及变异分析

核苷酸三个字分别代表核糖,腺苷,磷酸。核酸是不包括腺苷的就是熟知的ATCGU,平时说核酸序列并不准确。还有,核苷酸的

核糖体

的2号碳上的羟基脱去后就成了“

脱氧核糖

-核苷酸”。

以上就是关于DNA数据库的GenBank全部的内容,包括:DNA数据库的GenBank、PCR的原理是什么、核苷序列数据库和核酸序列数据库有什么差异等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9320097.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存