基因识别的识别方法

基因识别的识别方法,第1张

基因的间接识别法(Extrinsic Approach)中,人们利用已知的mRNA或蛋白质序列为线索在DNA序列中搜寻所对应的片段。由给定的mRNA序列确定唯一的作为转录源的DNA序列;而由给定的蛋白质序列,也可以由密码子反转确定一族可能的DNA序列。因此,在线索的提示下搜寻工作相对较为容易,搜寻算法的关键在于提高效率,并能够容忍由于测序不完整或者不精确所带来的误差。BLAST是目前以此为目的最广泛使用的软件之一。

若DNA序列的某一片段与mRNA或蛋白质序列具有高度相似性,这说明该DNA片段极有可能是蛋白编码基因。但是,测定mRNA或蛋白质序列的成本高昂,而且在复杂的生物体中,任意确定的时刻往往只有一部分基因得到了表达。这意味着从任何单个细胞的mRNA和蛋白质上都只能获得一小部分基因的信息;要想得到更为完整的信息,不得不对成百上千个不同状态的细胞中的mRNA和蛋白质测序。这是相当困难的。比如,某些人类基因只在胚胎或胎儿时期才得到表达,对它们的研究就会受到道德因素的制约。

尽管有以上困难,对人类自身和一些常见的实验生物如老鼠和酵母菌,人们已经建立了大量转录和蛋白质序列的数据库。如RefSeq数据库,Ensembl数据库等等。但这些数据库既不完整,也含有相当数量的错误。 鉴于间接识别法的种种缺陷,仅仅由DNA序列信息预测蛋白质编码基因的从头计算法(Ab Initio Approach)就显得十分重要了。一般意义上基因具有两种类型的特征,一类特征是“信号”,由一些特殊的序列构成,通常预示着其周围存在着一个基因;另一类特征是“内容”,即蛋白质编码基因所具有的某些统计学特征。使用Ab Initio方法识别基因又称为基因预测。通常我们仍需借助实验证实预测的DNA片段是否具有生物学功能。

在原核生物中,基因往往具有特定且容易识别的启动子序列(信号),如Pribnow盒和转录因子。与此同时,构成蛋白质编码的序列构成一个连续的开放阅读框(内容),其长度约为数百个到数千个碱基对(依据该长度区间可以筛选合适的密码子)。除此之外,原核生物的蛋白质编码还具有其他一些容易判别的统计学的特征。这使得对原核生物的基因预测能达到相对较高的精度。

对真核生物(尤其是复杂的生物如人类)的基因预测则相当有挑战性。一方面,真核生物中的启动子和其他控制信号更为复杂,还未被很好的了解。两个被真核生物基因搜寻器识别到的讯号例子有CpG islands及poly(A) tail的结合点。

另一方面,由于真核生物所具有的splicing机制,基因中一个蛋白质编码序列被分为了若干段(外显子),中间由非编码序列连接(基因内区)。人类的一个普通蛋白质编码基因可能被分为了十几个外显子,其中每个外显子的长度少于200个碱基对,而某些外显子更可能只有二三十个碱基对长。因而蛋白质编码的一些统计学特征变得难于判别。

高级的基因识别算法常使用更加复杂的概率论模型,如隐马尔可夫模型。Glimmer是一个广泛应用的高级基因识别程序,它对原核生物基因的预测已非常精确,相比之下,对真核生物的预测则效果有限。GENSCAN计划是一个著名的例子。 由于多个物种的基因组序列已完全测出,使得比较基因组学得以发展,并产生了新的基因识别的方法。该方法基于如下原理:自然选择的力量使得基因和DNA序列上具有生物学功能的其他片段较其他部分有较慢的变异速率,在前者的变异更有可能对生物体的生存产生负面影响,因而难以得到保存。因此,通过比较相关的物种的DNA序列,我们能够取得预测基因的新线索。2003年,通过对若干种酵母基因组的比较,人类对原先的基因识别结果作了较大的修改;类似的方法也正在应用于人类的基因组研究,并可能在将来的若干年内取得成果。

生物信息资源简介

生物信息(bioinformatics)中的“信息(-informatics)”指的是从海量的数据中进行挖掘,从而得到知识的过程,如下图所示。在这个过程中,会涉及到数据的管理,数据的运算,数据挖掘和建模仿真。其中,数据管理部分主要是数据库(database),数据的运算部分主要是指各种生物信息的软件(software tools)。这两部分是生物信息研究非常重要的资源,也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。(本文根据北京大学生物信息学公开课程视频整理,来自视频截图)

根据不同的特点,可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据(Original data)数据库和二级数据(Secondary data)数据库。再比如根据软件是独立的工具还是网络服务器,可以将software tools分为standalone programs和web servers。

根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。

1.NCBI简介

NCBI-Genome Database:

存储了目前绝大多数的被测序出来的基因组,目前有1000+基因组被测序出来。

NCBI-Nucleotide/protein (RefSeq):

将不同的版本作了整合之后的参考序列。其中NM_表示核酸序列,NP_表示蛋白序列。其中核酸给出了ID号,名称,物种,特征,编码区,序列等信息。蛋白还给出了功能区间信息。

NCBI-Gene:

以基因为单位,整合了pathway、variations、phenotype等信息。

对于Human genes而言,GeneCards比NCBI有更好的对人类基因、蛋白的注释(表达、相互作用、同源蛋白、功能、遗传变异等)。

NCBI-SRA

新一代测序技术的短序列database,每5个月数据就会翻倍。

NCBI-Taxonomy

把所有至少有一个基因被测序过的物种做的物种分类树,在所有被描述过的物种中有10%被测序过。

NCBI-PubMed

用于查阅文献。

NCBI-MeSH

(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 结构化的词库。

NCBI-My NCBI

对于感兴趣的关键词,在NBCI设定之后,每周会推送相关文献,对于项目中跟踪文献非常有用。

NCBI-BLAST

NCBI最著名的工具,关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括:

Online:NCBI-BLAST

Standalone:BLAST+

Embedded in webpage:>

在GeneBank 中查找基因序列只要输入accession号就可以了 ,下面网址就是一个基因的全部序列信息的例子,>

Primer-BLAST,在线设计用于聚合酶链反应(PCR)的特异性寡核苷酸引物。

这个工具整合了目前流行的Primer3软件,再加上NCBI的 Blast进行引物特异性的验证。Primer-BLAST免除了用另一个站点或工具设计引物的步骤,设计好的引物程序直接用Blast进行引物特异性验证。

基因问题比较敏感,需要大量计算,并且对基因定向编码可能会造成很大的恐慌。近日,一项刊登在国际杂志Nucleic Acids Research上的研究报告中,来自美国国家癌症研究中心的科学家们通过研究发现,高达20%的编码基因可能根本就无法进行编码,因为这些基因具有非编码或伪基因(即过时的编码基因)的特征,由此导致的人类基因组的缩小或许会对生物医学领域产生重要的影响,因为产生蛋白质的基因数量以及其身份对于科学家们研究包括癌症和心血管疾病在内的多种疾病都至关重要。

2003年科学家们完成了人类全基因组测序工作,研究人员发现,人类基因中实际上携带有2万个彼此分离的编码基因。研究人员对编码相关人类蛋白质组的基因进行了分析,对来自数据库GENCODE/Ensembl, RefSeq和UniProtKB中参考蛋白质组的详细对比分析后他们发现了22210个编码基因,但这些基因中仅有19446个基因出现在数据库中;而剩下的2764个基因似乎仅存在于一个或两个数据库的注释中,而这些基因几乎所有都可能是非编码或伪基因,实际上,这些基因连同另外1470个编码基因都无法向典型的蛋白质编码基因一样进化,也就是说,总共有4234个基因都不能编码产生蛋白质。

研究者Tress解释道,如今我们能够详细分析这些基因,而且有超过300个基因都被重新归类为非编码基因,而这些结果已经被GENCODE国际联合会在人类基因组中进行了全新注解。这项研究再次强调了科学家们对人类全基因组测序15年后人类细胞中真实基因数量的怀疑,尽管最新数据显示,编码人类蛋白质的基因数量超过了2万个,但研究人员表示,我们的研究证据指出,人类机体中或许仅有19万个编码基因,但研究人员目前并不清楚这19万个基因到底是哪些。

研究者David Juan说道,让我们非常不可思议的是,一些看似非常罕见的基因已经被大量研究了,而且有超过100个科学出版物都基于这样的假设认为这些基因能够产生蛋白质;本文研究结果表明,人类基因组可能仍然存在很多不确定性,后期研究人员仍然需要对人类蛋白质组进行大量研究,因为其对于医学领域非常重要。

以上就是关于基因识别的识别方法全部的内容,包括:基因识别的识别方法、网上的生物信息学资源都有哪些、怎样在genbank基因库中找出我需要的基因序列啊等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9740359.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-01
下一篇 2023-05-01

发表评论

登录后才能评论

评论列表(0条)

保存