三大国际生物资源数据库的重要性和意义_工具

三大国际生物资源数据库的重要性和意义

NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库

为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；

从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；

促进生物学研究人员和医护人员应用数据库和软件；

努力协作以获取世界范围内的生物技术信息。

一、名词解释：

1、生物信息学：生物分子信息的获取、存贮、分析和利用；以数学为基础，应用

计算机技术，研究生物学数据的科学。

2、相似性（similarity）：两个序列（核酸、蛋白质）间的相关性。

3、同源性（homology）：生物进化过程中源于同一祖先的分支之间的关系。

4、同一性（identity）：两个序列（核酸、蛋白质）间未发生变异序列的关系。

5、序列比对（alignment）：为确定两个或多个序列之间的相似性以至于同源性

，而将它们按照一定的规律排列。

6、生物数据库检索（database query，数据库查询）：对序列、结构以及各种二

次数据库中的注释信息进行关键词匹配查找。

7、生物数据库搜索（database search)：通过特定序列相似性比对算法，找出核

酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。

二、简答题：

1、分子生物学的三大核心数据库是什么？它们各有何特点？

GenBank核酸序列数据库；SWISS-PROT蛋白质序列数据库；PDB生物大分子结构数

据库；

2、简述生物信息学的发生和发展。

20世纪50年代，生物信息学开始孕育；

20世纪60年代，生物分子信息在概念上将计算生物学和计算机科学联系起来；

20世纪70年代，生物信息学的真正开端；

20世纪70年代到80年代初期，出现了一系列著名的序列比较方法和生物信息分析

方法；

20世纪80年代以后，出现一批生物信息服务机构和生物信息数据库；

20世纪90年代后，HGP促进生物信息学的迅速发展。

3、生物信息学的主要方法和技术是什么？

数学统计方法；动态规划方法；机器学习与模式识别技术；数据库技术及数据

挖掘；人工神经网络技术；专家系统；分子模型化技术；量子力学和分子力学

计算；生物分子的计算机模拟；因特网（Internet）技术

4、常见的DNA测序方法有哪些？各有何技术特点和优缺点？

Maxam-Gilbert DNA化学降解法：优点：可测完全未知序列及CG富含区；缺点： ***

作繁琐；

Sanger双脱氧链终止法：优点：简便，可测较长片段；缺点：需已知部分序列或

加接头；

焦磷酸测序：优点：廉价、高通量；缺点：一次测序片段短。

5、分子生物学数据库有哪些类型？各有何特点？

基因组数据库：基因组测序

核酸序列数据库：核酸序列测定

一次数据库：蛋白质序列数据库：蛋白质序列测定。生物大分子(蛋白质)三维结

构数据库：X-衍射和核磁共振

特点：数量少，容量大，更新快

二次数据库：上述四类数据库和文献资料为基础构建

特点：数量多，容量小，更新慢

6、简述NCBI Entrez系统的功能。

高级检索系统；查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、

突变数据、探针序列、单核苷酸多态性等数据。

7、简述NCBI BLAST的功能和种类。

序列相似性比对工具；

对核酸：普通blastn，对高度相似序列megablast；

对蛋白质：普通blastp，对保守域rpsblast；

对人工翻译序列：核酸翻译序列对蛋白质序列blastx，蛋白质对翻译序列tblastn

，核酸翻译序列对翻译序列tblastx；

其它：基因组blast，基因表达序列搜索GEO blast，序列两两比对……

8、举例说明生物信息学软件的应用。

9、生物芯片制作和分析过程中可以应用哪些生物信息学软件。

三、论述题：

1、什么是生物信息学？生物信息学有哪些主要应用领域？

生物分子信息的获取、存贮、分析和利用；以数学为基础，应用计算机技术，研

究生物学数据的科学。

生物分子数据的收集与管理；数据库搜索及序列比较；基因组序列分析；基因表

达数据的分析与处理；蛋白质结构预测。

2、生物信息学在医药领域有什么应用？

辅助诊断（遗传病，HLA分型）；

研究药物作用机制，辅助新药物开发和制造。

3、人类基因组计划中主要使用的那些生物信息学手段？它们对人类基因组计划发

挥了哪些重大作用？

单一测序结果判读；contig和chromosome拼接；识别基因区及其调控区；寻找基

因相互作用的时空关系；

4、试述蛋白质二级结构预测的主要策略和方法。

策略：

目标：判断每一段中心的残基是否处于a螺旋、b折叠、b转角（或其它状态）之一

的二级结构态，即三态。

a、理论分析法（从头计算法）：通过理论计算（分子力学、分子动力学等）进行

结构预测。优点：不需要经验数据，由一级结构推测高级结构

缺点：天然和未折叠蛋白间能级差很小 (kcal/mol)；蛋白质可能的构想空间庞大

，针对蛋白质折叠的计算量巨大；计算模型中力场参数不准确。

b、统计方法：对已知结构的蛋白质进行统计分析，建立序列到结构的映射模型，

进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。

经验性方法：根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构

的蛋白质进行统计分析，发现各种氨基酸形成不同二级结构的倾向，从而形成一

系列关于二级结构预测的规律。

结构规律提取方法：从蛋白质结构数据库中提取关于蛋白质结构形成的一般性

规律，指导建立未知结构的蛋白质模型。

同源模型化方法：通过同源序列分析或模式匹配，预测蛋白质的空间结构或结

构单元。

方法：

1、Chou-Fasman方法；（基于单个氨基酸残基统计的经验参数方法，由Chou 和

Fasman在20世纪70年代提出来。通过统计分析，获得每个残基出现于特定二级结

构构象的倾向性因子，进而利用这些倾向性因子预测蛋白质的二级结构。）2、

GOR方法；（是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连

串的信息值来处理；GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响，而

且考虑相邻残基种类对该位置构象的影响）3、基于氨基酸疏水性的方法；4、最

邻近方法；5、人工神经网络方法；6、综合方法：7、利用进化信息预测蛋白质的

类似于语义网络。是为了生物界有一个统一的数据交流语言。因为在生物学界，存在在种种同名异义、异议同名的现象。为此产生了GO项目。

GO是用一套统一的词汇表来描述生物学中的分子功能、生物过程和细胞成分。其思想大概过程：对于一个基因产品（蛋白质或RNA），用某些词汇来描述它是干什么的或位于细胞哪里、或者参与了哪个生物过程，而这些词汇就是来自GO的Term。

（1）提供生物学功能（术语）的逻辑结构及其相互之间的关系，表现为有向无环图

（2）给特定的基因产物（蛋白质，非编码RNA或大分子复合体，简称为'基因'）起一个特定的名字（唯一标识该基因）

Gene Ontology（GO）中最基本的概念是term。GO里面的每一个entry都有一个唯一的数字标记，形如GO:nnnnnnn，还有一个term名，比如"cell", "fibroblast growth factor receptor binding"，或者"signal transduction"。每个term都属于一个ontology，总共有三个ontology，它们分别是

细胞成分：细胞的部分或其细胞外环境;

分子功能：基因产物在分子水平上的元素活性，例如结合或催化;

生物过程：具有确定开始和结束的分子事件的 *** 作或集合，与综合生活单元的功能有关

理由一：

在基因表达谱分析中，GO常用于提供基因功能分类标签和基因功能研究的背景知识。利用GO的知识体系和结构特点，旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。

根据GO的知识体系，使用“功能类”（或者叫做“功能模块”）这一概念具有以下优点：我们认为，单个基因的表达情况的改变不足以反映特定功能/通路的整体变化情况。因为类似人类社会的组织结构，生物体的功能的实现决不仅仅是依靠一两个基因功能的改变来实现的。因此过分着重单个基因表达变化，将会在后期结果处理中严重干扰对于结果的合理分析，导致偏倚性加大，而且是无法避免的。因此利用GO的结构体系，把参与同样功能/通路的基因进行“功能类”层面的抽象和整合，提供比基因更高一层次的抽象结论，对理解疾病的发病机制或药物的作用机理等更有帮助。

但是该方法也存在一定的不足，由于生物体内部的调控网络可能具有“scale-free network”的特点，个别功能重要的基因（主效基因）具有“Hub节点”的重要特性，它的功能改变可能对于整个网络来说是至关重要的，在这点上，这些重要的基因又具有一定的“自私独裁”特点。而“功能类”之观点模糊了这种差别特性，过于强调“共性”，而忽视了“个性”，这也是“功能类”的一个不足之处，这就需要结合相关的生物学知识才能够实现

理由二：

GO（gene ontology）对大家而言也许会是一个相对陌生的名词，但是它已经成为生物信息领域中一个极为重要的方法和工具，并正在逐步改变着我们对 biological data的组织和理解方式，它的存在已经大大加快了我们对所拥有的生物数据的整合和利用，我们应该逐步学会理解和掌握这种思想和工具。

众所周知，sequence based biology中的核心内容即是对序列的Annotation（注释），其中主要包含structural annotation和functional annotation，前者涉及分析sequence在genome中的locus以及exon，intron，promoter等的location，而后者则是推断序列编码产物的功能

随着多种生物genome的相继解码，同时大量ESTs以及gene expression profile date的积累，使得annotation的工作量和复杂度大大增加。然而另一方面，大多数基因在不同真核生物中拥有共同的主要生物功能，通过在某些物种中获得的基因或者蛋白质（shared protein）的生物学信息，可以用以解释其他物种中对应的基因或蛋白（especially in comparative genomics）。由于这些繁复的功能信息主要是包含在积累的文献之中，如何有效的提取和综合这些信息就是我们面临的核心困难，这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集（controlled vocabulary），来解释真核基因及蛋白在细胞内所扮演的角色，并随着生命科学研究的进步，不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称，通过制定“本体”ontologies并运用统计学方法及自然语言处理技术，可以实现知识管理的专家系统控制

总结：

Gene Ontology（GO）包含了基因参与的生物过程，所处的细胞位置，发挥的分子功能三方面功能信息，并将概念粗细不同的功能概念组织成DAG（有向无环图）的结构。

Gene Ontology是一个使用有控制的词汇表和严格定义的概念关系，以有向无环图的形式统一表示各物种的基因功能分类体系，从而较全面地概括了基因的功能信息，纠正了传统功能分类体系中常见的维度混淆问题。

原文： >

以上就是关于三大国际生物资源数据库的重要性和意义全部的内容，包括:三大国际生物资源数据库的重要性和意义、生物学分支学科特点互联网上生物学信息资源类型和特点生物学信息数据库特点、GO数据库介绍（转载）等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9716740.html

三大国际生物资源数据库的重要性和意义

发表评论

评论列表（0条）