什么是生物信息学中的二级数据库

什么是生物信息学中的二级数据库,第1张

根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库。

像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库。如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。

一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:

打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。

二、结果:

输出序列长度918bp,

载体序列的区域456bp——854bp

克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。

2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。

一、步骤:

进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。

进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择

Annotation File :RM2sequpload_1287631711outhtml

3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:

进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!

二、结果:

CpG岛的长度:385bp

区域:48——432;

GC数量:Sum C+G=297,百分数=7714

Obs/Exp:101

4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:

进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的

进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!

二、结果:

位置:711—761 ,1388—1438,1755—1805;

5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:

进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的

进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!

二、结果:

供体:

受体:

6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:

进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的

进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!

二、结果:ORF图

三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!

四、结果:

G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。

一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!

在MboI中选择第一个,EcoI选择第二个。

二、结果:

ENSCAN图

8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。

二、结果:

GC含量:

引物的位点:

Tm值:

产物长度:。

9、将下面的序列用NEBcutter 20工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求14% agarose和Marker为100bp DNA Ladder。

一、步骤:

进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。

进入google首页,搜索NEBcutter 20,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择14% agarose和Marker为100bp。

二、结果:

然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物

NCBI((>

什么时候需要利用生物信息学获取核酸序列信息

1序列比对

序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。

序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。

2数据库搜索

随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。

分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。

3基因组序列分析

基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA序列的,建立快速而又准确的DNA序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的治疗提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。

4蛋白质结构预测

蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。

蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST、FASTA、CLUSTALW产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。

在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。

蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。

图41 蛋白质结构

目前,已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量,并且这种差距会随着DNA序列分析技术和基因识别方法的进步越来越大,人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度,这就需要对蛋白质结构预测发展新的理论分析方法,目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状,蛋白质的结构预测被认为是当代计算机科学要解决的最重要的问题之一,因此蛋白质结构预测的算法在分子生物学中显得尤为重要。

5结束语

现如今计算机的发展已渗透到各个领域,生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成,因此随着现代科技的发展,生物技术与计算机信息技术的融合已成为大势所趋。生物学研究过程中产生的海量数据需要强有力的数据处理分析工具,这样计算机科学技术就成为了生物科学家的必然选择,虽然人们已经利用计算机技术解决了很多生物学上的难题,但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。

深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。

国家基因库项目一期占地面积475万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。

图1 位于深圳市大鹏新区的国家基因库一期项目

“干”“湿”“活”三位一体

在我国建立基因库之前,美国、欧洲和日本就已经建立了大型基因数据库,而且这三大库里的生物信息数据几乎涵盖所有已知的脱氧核糖核酸、核糖核酸和蛋白质数据。中国国家基因库与这三大库的不同就在于,它不仅仅是数据库,而是国际上现有的各类生物样本库、数据库、生物多样性库、疾病库等的综合升级版。除了所谓的“干库”,——基因、蛋白、分子、影像等多组学生物信息数据库,和“湿库”——多样性生物样本和物种遗传资源库之外,中国的国家基因库还引入了“活库”,也就是生物活体库,将存储的内容扩展到动物资源、植物资源、微生物资源和海洋资源。同时,该基因库不仅面向科研,还面向推动中国精准医学、精准农业的发展,利用对基因信息的掌控推动产业的发展。

图2 国家基因库中的生物信息数据库

基因的“国库”

2011年,国家发改委等4部委批复同意深圳依托华大基因研究院组建国家基因库,今年9月,国家基因库正式投入运营,这是中国首个获批筹建的国家基因库,同时也是目前为止的唯一一个。

国家基因库有“超测”、“超算”、“超存”的能力:其中,人类资源方面基因库主要保存血液样本、组织样本、细胞系、细胞和尿液等,将为重大疾病的前瞻性研究提供样本资源支撑,为疾病诊断与预测及个性化医疗等奠定基础。在动物资源方面,基因库主要保存珍稀动物及具有重要经济价值的动物组织、细胞等。此外,国家基因库除了存储人类资源、动物资源以外,还存储植物资源、海洋资源和微生物资源。这些都可以为日后的研究工作收集大量的信息。这个建设中的基因“国库”,数据规模到底有多大?打个形象化的比方,目前深圳国家基因库已建成20 Pb数据的可访问能力,以一部**约500Mb计算,20Pb相当于四千万部**,一个人一天看一部**,至少需要10万年才能看完。

存储健康的“生命银行”

2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目——— 精准医疗计划。更有专家表示,精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。科学家们认为,绝大多数的疾病都可以通过基因测序得以提前防范和管理。那么,基因测序究竟如何“锁定”疾病?以一个形象化的比喻来解释,一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。通过测序结果,分析基因突变的部分,就能够找到某个疾病对应的基因,方便对症下药。事实上,每个人一生中所有关键阶段的标本都应该永久保存起来:比如出生时的干细胞,20岁时的免疫细胞,30岁时的生殖细胞等等……而国家基因库,就是储存这些样本和数据的地方,它就像是人类的“生命银行”一般。通过有意识地存储自己的健康数据,让人们对自己身体变化状况了如指掌,并且根据这些数据设计自己的饮食、运动和生活节奏,“对抗”衰老。

深圳国家基因库建成后,这个巨型“生命银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。

图3 国家基因库的工作人员将细胞样品放入液氮中保存

在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。国家基因库的成立,正在为我国积累全新的优势。目前,国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系,将在人类健康、生物多样性、生物进化机制等方面开展合作研究。

出品:科普中国

制作:爱科范儿团队

监制:中国科学院计算机网络信息中心

“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。

本文由科普中国融合创作出品,转载请注明出处。

Pubmed

Pubmed是由美国国立生物技术信息中心(NCBI)开发的用于检索MEDLINE和Pre-MEDLINE数据库的网上检索系统,是一个免费的搜索引擎,收录全面,是生物医学最重要的重要数据库

Embase

它是一个收费的数据库,涉及药物研究、药理学、制药学、药剂学、药物副作用、药物相互作用及毒性、临床及实验医学、基础生物医学和生物工程学等

Cochrane图书馆

它是获取循证医学证据的重要检索系统

CBM(中国生物医学文献数据库)

生物信息资源简介

生物信息(bioinformatics)中的“信息(-informatics)”指的是从海量的数据中进行挖掘,从而得到知识的过程,如下图所示。在这个过程中,会涉及到数据的管理,数据的运算,数据挖掘和建模仿真。其中,数据管理部分主要是数据库(database),数据的运算部分主要是指各种生物信息的软件(software tools)。这两部分是生物信息研究非常重要的资源,也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。(本文根据北京大学生物信息学公开课程视频整理,来自视频截图)

根据不同的特点,可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据(Original data)数据库和二级数据(Secondary data)数据库。再比如根据软件是独立的工具还是网络服务器,可以将software tools分为standalone programs和web servers。

根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。

1.NCBI简介

NCBI-Genome Database:

存储了目前绝大多数的被测序出来的基因组,目前有1000+基因组被测序出来。

NCBI-Nucleotide/protein (RefSeq):

将不同的版本作了整合之后的参考序列。其中NM_表示核酸序列,NP_表示蛋白序列。其中核酸给出了ID号,名称,物种,特征,编码区,序列等信息。蛋白还给出了功能区间信息。

NCBI-Gene:

以基因为单位,整合了pathway、variations、phenotype等信息。

对于Human genes而言,GeneCards比NCBI有更好的对人类基因、蛋白的注释(表达、相互作用、同源蛋白、功能、遗传变异等)。

NCBI-SRA

新一代测序技术的短序列database,每5个月数据就会翻倍。

NCBI-Taxonomy

把所有至少有一个基因被测序过的物种做的物种分类树,在所有被描述过的物种中有10%被测序过。

NCBI-PubMed

用于查阅文献。

NCBI-MeSH

(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 结构化的词库。

NCBI-My NCBI

对于感兴趣的关键词,在NBCI设定之后,每周会推送相关文献,对于项目中跟踪文献非常有用。

NCBI-BLAST

NCBI最著名的工具,关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括:

Online:NCBI-BLAST

Standalone:BLAST+

Embedded in webpage:>

中文名称:基因库 英文名称:gene pool;gene bank;GenBank

定义1:一定时间内一个物种全部个体所拥有的全部基因。 所属学科:生态学(一级学科);进化生态学(二级学科)

定义2:在一个物种群体中,能产生正常配子的全部个体所含有的各种基因的集合。 所属学科:水产学(一级学科);水产生物育种学(二级学科)

定义3:美国、欧洲和日本等国家的生物技术信息研究中心保存的DNA序列数据库。 所属学科:细胞生物学(一级学科);细胞遗传(二级学科)

定义4:有性生殖生物的一个群体中,能进行生殖的所有个体所携带的全部基因或遗传信息。 所属学科:遗传学(一级学科);群体、数量遗传学(二级学科)

定义5:一个物种或种群所有等位基因的总和就是该物种或种群的基因库。 所属学科:资源科技(一级学科);动物资源学(二级学科)

以上就是关于什么是生物信息学中的二级数据库全部的内容,包括:什么是生物信息学中的二级数据库、列举常用的生物信息学数据库及序列对比常用软件及特点、什么时候需要利用生物信息学获取核酸序列信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9323009.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存