蛋白质数据库介绍
蛋白质数据库
1 PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
PIR和PSD的网址是:>
深圳市大鹏新区大鹏街道下沙片区禾塘仔,这里依山傍海,环境优美,背山面海的几栋白色的建筑并不起眼,但令人难以置信的是,庞大的数据如同螺旋一般,每天从这里源源不断地涌出。这些白色的梯田造型的建筑就是中国首个获批筹建的国家基因库,也是目前全球最大的综合性基因库。
国家基因库项目一期占地面积475万平方米,拥有基因测序房、超级计算房以及冷冻资源房,相较于其庞大的建筑规模,它丰富的内容更是令人瞠目结舌:国家基因库目前已存储多种生物资源样本1000万份,可检索生物信息条目数已经超过一个亿,我国更是计划把它打造成为中国的诺亚方舟,建立一个巨大的生物活体库,保护和保存世界约三十万种植物、百万种动物、近千万种微生物活体资源。如此大手笔、高规格的项目究竟什么来头?建立国家基因库的意义何在?下面就让我们一起走进关于国家基因库的专业解读。
图1 位于深圳市大鹏新区的国家基因库一期项目
“干”“湿”“活”三位一体
在我国建立基因库之前,美国、欧洲和日本就已经建立了大型基因数据库,而且这三大库里的生物信息数据几乎涵盖所有已知的脱氧核糖核酸、核糖核酸和蛋白质数据。中国国家基因库与这三大库的不同就在于,它不仅仅是数据库,而是国际上现有的各类生物样本库、数据库、生物多样性库、疾病库等的综合升级版。除了所谓的“干库”,——基因、蛋白、分子、影像等多组学生物信息数据库,和“湿库”——多样性生物样本和物种遗传资源库之外,中国的国家基因库还引入了“活库”,也就是生物活体库,将存储的内容扩展到动物资源、植物资源、微生物资源和海洋资源。同时,该基因库不仅面向科研,还面向推动中国精准医学、精准农业的发展,利用对基因信息的掌控推动产业的发展。
图2 国家基因库中的生物信息数据库
基因的“国库”
2011年,国家发改委等4部委批复同意深圳依托华大基因研究院组建国家基因库,今年9月,国家基因库正式投入运营,这是中国首个获批筹建的国家基因库,同时也是目前为止的唯一一个。
国家基因库有“超测”、“超算”、“超存”的能力:其中,人类资源方面基因库主要保存血液样本、组织样本、细胞系、细胞和尿液等,将为重大疾病的前瞻性研究提供样本资源支撑,为疾病诊断与预测及个性化医疗等奠定基础。在动物资源方面,基因库主要保存珍稀动物及具有重要经济价值的动物组织、细胞等。此外,国家基因库除了存储人类资源、动物资源以外,还存储植物资源、海洋资源和微生物资源。这些都可以为日后的研究工作收集大量的信息。这个建设中的基因“国库”,数据规模到底有多大?打个形象化的比方,目前深圳国家基因库已建成20 Pb数据的可访问能力,以一部**约500Mb计算,20Pb相当于四千万部**,一个人一天看一部**,至少需要10万年才能看完。
存储健康的“生命银行”
2015年1月,美国总统奥巴马在国情咨文演讲中谈到“人类基因组计划”所取得的成果,并宣布新的项目——— 精准医疗计划。更有专家表示,精准医疗计划在时间上是承接人类基因组计划,在本质上是对现行的以药物治疗为主体的医疗进行改革。科学家们认为,绝大多数的疾病都可以通过基因测序得以提前防范和管理。那么,基因测序究竟如何“锁定”疾病?以一个形象化的比喻来解释,一个D N A的正常表达可以理解为一段文字,如果该文字中出现一个错别字,可能就失去其正确意义。测序就是要与正常序列比对,找出哪个细胞哪里出错。通过测序结果,分析基因突变的部分,就能够找到某个疾病对应的基因,方便对症下药。事实上,每个人一生中所有关键阶段的标本都应该永久保存起来:比如出生时的干细胞,20岁时的免疫细胞,30岁时的生殖细胞等等……而国家基因库,就是储存这些样本和数据的地方,它就像是人类的“生命银行”一般。通过有意识地存储自己的健康数据,让人们对自己身体变化状况了如指掌,并且根据这些数据设计自己的饮食、运动和生活节奏,“对抗”衰老。
深圳国家基因库建成后,这个巨型“生命银行”将为中国生命科学研究和生物产业发展提供基础性和支撑性服务平台,储存和管理中国特有的遗传资源、生物信息和基因数据。同时,以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。
图3 国家基因库的工作人员将细胞样品放入液氮中保存
在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。国家基因库的成立,正在为我国积累全新的优势。目前,国家基因库已与联合国粮食及农业组织、国际农业研究磋商小组、国际生物及环境样本库协会、挪威斯瓦尔巴全球种子库、美国自然历史博物馆等100多个组织和科研机构建立战略合作关系,将在人类健康、生物多样性、生物进化机制等方面开展合作研究。
出品:科普中国
制作:爱科范儿团队
监制:中国科学院计算机网络信息中心
“科普中国”是中国科协携同社会各方利用信息化手段开展科学传播的科学权威品牌。
本文由科普中国融合创作出品,转载请注明出处。
以上就是关于蛋白序列、结构数据库常用的有哪些全部的内容,包括:蛋白序列、结构数据库常用的有哪些、网上的生物信息学资源都有哪些、国家基因库:人类存储健康信息的“生命银行”等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)