网上的生物信息学资源都有哪些_工具

生物信息资源简介

生物信息（bioinformatics）中的“信息（-informatics）”指的是从海量的数据中进行挖掘，从而得到知识的过程，如下图所示。在这个过程中，会涉及到数据的管理，数据的运算，数据挖掘和建模仿真。其中，数据管理部分主要是数据库（database），数据的运算部分主要是指各种生物信息的软件（software tools）。这两部分是生物信息研究非常重要的资源，也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。（本文根据北京大学生物信息学公开课程视频整理，来自视频截图）

根据不同的特点，可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据（Original data）数据库和二级数据（Secondary data）数据库。再比如根据软件是独立的工具还是网络服务器，可以将software tools分为standalone programs和web servers。

根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI（National Center for Biotechnology Information）， EBI（European Bioinformatics Institute）和UCSC（University of California Santa Cruz）Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。

1．NCBI简介

NCBI-Genome Database：

存储了目前绝大多数的被测序出来的基因组，目前有1000+基因组被测序出来。

NCBI-Nucleotide/protein (RefSeq):

将不同的版本作了整合之后的参考序列。其中NM_表示核酸序列，NP_表示蛋白序列。其中核酸给出了ID号，名称，物种，特征，编码区，序列等信息。蛋白还给出了功能区间信息。

NCBI-Gene：

以基因为单位，整合了pathway、variations、phenotype等信息。

对于Human genes而言，GeneCards比NCBI有更好的对人类基因、蛋白的注释（表达、相互作用、同源蛋白、功能、遗传变异等）。

NCBI-SRA

新一代测序技术的短序列database，每5个月数据就会翻倍。

NCBI-Taxonomy

把所有至少有一个基因被测序过的物种做的物种分类树，在所有被描述过的物种中有10%被测序过。

NCBI-PubMed

用于查阅文献。

NCBI-MeSH

（Medical Subject Heading）controlled vocabulary used for indexing articles for PubMed 结构化的词库。

NCBI-My NCBI

对于感兴趣的关键词，在NBCI设定之后，每周会推送相关文献，对于项目中跟踪文献非常有用。

NCBI-BLAST

NCBI最著名的工具，关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括：

Online：NCBI-BLAST

Standalone：BLAST+

Embedded in webpage：>

去年年末，人工智能研究实验室DeepMind的AlphaFold在国际蛋白质结构预测竞赛（CASP）上一骑绝尘，首次将蛋白三维结构预测的分数提升至90分。不到8个月后，DeepMind又为生物学界带来了两个重磅消息。7月15日，他们在《自然》杂志上发布了关于AlphaFold算法的新论文，实现了原子层面上的蛋白质结构精确预测。仅仅一周之后，他们又和欧洲生物信息学研究所（EMBL-EBI）合作发表了一篇《自然》论文。这次，他们想要完成的是一个更大的目标——破解人类蛋白组中所有蛋白质的三维结构。

从人类首次解析出构成蛋白质的氨基酸序列，到如今可以模拟和解析人体蛋白组中绝大多数蛋白的三维结果，科学家已努力了超过70年。1949年，英国生物化学家弗雷德里克·桑格（Frederick Sanger）通过水解胰岛素，首次确定了组成牛胰岛素的氨基酸序列，这也是人类确定的首个蛋白质的氨基酸序列。这些氨基酸序列是牛胰岛素的一级结构，如果我们只按照这个序列合成胰岛素，得到的产物不会有活性。氨基酸序列需要通过数步折叠过程，形成复杂的3级结构后，才能成为具有功能的蛋白质。

1965年，中国科学家首次解析出胰岛素的精确结构，人工合成出了具有活性的胰岛素。在人类的蛋白组中，胰岛素是一种结构简单的小型蛋白质，它含有两条肽链，有51个氨基酸。对人类等真核生物来说，一个蛋白质中平均含有400多个氨基酸残基，其中绝大部分蛋白质的空间结构远比胰岛素复杂。

人类基因组草图公布后，科学界对蛋白质的研究进入了快车道。经过数十年的努力，研究人员通过解析蛋白质的氨基酸序列、提取纯净和高质量的蛋白质，再加上冷冻电子显微镜的应用，至今已经解析出了超过5万个人源蛋白质的三维结构。无疑，我们获得蛋白三维结构的速度正在不断变快。

不过，实验解析蛋白质也受到诸多限制。由于这一过程过于繁琐，且稍有不慎就无法获得较好的蛋白质空间结构，因此仍有大量人源蛋白质结构有待破解。与此同时，一些科学家开始尝试另一种工具——借助人工智能（AI）技术来预测蛋白的空间结构。

1994年，计算生物学家约翰·莫尔特（John Moult）等人创立了CASP比赛，让AI加入到蛋白质三维结构的研究中。不过在此之后的20多年中，各个AI实验室在这项比赛中的始终缺乏实质性突破。直到DeepMind的加入，彻底改变了这一局面。

2020年，DeepMind开发的一款蛋白质三维结构预测算法“AlphaFold”一举夺得了当年CASP比赛的最高分（GDT分数为90分），比第二名的分数高出了15%。GDT分数主要用来评估算法预测三维结构中氨基酸的位置与实际空间结构的差距，分数越高，预测越准。当时AlphaFold就像是一枚投在生物学界的炸d，当时《自然》《科学》等相继发文，强调了这是人工智能的一次重大胜利。

在细胞中，蛋白质的折叠过程需要分子蛋白或辅助蛋白的帮助。而我们能看到的是，一些氨基酸序列通过一系列变化，形成了一个具有三维结构和活性的蛋白质。在蛋白质中，具有相同特性的氨基酸通过特殊的共价键（例如二硫键）聚集到一起，形成一些特定的螺旋结构，比化学键更加微弱的分子间作用力维系着蛋白质的三维结构。

但是，依靠这些理论还远远不足以准确预测蛋白质的三维结构，这也是很多参与CASP比赛的算法分数不高的原因。在今年7月15日一项公布于《自然》的论文中，DeepMind的研究团队详细介绍了AlphaFold成功的原因。这一算法采取了多序列比对和一种新型的神经网络架构，将重点放在一些关键的氨基酸上。此外，这一算法还纳入了结构模块（Structure Module），用于评估预测的蛋白质结构的每个氨基酸残基与其真实位点的差异。DeepMind的研究团队还强调，AlphaFold是首个在不知道相似蛋白的结构时，也可以在原子层面上精确预测蛋白质结构的算法。

昨日，在发表于《自然》期刊的一项研究中，他们和EMBL-EBI合作利用AlphaFold做出了一项更有突破性和实用性的研究—— 直接对人类蛋白组中985%的蛋白质完整三维的结构进行了预测 。根据他们的估计，虽然蛋白质资料库（PDB）中公布的人源蛋白质三维结构占到了目前人类蛋白组的35%，但是很多蛋白质的空间结构并不完整。实际上，完整的三维蛋白质结构只占17%。

类似于CASP比赛中的GDT分数，研究人员也为AlphaFold设置了一个可以评估预测可信度的数值—— pLDDT （每个残基位点的可信度测评，per-residue confidence metric）。当pLDDT值大于90，表示对蛋白质中某个氨基酸残基位置的预测具有很高的可信度；当pLDDT值大于70，表明预测结果是基本准确的。

在对人体蛋白质组三维结构的预测中， AlphaFold精确预测了357%的氨基酸残基的位点，基本准确地预测了580%的氨基酸的位点。 在蛋白质水平上，这一算法也能较为准确地预测人类蛋白组中438%的蛋白质至少3/4序列的空间结构。在1290个没有没有参考结构的蛋白质中，AlphaFold能较为准确预测每个蛋白中近200个氨基酸残基的空间结构（pLDDT 70）。

在这次实验中，AlphaFold还 准确预测出由于许多和药物靶点相关的酶和膜蛋白的三维结构 。由于膜蛋白的结构复杂，一直以来，通过实验方法来解析这类蛋白的结构都极具挑战性。除此之外，AlphaFold还能较为准确地预测出此前没有接受过训练或不熟悉的蛋白质的三维结构。

除了人源的蛋白质，他们还利用AlphaFold对其他20种模式生物（包括小鼠、玉米和疟原虫）蛋白组中的蛋白进行了预测。根据《自然》官网的消息，这些预测的蛋白质三维结构数据已通过EMBL-EBI托管的公用数据库免费向公众开放， 目前有近365万个蛋白质结构已在该数据库中发布 ，而到今年年底，这一数值有望增长到13亿。DeepMind和EMBL-EBI的研究人员强调，目前这部分工作还只是一个开始。他们想要进一步验证这些预测的结果，更重要的是，将它们应用到迄今为止不可能实现的实验中。

近70年来，解析蛋白质的空间结构一直是一项极具科学意义的难题。如果基因组是一个“指令官”，那么蛋白质就是基因功能的“执行者”，可以说蛋白质几乎参与人体内所有的生理过程和疾病过程。如果我们能掌握蛋白质的精确结构，就像解析了一把精密的锁的内部结构。对于人类来说，也更容易开发出一把甚至多把能打开这些“锁”的钥匙，而这将会改变我们在分子水平上对自身的认知，治疗现今绝大多数的人类疾病。

DeepMind联合创始人兼首席执行官杰米斯·哈萨比斯（Demis Hassabis）认为，这是人工智能系统迄今为止对推进科学发展作出的最大贡献。此外，对于一些AlphaFold无法准确预测的蛋白结构，一些科学家也发表了自己的见解。一部分人认为，在人类等真核生物中，相当一部分蛋白质区域本身就是无序的，这或许是为了与其他的蛋白分子相互作用，也可能还有一些我们还不知道的作用。

值得一提的是，在《自然》于上周发表AlphaFold论文的次日，《科学》杂志也公布了另一项蛋白质预测算法——RoseTTAFold。这个算法由华盛顿大学医学院蛋白质设计研究所和哈佛大学、剑桥大学等机构联合开发。它采用和AlphaFold2不同的深度学习算法，但具有AlphaFold2可媲美的超高准确率，而且速度更快、对计算机处理能力的需求也较少，能在短短的10分钟内计算出一个蛋白的结构。目前，研究人员正在用这一算法研究一些和人类健康直接相关的蛋白质的结构。

这两项算法的出现无疑标志着在结构生物学领域，AI的时代已经到来。

撰文 | 石云雷

审校 | 吴非

参考链接：

以上就是关于网上的生物信息学资源都有哪些全部的内容，包括:网上的生物信息学资源都有哪些、求：一些好的有关于自然科学的英文网站！、这个困扰了科学家70年的难题，现在被AI解决了等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/sjk/9543705.html

网上的生物信息学资源都有哪些

发表评论

评论列表（0条）