生物信息(bioinformatics)中的“信息(-informatics)”指的是从海量的数据中进行挖掘,从而得到知识的过程,如下图所示。在这个过程中,会涉及到数据的管理,数据的运算,数据挖掘和建模仿真。其中,数据管理部分主要是数据库(database),数据的运算部分主要是指各种生物信息的软件(software tools)。这两部分是生物信息研究非常重要的资源,也是生信入门需要了解的基础知识。下面简要介绍一下这些资源。(本文根据北京大学生物信息学公开课程视频整理,图片来自视频截图)
根据不同的特点,可以把这些资源分成不同的类别。比如根据数据性质可以将database分为原始数据(Original data)数据库和二级数据(Secondary data)数据库。再比如根据软件是独立的工具还是网络服务器,可以将software tools分为standalone programs和web servers。
根据发布者的类别可以分为centralized resources和individual resources。比较大的centralized resources主要有NCBI(National Center for Biotechnology Information), EBI(European Bioinformatics Institute)和UCSC(University of California Santa Cruz)Genome Browser。下面将分别介绍这三个最大的数据库以及其他的生物信息学数据资源。
1.NCBI简介
NCBI-Genome Database:
存储了目前绝大多数的被测序出来的基因组,目前有1000+基因组被测序出来。
NCBI-Nucleotide/protein (RefSeq):
将不同的版本作了整合之后的参考序列。其中NM_*表示核酸序列,NP_*表示蛋白序列。其中核酸给出了ID号,名称,物种,特征,编码区,序列等信息。蛋白还给出了功能区间信息。
NCBI-Gene:
以基因为单位,整合了pathway、variations、phenotype等信息。
对于Human genes而言,GeneCards比NCBI有更好的对人类基因、蛋白的注释(表达、相互作用、同源蛋白、功能、遗传变异等)。
NCBI-SRA
新一代测序技术的短序列database,每5个月数据就会翻倍。
NCBI-Taxonomy
把所有至少有一个基因被测序过的物种做的物种分类树,在所有被描述过的物种中有10%被测序过。
NCBI-PubMed
用于查阅文献。
NCBI-MeSH
(Medical Subject Heading)controlled vocabulary used for indexing articles for PubMed 结构化的词库。
NCBI-My NCBI
对于感兴趣的关键词,在NBCI设定之后,每周会推送相关文献,对于项目中跟踪文献非常有用。
NCBI-BLAST
NCBI最著名的工具,关于BLAST的两篇文章已经被引用了四万两千多次。不同版本的BLAST包括:
Online:NCBI-BLAST
Standalone:BLAST+
Embedded in webpage:wwwblast
2. EBI简介
EBI中的一些资源如表中所示:
EBI-Ensembl:
介于NCBI和UCSC之间的资源,整合很多物种的不同的资源。Ensembl中数量的类型包括:
EBI-UniProtKB
The Universal Protein Resource (UniProt) is a comprehensive resource for protein sequence and annotation data.
(The UniProt Knowledgebase (UniProtKB) is the central hub for the collection of functional information on proteins, with accurate, consistent and rich annotation. )
UniProtKB -Swiss-Prot(已经过人工校对)
UniProtKB -TrEMBL(无人工校对)
EBI-IntAct
分子之间相互作用
EBI-Clustal Omega
多序列比对
EBI-InterProScan
输入一个序列,看是否包含目前已经知道功能的蛋白的区域
3 UCSC简介
以基因组为坐标。包含很多的track,包括:SNP,mRNA,剪切的EST,没剪切的EST,高通量的,通过Chi
1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库,可在这里下载。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。
PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。
2. SWISS-PROT
SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。
利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。
3. PROSITE
PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。
4. PDB
蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。
5. SCOP
蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。
6. COG
蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)