SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立
了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。SWISS-PROT数据库包含了EMBL核酸序列数据库中被经过仔细检查和准确注释了
的蛋白质序列,一般地,任何蛋白质序列数据的搜寻和比较都应从SWISS-PROT开始。
SWISS-PROT蛋白质序列数据由大量序列条目组成,每一个序列条目
有其自己的格式。为了标准化的目的,SWISS-PROT的格式与EMBL核酸序列数据库的格式尽可能类似。SWISS-PROT涉及已知蛋白质的序列、
引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关
系、序列变异体和冲突等信息。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序
获得的蛋白质序列,序列提交可以在其Web页面上完成。
根据需要从一级数据库中搜集对象的相关数据集合而成的就是二级数据库。像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库。如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)