像genebank,EMBL这种都是不加选择的一级数据库,只要是实验获得的,不管什么东西的序列,哪怕是不完整的序列都能上传,而且它们的数据也有可能有重复。如果有某个人专门研究细菌的鉴定,需要用到正式被认可的16srDNA序列,为了研究方便,把这些一级数据库的各个种类细菌的公认标准16srDNA序列的数据进行整理,重新构建了一个数据库,这就是所谓的二级数据库。如果不构建,直接用一级数据库做blast,就会得出很多未被承认甚至不完整的序列,还要人工一个个看过去,找出公认的标准序列,这样就很麻烦。我举得例子在现实中就是韩国的EzTaxon。
按大小可以分为1.公共数据库2. 从公共数据库中取数据做进一步处理的专业数据库,提供更多的分析工具
按功能分可以有
基因库GENEBANK,蛋白库UNIPROT, 结构库PDB, 功能分类 GO库,通路库 KEGG。
不用专注于4这个数字。随着科研的进步还会有更多的数据库出来。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)