uniprot蛋白质序列数据库由哪几部分组成各有什么特点_工具

将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成，包含3个部分:

(1)

UniProt

Knowledgebase

(UniProtKB)

，这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库，记录经过人工筛选和注释;

■

(2)

UniRef

(

UniProt

Non-redundant

Reference

)

数据库，将密切相关的蛋白质序列组合到一条记录中，以便提高搜索速度;目前，根据序列相似程度形成3个子库，即UniRef100、UniRef90和UniRef50;

■

(3)

UniParc

(UniProt

Archive)，是UniProt存档库

收录所有蛋白质序列。用户可以通过文本查询数据库，可以利用BLAST程序搜索数据库，也可以直接通过FTP下载数据。

先来讲讲NCBI的。

用FTP登陆ftpncbinihgov（windows下可以直接打开或是用迅雷/Flastget等下载工具）。cd gene/DATA（windows下依次找到gene/DATA这个文件夹）。ls一下，里面的文件大概有:

ncftp /gene/DATA > ls

ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collabgz

ASN_OLD/ gene2unigene go_processxml

gene2accessiongz gene_groupgz mim2gene

gene2gogz gene_historygz misc/

gene2pubmedgz GENE_INFO/ README

gene2refseqgz gene_infogz

下面主要解释一下一些常用的文件。

1，gene2accessiongz，这里面的数据比较多，包含有NCBI所有的accession。但主要有以下的：

tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi

2，gene2gogz，主要是Gene与GO之间的一一对应。里面的数据主要有：

tax_id GeneID GO_ID GO_term

3702 814629 GO:0003676 ucleic acid binding

3，gene2pubmedgz，主要是Gene与Pubmed ID的一一对应。

tax_id GeneID PubMed_ID

9 1246500 9873079

4，gene2unigene，Gene与Unigene数据库的一一对应

GeneID UniGene_cluster

1268433 Aga201

5，gene2refseqgz，这个就不多讲。跟gene2accessiongz类似。不过其中的accession都是RefSeq数据库的。

6，gene_infogz，是NCBI的Gene数据库。包含有Gene的gene_name(Symbol)，第几号染色体等。主要有：

tax_id GeneID Symbol chromosome description

大概就这些。如果你会用Linux，这些大批量的一一对应是非常简单的。在GO/EMBL/Uniprot等也有类似的批量对应。以后有需要有讲到。

简单的用C读取文件的例子代码片段。

FILE fp;

char buffer[1000];

fp=fopen( "inputtxt", "r" );

while ( fread(&buffer, sizeof(buffer), 1, fp )==1)

{

//对从文件读出来的数据在此处进行处理

}

fclose(fp);

the entry has been manually annotated and reviewed by UniProtKB curators or not, in other words, if the entry belongs to the Swiss-Prot section of UniProtKB (reviewed) or to the computer-annotated TrEMBL section (unreviewed)

以上就是关于uniprot蛋白质序列数据库由哪几部分组成各有什么特点全部的内容，包括:uniprot蛋白质序列数据库由哪几部分组成各有什么特点、如何在NCBI实现大批量数据的一一对应、在c语言中,如何提取一个txt数据库文件中的信息等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9427643.html

uniprot蛋白质序列数据库由哪几部分组成各有什么特点

发表评论

评论列表（0条）