将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:
(1)
UniProt
Knowledgebase
(UniProtKB)
,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;
■
(2)
UniRef
(
UniProt
Non-redundant
Reference
)
数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;
■
(3)
UniParc
(UniProt
Archive),是UniProt存档库
,
收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
先来讲讲NCBI的。
用FTP登陆ftpncbinihgov(windows下可以直接打开或是用迅雷/Flastget等下载工具)。cd gene/DATA(windows下依次找到gene/DATA这个文件夹)。ls一下,里面的文件大概有:
ncftp /gene/DATA > ls
ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collabgz
ASN_OLD/ gene2unigene go_processxml
gene2accessiongz gene_groupgz mim2gene
gene2gogz gene_historygz misc/
gene2pubmedgz GENE_INFO/ README
gene2refseqgz gene_infogz
下面主要解释一下一些常用的文件。
1,gene2accessiongz,这里面的数据比较多,包含有NCBI所有的accession。但主要有以下的:
tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi
2,gene2gogz,主要是Gene与GO之间的一一对应。里面的数据主要有:
tax_id GeneID GO_ID GO_term
3702 814629 GO:0003676 ucleic acid binding
3,gene2pubmedgz,主要是Gene与Pubmed ID的一一对应。
tax_id GeneID PubMed_ID
9 1246500 9873079
4,gene2unigene,Gene与Unigene数据库的一一对应
GeneID UniGene_cluster
1268433 Aga201
5,gene2refseqgz,这个就不多讲。跟gene2accessiongz类似。不过其中的accession都是RefSeq数据库的。
6,gene_infogz,是NCBI的Gene数据库。包含有Gene的gene_name(Symbol),第几号染色体等。主要有:
tax_id GeneID Symbol chromosome description
大概就这些。如果你会用Linux,这些大批量的一一对应是非常简单的。在GO/EMBL/Uniprot等也有类似的批量对应。以后有需要有讲到。
简单的用C读取文件的例子代码片段。
FILE fp;
char buffer[1000];
fp=fopen( "inputtxt", "r" );
while ( fread(&buffer, sizeof(buffer), 1, fp )==1)
{
//对从文件读出来的数据在此处进行处理
}
fclose(fp);
the entry has been manually annotated and reviewed by UniProtKB curators or not, in other words, if the entry belongs to the Swiss-Prot section of UniProtKB (reviewed) or to the computer-annotated TrEMBL section (unreviewed)
以上就是关于uniprot蛋白质序列数据库由哪几部分组成各有什么特点全部的内容,包括:uniprot蛋白质序列数据库由哪几部分组成各有什么特点、如何在NCBI实现大批量数据的一一对应、在c语言中,如何提取一个txt数据库文件中的信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)