uniprot蛋白质序列数据库由哪几部分组成各有什么特点

uniprot蛋白质序列数据库由哪几部分组成各有什么特点,第1张

将PIR、SWISS-PROT和TrEMBL3个蛋白质数据库统一-起来组建而成,包含3个部分:

(1)

UniProt

Knowledgebase

(UniProtKB)

,这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;

(2)

UniRef

(

UniProt

Non-redundant

Reference

)

数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;

(3)

UniParc

(UniProt

Archive),是UniProt存档库

,

收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。

先来讲讲NCBI的。

用FTP登陆ftpncbinihgov(windows下可以直接打开或是用迅雷/Flastget等下载工具)。cd gene/DATA(windows下依次找到gene/DATA这个文件夹)。ls一下,里面的文件大概有:

ncftp /gene/DATA > ls

ASN_BINARY/ gene2sts gene_refseq_uniprotkb_collabgz

ASN_OLD/ gene2unigene go_processxml

gene2accessiongz gene_groupgz mim2gene

gene2gogz gene_historygz misc/

gene2pubmedgz GENE_INFO/ README

gene2refseqgz gene_infogz

下面主要解释一下一些常用的文件。

1,gene2accessiongz,这里面的数据比较多,包含有NCBI所有的accession。但主要有以下的:

tax_id GeneID nucleotide_accession nucleotide_gi protein_accession protein_gi

2,gene2gogz,主要是Gene与GO之间的一一对应。里面的数据主要有:

tax_id GeneID GO_ID GO_term

3702 814629 GO:0003676 ucleic acid binding

3,gene2pubmedgz,主要是Gene与Pubmed ID的一一对应。

tax_id GeneID PubMed_ID

9 1246500 9873079

4,gene2unigene,Gene与Unigene数据库的一一对应

GeneID UniGene_cluster

1268433 Aga201

5,gene2refseqgz,这个就不多讲。跟gene2accessiongz类似。不过其中的accession都是RefSeq数据库的。

6,gene_infogz,是NCBI的Gene数据库。包含有Gene的gene_name(Symbol),第几号染色体等。主要有:

tax_id GeneID Symbol chromosome description

大概就这些。如果你会用Linux,这些大批量的一一对应是非常简单的。在GO/EMBL/Uniprot等也有类似的批量对应。以后有需要有讲到。

简单的用C读取文件的例子代码片段。

FILE fp;

char buffer[1000];

fp=fopen( "inputtxt", "r" );

while ( fread(&buffer, sizeof(buffer), 1, fp )==1)

{

//对从文件读出来的数据在此处进行处理

}

fclose(fp);

the entry has been manually annotated and reviewed by UniProtKB curators or not, in other words, if the entry belongs to the Swiss-Prot section of UniProtKB (reviewed) or to the computer-annotated TrEMBL section (unreviewed)

以上就是关于uniprot蛋白质序列数据库由哪几部分组成各有什么特点全部的内容,包括:uniprot蛋白质序列数据库由哪几部分组成各有什么特点、如何在NCBI实现大批量数据的一一对应、在c语言中,如何提取一个txt数据库文件中的信息等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9427643.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存