如何收集一个物种的所有蛋白质序列到一个FASTA文件里

如何收集一个物种的所有蛋白质序列到一个FASTA文件里,第1张

如何收集一个物种的所有蛋白质序列到一个FASTA文件里

不可以能的。一个物种所包含的蛋白质有多少种?NCBI中储存的数据是按照单个蛋白质序列贮存的,而且都只是序列,NCBI不是二级结构数据库,要找二级结构去PDB找,在说了,就算你找到了所有的某个物种的所有蛋白质序列,您也基本上不可能找到所有对应的二级结构,因为PDB中已经测定的二级结构于NCBI已经测序的序列,那简直就相差太多了。二级结构目前已经准确则需的大概13W中蛋白质,而NCBI中的序列数据的一个月增长速度也许都要比这个高。所以LZ所说的基本上是不可能的,主要是二级结构

hmmer下载与安装

对于Mac OS/X, Linux, UNIX系统,用源代码编译安装:

% wget ftp://selabjaneliaorg/pub/software/hmmer3/30/hmmer-30targz % tar zxf hmmer-30targz % cd hmmer-30 % /configure % make % make check

windows系统,直接下载二进制压缩包,解压就可以使用。

hmmer包含的程序

phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;

> phmmer tutorial/HBB HUMAN uniprot sprotfa

jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;

> jackhmmer tutorial/HBB HUMAN uniprot sprotfa

hmmbuild: 用多重比对序列构建HMM模型;

hmmsearch: 使用HMM模型搜索序列库;

hmmscan: 使用序列搜索HMM库;

hmmalign: 使用HMM为线索,构建多重比对序列;

> hmmalign globins4hmm tutorial/globins45fa

hmmconvert: 转换HMM格式

hmmemit: 从HMM模型中,得到一个模式序列;

hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;

hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;

hmmstat: 显示HMM数据库的统计信息;

使用HMM模型搜索序列数据库

使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4sto),命令如下:

> hmmbuild globins4hmm tutorial/globins4sto

globins4hmm为输出的HMM模型

使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:

> hmmsearch globins4hmm uniprot sprotfasta > globins4out

globins4out为输出的结果文件,如下:

示例使用官方教程中的示例

使用蛋白质序列搜索HMM数据库

构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:

> hmmbuild globins4hmm tutorial/globins4sto

> hmmbuild fn3hmm tutorial/fn3sto

> hmmbuild Pkinasehmm tutorial/Pkinasesto

> cat globins4hmm fn3hmm Pkinasehmm > minifam

使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:

> hmmpress minifam

这个步骤可以很快的执行完成,输出的内容如下:

Working… done

Pressed and indexed 3 HMMs (3 names and 2 accessions)

Models pressed into binary file: minifamh3m

SSI index for binary model file: minifamh3i

Profiles (MSV part) pressed into: minifamh3f

Profiles (remainder) pressed into: minifamh3p

使用hmmscan搜索HMM数据库,命令如下:

> hmmscan minifam tutorial/7LESS_DROME

用户可以通过NCBI(National Center for Biotechnology Information 美国国家生物技术信息中心信息中心,隶属于NLM-美国国家医学图书馆)的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取,从而促进数据库中DNA序列的丰富和更新,所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt(NCBI提供的>

通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠"//"作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。

序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图41中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。

序列代码具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化酶-2的mRNA序列,在文献中引用这个序列时,应该以此代码为准。核酸标识符NID对序列信息的当前版本提供

关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANISM)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。

FEATURES是具有自己的一套结构,用来详细描述序列特性的一个表格。在这个表格内,带有'/db-xref/'标志的字符可以连接到其它数据库内(本例,您看到的是一个分类数据库(taxon 9606),以及一个蛋白质数据库(PID:g181254));序列中各部分的位置都加以标明,5'非编码区(1-97),编码区(98-1912),3非编码区(1913-3387),多聚腺苷酸序列(3367-3374),等等;蛋白质翻译的信号肽及最终的多肽也都有所说明。这个例子不能说很全面,但已经足以说明特性表给出信息的详细程度。

接下来是BASE COUNT记录,计算出不同碱基在整个序列中出现的次数(1010A,712个C,633个G,1032个T)。ORIGIN那一行,指出了序列第一个碱基在基因组中可能的位置。最后,核酸的序列全部列出,并以//作为结尾。

要下载植物叶绿体基因组,你首先需要访问NCBI基因组数据库(>

以上就是关于如何收集一个物种的所有蛋白质序列到一个FASTA文件里全部的内容,包括:如何收集一个物种的所有蛋白质序列到一个FASTA文件里、怎么使用hmmer比对多个query基因、Genbank序列包含什么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9441384.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存