对于Mac OS/X, Linux, UNIX系统,用源代码编译安装:
% wget ftp://selab.janelia.org/pub/software/hmmer3/3.0/hmmer-3.0.tar.gz % tar zxf hmmer-3.0.tar.gz % cd hmmer-3.0 % ./configure % make % make check
windows系统,直接下载二进制压缩包,解压就可以使用。
hmmer包含的程序
phmmer: 与Blastp类似,使用一个蛋白质序列搜索蛋白质序列库;
>phmmer tutorial/HBB HUMAN uniprot sprot.fa
jackhmmer: 与psiBlast类似,蛋白质序列迭代搜索蛋白质序列库;
>jackhmmer tutorial/HBB HUMAN uniprot sprot.fa
hmmbuild: 用多重比对序列构建HMM模型;
hmmsearch: 使用HMM模型搜索序列库;
hmmscan: 使用序列搜索HMM库;
hmmalign: 使用HMM为线索,构建多重比对序列;
>hmmalign globins4.hmm tutorial/globins45.fa
hmmconvert: 转换HMM格式
hmmemit: 从HMM模型中,得到一个模式序列;
hmmfetch: 通过名字或者接受号从HMM库中取回一个HMM模型;
hmmpress:格式化HMM数据库,以便于hmmscan搜索使用;
hmmstat: 显示HMM数据库的统计信息;
使用HMM模型搜索序列数据库
使用hmmbuild构建HMM模型,输入为Stockholm格式或者FASTA格式的多重比对序列文件(如:tutorial/globins4.sto),命令如下:
>hmmbuild globins4.hmm tutorial/globins4.sto
globins4.hmm为输出的HMM模型
使用hmmsearch搜索蛋白质序列数据库,蛋白质序列数据库为FASTA格式,命令如下:
>hmmsearch globins4.hmm uniprot sprot.fasta >globins4.out
globins4.out为输出的结果文件,如下:
*示例使用官方教程中的示例
使用蛋白质序列搜索HMM数据库
构建HMM数据库,HMM数据库是包含多个HMM模型的文件,可以从Pfam、SMART、TIGRFams下载,也可以自己由多重比对序列集中构建,如:
>hmmbuild globins4.hmm tutorial/globins4.sto
>hmmbuild fn3.hmm tutorial/fn3.sto
>hmmbuild Pkinase.hmm tutorial/Pkinase.sto
>cat globins4.hmm fn3.hmm Pkinase.hmm >minifam
使用hmmpress格式化数据库,包括压缩以及创建索引,命令如下:
>hmmpress minifam
这个步骤可以很快的执行完成,输出的内容如下:
Working… done.
Pressed and indexed 3 HMMs (3 names and 2 accessions).
Models pressed into binary file: minifam.h3m
SSI index for binary model file: minifam.h3i
Profiles (MSV part) pressed into: minifam.h3f
Profiles (remainder) pressed into: minifam.h3p
使用hmmscan搜索HMM数据库,命令如下:
>hmmscan minifam tutorial/7LESS_DROME
即题目
pfam网站的search,使用的也是这个网站
https://www.ebi.ac.uk/Tools/hmmer/search/hmmscan
界面如下:
使用同一批序列,尝试上述两种参数。结果是:gathering threshold的阈值是比上 述设置的E值要更严格的。当然,E值是可以根据需求调整的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)