从这个页面http://www.mothur.org/wiki/Category:Commands
上查阅的所有命令,根据个人理解翻译了一下。个人能力有限,会有不当之处。
A-G (查看时请用Ctrl+F快捷键)
Align.check
这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(http://www.arb-home.de/)的编辑窗口熟悉的话,这与计算~,#,-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令,你必须提供FASTA格式的序列文件。
Align.seqs
这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是:
1.采用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每个候选序列的最接近模板
2.在候选序列文件和空位模板序列之间进行碱基配对,采用Needleman-Wunsch,Gotoh,或者blastn算法规则。
3.重新在候选和模板序列对之间插入间隔(空位),采用NAST算法,这样候选序列就能与原始模板序列兼容。
我们提供了一些16S和18S基因序列的数据库,这些是与greengenes和SILVA队列兼容的。然而,自定义的任何DNA序列的排列都可以用作模板,所以鼓励用户分享他们的排列供其他人使用。普遍来说,进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中,而且质量像SINA aligner做的一样好。另外,这个速率可以由多个处理器加倍。
Amova
分子方差分析(Analysis of molecular variance)是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这样一个假设。
Anosim
参考文献:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落结构变化的非参数多元分析《澳大利亚生态学报》
Bin.seqs
这个命令输出一个fasta格式的文件,其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助,用来对序列进行分类。
Catchall
这个命令使mothur与Linda Woodard,Sean Connolly和John Bunge开发的catchall程序连接。获取更多信息,请参看http://www.northeastern.edu/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户,你必须也安装了mono,在catchall的网页中有一个关于mono的链接。
Chimera.bellerophon
采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。
Chimera.ccode
采用Ccode方法。对每个词语,在查询序列和参考序列之间对比距离的差异,以及参考序列与它们自己。
Chimera.check
采用chimeraCheck方法...注意:从RDP模型中,这个方法不能决定一个序列是否是嵌合的,但是让你决定那些基于产生的IS值的序列。
查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离”,通过多个窗口
Chimera.perseus
这个命令读取并命名一个fasta文件,输出潜在的嵌合序列。
Chimera.pintail
采用Pintall 方法。在不同的窗口中查询一个序列,查看期望的差异与观察到的差异之间的不同
Chimera.seqs
这个命令已经被拆分为6个分离的命令。
目前,mothur执行六种方法以确定一个序列是不是嵌合的。如果有一个你喜欢看到的算法可以实施,请考虑一下或者贡献给mothur项目,或者联系开发者,我们将会考虑我们能做什么。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.ccode
chimera.slayer
chimera.uchime
Chimera.slayer
这个命令读取一个fasta文件和参照文件,并输出潜在的嵌合序列。原始算法的开发者建议采用一个特殊的模版参照(例如,gold)。我们用silva参照文件提供silva-based 排列的数据库。你将需要在blast/bin文件夹中有megablast和formatdb可执行文件的拷贝,这里blast文件夹与mothur可执行程序相邻。megablast/formatdb的版本可以在这里
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.25/找到,或者它们就包含在mothur的程序版本中。
Chimera.uchime
这个命令读取一个fasta文件和参考文件,并输出潜在的嵌合序列。原始的uchime程序是由Robert C. Edgar编写的,并且贡献为公共所有。
http://drive5.com/uchime/
Chop.seqs
这个命令读取一个fasta文件,输出一个.chop.fasta,包含着修剪的整理的序列。它可以用于排序的和未排序的序列。
Classify.otu
这个命令用来为一个OTU得到一个共有序列分类.
Classify.seqs
这个命令允许用户使用多个不同的方法把他们的序列分配到他们选择的分类提纲(轮廓)中。当前的方法包括采用一个k-nearest邻近共有序列和Bayesian方法。分类提纲和参考序列可以在taxonomy outline(http://www.mothur.org/wiki/Taxonomy_outline)的页面中获得。这个命令需要你提供一个fasta格式的输入文件和数据库序列文件,还要有一个为了参考序列的分类文件。
Classify.tree
这个命令用来为一个进化树的每个节点获得一个共有序列。
Clear.memory
这个命令从内存中删除保存的参考数据,你可以在已经用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用过保存参数之后使用chear.memory.
Clearcut
这个让mothur用户在mothur内部运行clearcut程序。chearcut程序是由Idaho大学的Initiative for Bioinformatics和Evolutionary Studies(IBEST)编写。了解更多clearcut相关信息,参看http://bioinformatics.hungry.com/clearcut/。注意,在版本1.13.0中,clearcut源码已经加进mothur,所以你不再需要clearcut的可执行程序。当然,如果你愿意,你仍可以从这里下载clearcut的可执行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一个距离矩阵读进mothur,cluster命令就能用来给OTUs分派序列。目前,mothur采用三个分簇方式。
最近邻:从OTU的最相似序列,一个OTU内的每一个序列都最多x%的距离
最远邻:一个OTU内的所有序列与OTU内的所有其它序列最多有X%的距离
平均邻近:这个方法介于另外两个算法的中间水平
如果您有一个算法,请考虑一下贡献给mothur项目。
Cluster.classic
这个命令可用于把序列分配到OTUs.它是cluster的dotur工具,目前mothur采用三个分簇方式。
Cluster.fragments
这个命令需要一个fasta格式的文件,也要提供
一个命名的文件而且当一个序列被确定为一个更大的序列的一部分时,列出的与序列名相关的指明文件就会被合并。
Cluster.split
这个命令用来分配序列到OTUs并输出一个.list, .rabund, .sabund文件.它把大的距离矩阵拆分为小的部分。
Collect.shared
这个命令给计算器生成一个收集曲线,描绘出不同群落间的相似性或它们的共有丰度。Collector's curves描绘随着你样本增加的个体,丰富度和多样性的变化。如果Collector's curves变得与x轴平行,你可以合理的确信你在采样这个工作上做的很好,并且相信曲线上的最终值。否则,你需要继续抽样(采样),mothur能为collector's curves生成数据,就像sons做的那样。当时sons将数据呈现在sons文件中,实际上不可能被新手分析解读。mothur解决了许多这样的问题,因为mothur为每一个估计值产生分离的文件。
Collect.single
Collect.single利用计算器(http://www.mothur.org/wiki/Calculators)生成collector's curves,描述了丰度,多样性和样本的其他特征。Collector's curves描绘了你抽取额外的个体时丰度和多样性的变化。
Consensus.seqs
这个命令可以以两种方式使用:从fasta文件创建一个共有序列,或者由一个list文件为每个OTU创建一个共有序列。序列必须进行排列。
Consensus.seqs的参数(特征,因素)是fasta, list, name和label
Cooccurrence
这个命令计算四个度量并且测试他们的显著性以评估是否样式的存在与否比起那些随机期待的有所不同。
Corr.axes
这个命令将会计算在shared/relabund文件中每一行(或列)的相关系数,记录在一个pcoa文件所显示的轴线上。
Count.groups
这个命令从一个特定的组(group)或者一套组算出序列,从下面这些文件类型:group或者shared文件.
Count.seqs
这个命令计算在一个name文件中的代表性序列所代表的序列的数目。如果提供了一个group文件,它也会提供使group计数崩溃。
Create.database
这个命令读取一个list文件,*.cons.taxonomy, *.rep.fasta, *.rep.names和可选的group文件,并且创建一个数据库(database)文件.
Degap.seqs
这个命令读取一个fasta文件并输出一个.ng.fasta文件,它包含所有间隔字符都被移除后的序列。
Deunique.seqs
这个命令是unique.seqs的反向命令,从一个fasta和name文件创建一个fasta文件。
Deunique.tree
这个命令把冗余序列标识符重新插入一个唯一的系统树。
Dist.seqs
这个命令将计算两个排序的DNA序列间不正确的成对距离。这个方法比通用的DNADIST更好,因为这些距离不是存储在RAM(随机存储器)中,它们直接打印到一个文件。而且,通过它可以忽略可能不感兴趣的“大的”距离。这个命令将产生一个列格式的距离矩阵,这个矩阵与read.dist命令中的“列选项”相互兼容。这个命令也能生成一个phylip格式的距离矩阵。它有多个如何 *** 纵gap比较和末端gap的选项。
Dist.shared
这个命令将会生成一个phylip格式的距离矩阵,描述多个组的差异性。这个命令将会计算任何一个描述群落成员或结构相似性的计算子(calculator)。
Fastq.info
这个命令读取一个fastq文件,并创建一个fasta和quality文件。
Filter.seqs
filter.seqs从基于一个由用户定义标准的排列删除列。例如,生成的与参照排列相对的排列经常有一些列的每一个字符是“.”或者“-”。这些列不会包含用于计算距离,因为他们本身没有信息。通过删除这些列,计算大量的距离这一过程就会加快。同样,人们也喜欢用温和的或强制的屏蔽方式(比如Lane' mask)屏蔽他们的序列来移除可变区域。这类屏蔽只在深层次系统进化分析时鼓励使用,而在精细水平的分析比如需要计算OTUs中不建议。
Get.coremicrobiome
这个命令决定可变数目的样本中的OTUs的片段,为了不同的最小相关丰富度。
Get.current
这个命令允许你找出mothur已经为每个类型保存为current的一些文件,你也可以清空current文件。
Get.group
这个命令允许你为储存在内存中的多个样本的OTU数据获得一个已有的不同群组的目录。这个特征应该在为其它命令使用group选项时有帮助。
Get.groups
这个命令从一个特定group或一套groups选择序列。group来自以下文件类型:fasta,name,group,list,taxonomy.
Get.label
这个命令是你为当前储存在内存中的每行OTU数据获得一个标签的目录。这个特征应该在为其他命令使用label选项时有帮助。
Get.lineage
这个命令读取一个taxonomy文件和一个分类(taxon),并产生一个新的文件只包含有来自分类的序列。你也许也会把一个fasta, name, group, list或者align.report 文件包括到这个命令中,mothur将会为那些只包含有选定序列的文件生成新的文件。
Get.otulist
这个命令解析一个list文件并且为每一个包含两列的距离创建一个.otu文件。第一列是OTU数目,第二列是那个OTU中的序列的列表(list)。
Get.oturep
bin.seqs命令能为所有序列报告OTU号码(即编号),get.oturep命令生成一个fasta格式的序列文件,为每个OTU只包含一个代表性序列。为每个OTU的定义生成一个.rep.fasta和.rep.names文件。
Get.otus
这个命令选择出包含有来自一个特定group或一副groups的序列的OTUs.
Get.rabund
这个命令将生成一个rabund文件,它基于你输入到mothur的OTU数据。
Get.relabund
这个命令计算一个样本中的每个OTU的相对丰富度。它将输出一个.relabund文件。
Get.sabund
这个命令将产生一个sabund文件,基于你读入mothur的OTU数据。例如,如果你读入一个list文件,get.sabund将产生对应的sabund文件。
Get.seqs
这个命令把一个序列名字的列表(list)和一个fasta,name,group,list或align.report文件生成一个新的文件,只包含在list中出现的文件。这个命令也许用于和list.seqs命令结合以帮助显示一个序列结合。
Get.sharedseqs
这个命令取一个list和group文件并为每个距离输出一个*.shared.seqs文件。这对于那些情况有用,即你或许对于确定特殊groups中特定的或共有的序列感兴趣。这样接下来你就可以分类。
1、把BLAST的压缩文件解压,然后将bin目录下的文件拷贝至/usr/local/bin下;2、制作软链接,将解压后的文件中bin目录链接至/home/username下,eg:ln
-s /home/username/blast/bin;
3、在当前用户目录下,编辑bashrc文件,在文件中加入export
PATH=/home/username/bin/=$PATH
4、在当前目录下,将数据文件格式化,$formatdb -i
filename.后缀 -p F -o T
5、将待进行blast的文件转化为test.txt文件,拷贝文件内容如下:
>test....
ACGTCAGTCGATCGAT.....
6、进行比对
$blastall -p
blastn -d filename.后缀 -i test.txt -o test.out
This document describes the "BLAST" databases available on the NCBIFTP site under the /blast/db directory. The direct URL is:
ftp://ftp.ncbi.nih.gov/blast/db 本地BLAST数据库下载地址
1. General Introduction
NCBI BLAST home pages (http://www.ncbi.nih.gov/BLAST/) use a standard
set of BLAST databases for Nucleotide, Protein, and Translated BLAST
searches. These databases are made available in the /blast/db directory as
compressed archives (ftp://ftp.ncbi.nih.gov/blast/db/) in pre-formatted
format.这些数据库是已经预先进行过makeblastdb命令的,下载后可以直接使用
The FASTA databases reside under the /blast/db/FASTA directory.
The pre-formatted databases offer the following advantages:
* The pre-formatted databases are smaller in size and therefore are
faster to download
* Sequences in FASTA format can be generated from the pre-formatted
databases by the fastacmd utility可以从这些数据库文件中导出FASTA文件
* A convenient script (update_blastdb.pl) is available to download
the pre-formatted databases from the NCBI ftp site可用该脚本升级数据库
* Pre-formatting removes the need to run formatdb无需再运行建库命令行
* Taxonomy ids are available for each database entry.
Pre-formatted databases must be downloaded using the update_blastdb.pl
script or via FTP in binary mode. Documentation for the update_blastdb.pl
script can be obtained by running the script without any arguments (perl is
required). 下载数据库时,需要用到perl脚本update_blastdb.pl,或使用FTP下载工具
The compressed files downloaded must be inflated with gzip or other decompress
tools. The BLAST database files can then be extracted out of the resulting
tar file using tar program on Unix/Linux or WinZip and StuffIt Expander
on Windows and Macintosh platforms, respectively.下载的数据库为压缩包,要解压缩
Large databases are formatted in multiple 1 Gigabytes volumes, which
are named using the database.##.tar.gz convention. All relevant volumes
are required. An alias file is provided so that the database can be called
using the alias name without the extension (.nal or .pal). For example,
to call est database, simply use "-d est" option in the commandline
(without the quotes). 大的数据库通常分为多个压缩包,例如nr库有11个压缩包。所有的相关压缩包
都要下载,解压。解压缩会生成对应的库文件,同时生成一个nr.pal文件。检索nr库时输入-d nr 即可。
Certain databases are subsets of a larger parental database. For those
databases, alias and mask files, rather than actual databases, are provided.
The mask file needs the parent database to function properly. The parent
databases should be generated on the same day as the mask file. For
example, to use swissprot pre-formatted database, swissprot.tar.gz, one
will need to get the nr.tar.gz with the same date stamp. 有些数据库是大数据库
的子集,使用这些子集数据库时,必须同时下载其(相同日期的)大数据库
Additional BLAST databases that are not provided in pre-formatted
formats are available in the FASTA subdirectory. 有些BLAST数据库没有提供预先建库
的文件,这些数据库可以从FASTA文件夹里下载 For genomic BLAST
databases, please check the genomes ftp directory at:
ftp://ftp.ncbi.nih.gov/genomes/ 在这里下载基因组BLAST数据库
2. Contents of the /blast/db/ directory
The pre-formatted BLAST databases are archived in this directory. The
name of these databases and their contents are listed below.
数据库名称 数据库内容
+----------------------+-----------------------------------------------+
|File Name | Content Description |
+----------------------+-----------------------------------------------+
/FASTA | subdirectory for FASTA formatted sequences
存放FASTA格式序列的子文件夹
README | README for this subdirectory (this file)
env_nr.*tar.gz | Environmental protein sequences 环境蛋白序列
env_nt.*tar.gz | Environmental nucleotide sequences 环境核苷酸序列
est.*tar.gz| volumes of the formatted est database
| from the EST division of GenBank, EMBL,
| and DDBJ. EST数据库
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)