CIPRES Science Gateway V 3.3 : https://www.phylo.org/portal2/home.action#
2. 上传数据,选择RAXML tools
3. 设置参数
首先安装Linux版本RAxML
$ raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s example.phy -n ex -T 20
并行化软件支持,能最快速计算。并行化20个任务,每个任务使用8线程,能使用全部160线程计算资源:
$ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 8
参数解读:
RAxML 的参数非常多,设置非常复杂,上述常用例子的参数为:
-f a
此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。
-x 12345
指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。
-p 12345
指定一个随机数作为 parsimony inferences 的种子。
-# 100
指定 bootstrap 的次数。
-m PROTGAMMALGX
指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。
-s ex.phy
指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。
-n ex
输出文件的后缀为 .ex 。
-T 20
指定多线程运行的 CPUs 。
RAxML_bootstrap.ex: 完整的全部bootstrapped trees
RAxML_bestTree.ex : 最佳得分 ML 树
RAxML_bipartitions.ex : 有 bootstrap 分值支持的最佳得分树,分值在 node 上。
RAxML_bipartionsBranchLabels.ex : 有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。
说明:
-f a: tell RAxML to conduct a rapid Bootstrap analysis and search for the best-scoring ML tree in one single program run. Example: raxmlHPC -f a -s alg -x 12345 -# 100 -m GTRCAT -n TEST.
f b: when this is specified RAxML will draw the bipartitions using a bunch of topologies (typically bootstrapped trees) specified with -z (see below) onto a single tree topology specified by -t (typically the best-scoring ML tree). Example: raxmlHPC -f b -t ref -z trees -m GTRCAT -s alg -n TEST.
If you use -f a the tree file name RAxML_bipartions.[run_name] will be the best tree with bootstraps. For the f -b approach you first need to estimate a an optimal tree.
Figtree: 使用Figtree查看 RAxML_bipartions.ex 文件,可显示最佳得分树的bootstrap信息。
MEGA: 使用MEGA软件可得到压缩树condensed tree,打开 RAxML_bipartions.ex或者RAxML_bipartionsBranchLabels.ex 显示设定bootstrap阈值的condensed tree。
更多参数可参考:https://www.yuque.com/wusheng/gw7a9p/mcc73y
1下载和安装RAxML 可以在 Linux, MacOS, DOS 下运行,下载网址为自己百度
也可以使用phylobench.vital-it.ch/raxml-bb/ 在线运行。 对于 Linux 和 Mac 用户下载 RAxML-7.0.4.tar.gz用 gcc 编译即可, make –f Makefile.gcc。Windows 用户可以下载编译好的 exe 文件,而无需安装。
2 数据的输入
RAxML 的数据位 PHYLIP 格式,但是其名字可以增加至 256 个字符。“RAxML 对
PHYLIP 文件中的 tabs,inset 不敏感”。输入的树的格式为 Newick
RAxML 的查错功能
序列的名称有重复,即不同的碱基却拥有一致的名称。
序列的内容重复,即两条不同名称的序列,碱基完全一致。
某个位点完全由序列完全由未知符号组成,如氨基酸序列完全由 X,?,*,-组成,DNA 序列完全由 N,O,X,?,-组成。
序列完全由未知符号组成,如氨基酸序列完全由 X,?,*,-组成,DNA 序列完全由 N,O,X,?,-组成。
序列名称中禁用的字符 如包括空格、制表符、换行符、:,(),[]等
3 RAxMLHPC 下的选项参数以及用法
-s sequenceFileName 要处理的 phy 文件
-n outputFileName 输出的文件
-m substitutionModel 模型设定 方括号中的为可选项:
[-a weightFileName] 设定每个位点的权重,必须在同一文件夹中给出相应位点的权重
[-b bootstrapRandomNumberSeed]设定 bootstrap 起始随机数
[-c numberOfCategories] 设定位点变化率的等级
[-d] -d 完全随机的搜索进化树,而不是从 maximum parsimony tree 开始。在 100 至 200 个分类单元间,该选可能会生成拓扑结构完全不同的局部最大似然树。
[-e likelihoodEpsilon]默认值为 0.1
[-E excludeFileName] 排除的位点文件名
[-f a|b|c|d|e|g|h|i|j|m|n|o|p|s|t|w|x] 算法
-f a rapid Bootstrap
-f b draw the bipartitions using a bunch of topologies
-f c checks if RAxML can read the alignment.
-f d rapid hill-climbing algorithm
-f e optimize the model parameters
-f g compute the per–site log Likelihoods for one ore more trees passed via -z.
-f h compute a log likelihood test (SH-test [21]) between a best tree passed via -t and a bunch of other trees passed via -z.
-f i performs a really thorough standard bootstrap
[-g groupingFileName] 预先分组的名称
[-h] program options
[-i initialRearrangementSetting] speccify an innitial rearrangement setting for the ininital phase of the search algorithm.
[-j]
[-k] optimize branchlength and model parameters on bootstrapped trees
[-l sequenceSimilarityThreshold]Specify a threshold for sequence similarity clustering. [-L sequenceSimilarityThreshold]
[-M] 模型设定
-m GTRCAT: GTR approximation
-m GTRMIX: Search a good topology under GTRCAT
-m GTRGAMMA: General Time Reversible model of nucleotide subistution with the gamma model of rate heterogeneity.
-m GTRCAT_GAMMA: Inference of the tree with site-specific evolutionary rates. 4 discrete GAMMA rates,
-m GTRGAMMAI: Same as GTRGAMMA, but with estimate of proportion of invariable sites
-m GTRMIXI: Same as GTRMIX, but with estimate of proportion of invariable sites.
-m GTRCAT GAMMAI: Same as GTRCAT_GAMMA, but with estimate of proportion of invariable sites.
-n outputFileName 输出文件名
-o outgroupName(s) 设定外类群 如果有两个以上外类群,两者之间不能用空格,而应该用英文的"," DNA, gen1=1-500 DNA, gen2=501-1000
[-p parsimonyRandomSeed] [-P proteinModel]
[-q multipleModelFileName]
-q multiple modelfile name
如将以下信息拷贝到另存为文件 genenames
DNA, rbcLa = 1-526
DNA, matK = 527-1472
调用方法 -q genenames
-m GTRGAMMA
[-r binaryConstraintTree]
-s sequenceFileName 待分析的 phy 文件
[-t userStartingTree] 用户指定的进化树拓扑结构
[-T numberOfThreads]
[-u multiBootstrapSearches] Specify the number of multiple BS searches per replicate to obtain betterML trees for each replicate. [-v] 版本信息
[-w workingDirectory] 将文件写入的工作目录
[-x rapidBootstrapRandomNumberSeed]invoke rapidBootstrap
[-y] -y 只输出简约树拓扑结构,之后推出,该树也可以用于 GARLI 等软件
[-z multipleTreesFile]
[-#|-N numberOfRuns]
生成的文件
RAxML log.exampleRun: 运行时间、似然值/ number of checkpoint file
RAxML result.exampleRun:树文件
RAxML info.exampleRun:-m GTRGAMMA or -m GTRMIX contains information about the model and algorithm used
RAxML parsimonyTree.exampleRun: -t.
RAxML randomTree.exampleRun: -d.
RAxML checkpoint.exampleRun.checkpointNumber: -j
RAxML bootstrap.exampleRun: -# and -b or -x
RAxML bipartitions.exampleRun: -f b
RAxML reducedList.exampleRun: -l or -L
RAxML bipartitionFrequencies.exampleRun: -t , -z , -f m
RAxML perSiteLLs.exampleRun: -f g
RAxML bestTree.exampleRun: -x 12345 -f a
RAxML distances.exampleRun: -f x
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)