在线和本地两种方法构建 RAxML 进化树方法和解读

在线和本地两种方法构建 RAxML 进化树方法和解读,第1张

1. CIPRES网站:

CIPRES Science Gateway V 3.3 : https://www.phylo.org/portal2/home.action#

2. 上传数据,选择RAXML tools

3. 设置参数

首先安装Linux版本RAxML

$ raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s example.phy ­-n ex -T 20

并行化软件支持,能最快速计算。并行化20个任务,每个任务使用8线程,能使用全部160线程计算资源:

$ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s ex.phy ­-n ex -T 8

参数解读:

RAxML 的参数非常多,设置非常复杂,上述常用例子的参数为:

-f a

此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。

-x 12345

指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。

-p 12345

指定一个随机数作为 parsimony inferences 的种子。

-# 100

指定 bootstrap 的次数。

-m PROTGAMMALGX

指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。

-s ex.phy

指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。

-n ex

输出文件的后缀为 .ex 。

-T 20

指定多线程运行的 CPUs 。

RAxML_bootstrap.ex: 完整的全部bootstrapped trees

RAxML_bestTree.ex : 最佳得分 ML 树

RAxML_bipartitions.ex  : 有 bootstrap 分值支持的最佳得分树,分值在 node 上。

RAxML_bipartionsBranchLabels.ex :   有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。

说明:

-f a:  tell RAxML to conduct a rapid Bootstrap analysis and search for the best-scoring ML tree in one single program run. Example: raxmlHPC -f a -s alg -x 12345 -# 100 -m GTRCAT -n TEST.

f b:  when this is specified RAxML will draw the bipartitions using a bunch of topologies (typically bootstrapped trees) specified with -z (see below) onto a single tree topology specified by -t (typically the best-scoring ML tree). Example: raxmlHPC -f b -t ref -z trees -m GTRCAT -s alg -n TEST.

If you use -f a the tree file name RAxML_bipartions.[run_name] will be the best tree with bootstraps. For the f -b approach you first need to estimate a an optimal tree.

Figtree: 使用Figtree查看 RAxML_bipartions.ex 文件,可显示最佳得分树的bootstrap信息。

MEGA:   使用MEGA软件可得到压缩树condensed tree,打开 RAxML_bipartions.ex或者RAxML_bipartionsBranchLabels.ex  显示设定bootstrap阈值的condensed tree。

更多参数可参考:https://www.yuque.com/wusheng/gw7a9p/mcc73y

1下载和安装

RAxML 可以在 Linux, MacOS, DOS 下运行,下载网址为自己百度

也可以使用phylobench.vital-it.ch/raxml-bb/ 在线运行。 对于 Linux 和 Mac 用户下载 RAxML-7.0.4.tar.gz用 gcc 编译即可, make –f Makefile.gcc。Windows 用户可以下载编译好的 exe 文件,而无需安装。

2 数据的输入

RAxML 的数据位 PHYLIP 格式,但是其名字可以增加至 256 个字符。“RAxML 对

PHYLIP 文件中的 tabs,inset 不敏感”。输入的树的格式为 Newick

RAxML 的查错功能

序列的名称有重复,即不同的碱基却拥有一致的名称。

序列的内容重复,即两条不同名称的序列,碱基完全一致。

某个位点完全由序列完全由未知符号组成,如氨基酸序列完全由 X,?,*,-组成,DNA 序列完全由 N,O,X,?,-组成。

序列完全由未知符号组成,如氨基酸序列完全由 X,?,*,-组成,DNA 序列完全由 N,O,X,?,-组成。

序列名称中禁用的字符 如包括空格、制表符、换行符、:,(),[]等

3 RAxMLHPC 下的选项参数以及用法

-s sequenceFileName 要处理的 phy 文件

-n outputFileName 输出的文件

-m substitutionModel 模型设定 方括号中的为可选项:

[-a weightFileName] 设定每个位点的权重,必须在同一文件夹中给出相应位点的权重

[-b bootstrapRandomNumberSeed]设定 bootstrap 起始随机数

[-c numberOfCategories] 设定位点变化率的等级

[-d] -d 完全随机的搜索进化树,而不是从 maximum parsimony tree 开始。在 100 至 200 个分类单元间,该选可能会生成拓扑结构完全不同的局部最大似然树。

[-e likelihoodEpsilon]默认值为 0.1

[-E excludeFileName] 排除的位点文件名

[-f a|b|c|d|e|g|h|i|j|m|n|o|p|s|t|w|x] 算法

-f a rapid Bootstrap

-f b draw the bipartitions using a bunch of topologies

-f c checks if RAxML can read the alignment.

-f d rapid hill-climbing algorithm

-f e optimize the model parameters

-f g compute the per–site log Likelihoods for one ore more trees passed via -z.

-f h compute a log likelihood test (SH-test [21]) between a best tree passed via -t and a bunch of other trees passed via -z.

-f i performs a really thorough standard bootstrap

[-g groupingFileName] 预先分组的名称

[-h] program options

[-i initialRearrangementSetting] speccify an innitial rearrangement setting for the ininital phase of the search algorithm.

[-j]

[-k] optimize branchlength and model parameters on bootstrapped trees

[-l sequenceSimilarityThreshold]Specify a threshold for sequence similarity clustering. [-L sequenceSimilarityThreshold]

[-M] 模型设定

-m GTRCAT: GTR approximation

-m GTRMIX: Search a good topology under GTRCAT

-m GTRGAMMA: General Time Reversible model of nucleotide subistution with the gamma model of rate heterogeneity.

-m GTRCAT_GAMMA: Inference of the tree with site-specific evolutionary rates. 4 discrete GAMMA rates,

-m GTRGAMMAI: Same as GTRGAMMA, but with estimate of proportion of invariable sites

-m GTRMIXI: Same as GTRMIX, but with estimate of proportion of invariable sites.

-m GTRCAT GAMMAI: Same as GTRCAT_GAMMA, but with estimate of proportion of invariable sites.

-n outputFileName 输出文件名

-o outgroupName(s) 设定外类群 如果有两个以上外类群,两者之间不能用空格,而应该用英文的"," DNA, gen1=1-500 DNA, gen2=501-1000

[-p parsimonyRandomSeed] [-P proteinModel]

[-q multipleModelFileName]

-q multiple modelfile name

如将以下信息拷贝到另存为文件 genenames

DNA, rbcLa = 1-526

DNA, matK = 527-1472

调用方法 -q genenames

-m GTRGAMMA

[-r binaryConstraintTree]

-s sequenceFileName 待分析的 phy 文件

[-t userStartingTree] 用户指定的进化树拓扑结构

[-T numberOfThreads]

[-u multiBootstrapSearches] Specify the number of multiple BS searches per replicate to obtain betterML trees for each replicate. [-v] 版本信息

[-w workingDirectory] 将文件写入的工作目录

[-x rapidBootstrapRandomNumberSeed]invoke rapidBootstrap

[-y] -y 只输出简约树拓扑结构,之后推出,该树也可以用于 GARLI 等软件

[-z multipleTreesFile]

[-#|-N numberOfRuns]

生成的文件

RAxML log.exampleRun: 运行时间、似然值/ number of checkpoint file

RAxML result.exampleRun:树文件

RAxML info.exampleRun:-m GTRGAMMA or -m GTRMIX contains information about the model and algorithm used

RAxML parsimonyTree.exampleRun: -t.

RAxML randomTree.exampleRun: -d.

RAxML checkpoint.exampleRun.checkpointNumber: -j

RAxML bootstrap.exampleRun: -# and -b or -x

RAxML bipartitions.exampleRun: -f b

RAxML reducedList.exampleRun: -l or -L

RAxML bipartitionFrequencies.exampleRun: -t , -z , -f m

RAxML perSiteLLs.exampleRun: -f g

RAxML bestTree.exampleRun: -x 12345 -f a

RAxML distances.exampleRun: -f x


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11523080.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-16
下一篇 2023-05-16

发表评论

登录后才能评论

评论列表(0条)

保存