使用Linux版的MEGA构建某一基因家族的基因进化树

使用Linux版的MEGA构建某一基因家族的基因进化树,第1张

最近碰到了个需求,让我构建某一基因家族的进化树,并根据进化关系进行相应的分类。这让我想起了之前上课的时候,一个做进化的老师给我们讲过,如果不是纯做进化方向的课题,MEGA完全够用了。由于windows的内存等有限,做几十个基因还凑合,要是上百个基因就吃不消了,于是就想到了用Linux下的MEGA来做。

https://www.megasoftware.net/

由于是二进制文件,直接解压缩,添加到环境变量就可以用了。

具体请看我这篇文章。 https://www.jianshu.com/p/5fd60c818651

上一步我得到了该基因家族的所有基因家族的蛋白序列,然后我用windows下的MEGA的 muscle 算法进行了比较,【align-build alignment-上一步的基因家族蛋白序列-muscle比对-data-export-FASTA format】

最终我得到了比对后的 multiproteins.fasta 文件。

首先进行参数的解读,相比于其他软件,我觉得这款软件比较好理解,也容易上手。

这里的 .mao 文件尤为重要,较为简单的方法是拿到windows下去设置,具体请看组学大讲堂的这篇推送。

https://www.omicsclass.com/article/568

版本信息

MEGA version 10.1.8

For 64-bit Linux

Build 10200331

参数解读

EXAMPLES

This example performs a multiple sequence alignment on codons (it assumes that you have created the file "Clustal_Codon_Alignment.mao" using the prototyper (megaproto). A fasta file with coding data is used as input and the resulting alignment is output in the MEGA format:

This example shows how to construct a neighbor-joining phylogeny for each of a list of sequence data files.

The analysis will be performed for each file listed in "listOfDataFiles.txt" and all results will be written to

the ~/Documents/outputDirectory/ directory:

megacc -a ~/Documents/NJ_Tree_Settings.mao -l ~/Documents/listOfDataFiles.txt -o ~/Documents/outputDirectory/

LIST FORMAT

When using the -l option, each file to be analyzed must be on its own line. For example:

~/Documents/myData/seqData1.fas

~/Documents/myData/seqData2.fas

~/Documents/myData/seqData3.fas

If the analyses are to use a user-provided Newick tree file, then the tree files are given on the same line as the data files, following two pipe characters. For example:

~/Documents/myData/seqData1.fas || ~/Documents/myData/treeFile1.nwk

~/Documents/myData/seqData2.fas || ~/Documents/myData/treeFile2.nwk

~/Documents/myData/seqData3.fas || ~/Documents/myData/treeFile3.nwk

我的最终使用:

下一步我打算用 ggtree 来美化,具体学习情况,我再更新。

进化树在生物学中,用来表示物种之间的进化关系。生物分类学家和进化论者根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。在进化树上每个叶子结点代表一个物种,如果每一条边都被...

1. CIPRES网站:

CIPRES Science Gateway V 3.3 : https://www.phylo.org/portal2/home.action#

2. 上传数据,选择RAXML tools

3. 设置参数

首先安装Linux版本RAxML

$ raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s example.phy ­-n ex -T 20

并行化软件支持,能最快速计算。并行化20个任务,每个任务使用8线程,能使用全部160线程计算资源:

$ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC ­-f a ­-x 12345 ­-p 12345 ­-# 100 ­-m PROTGAMMALGX ­-s ex.phy ­-n ex -T 8

参数解读:

RAxML 的参数非常多,设置非常复杂,上述常用例子的参数为:

-f a

此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行快速 Bootstrap 分析并搜索最佳得分的 ML 树。

-x 12345

指定一个 int 数作为随机种子,以启用快速 Bootstrap 算法。

-p 12345

指定一个随机数作为 parsimony inferences 的种子。

-# 100

指定 bootstrap 的次数。

-m PROTGAMMALGX

指定核苷酸或氨基酸替代模型。PROTGAMMALGX 的解释: "PROT" 表示氨基酸替代模型; GAMMA 表示使用 GAMMA 模型; X 表示使用最大似然法估计碱基频率。

-s ex.phy

指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。

-n ex

输出文件的后缀为 .ex 。

-T 20

指定多线程运行的 CPUs 。

RAxML_bootstrap.ex: 完整的全部bootstrapped trees

RAxML_bestTree.ex : 最佳得分 ML 树

RAxML_bipartitions.ex  : 有 bootstrap 分值支持的最佳得分树,分值在 node 上。

RAxML_bipartionsBranchLabels.ex :   有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。

说明:

-f a:  tell RAxML to conduct a rapid Bootstrap analysis and search for the best-scoring ML tree in one single program run. Example: raxmlHPC -f a -s alg -x 12345 -# 100 -m GTRCAT -n TEST.

f b:  when this is specified RAxML will draw the bipartitions using a bunch of topologies (typically bootstrapped trees) specified with -z (see below) onto a single tree topology specified by -t (typically the best-scoring ML tree). Example: raxmlHPC -f b -t ref -z trees -m GTRCAT -s alg -n TEST.

If you use -f a the tree file name RAxML_bipartions.[run_name] will be the best tree with bootstraps. For the f -b approach you first need to estimate a an optimal tree.

Figtree: 使用Figtree查看 RAxML_bipartions.ex 文件,可显示最佳得分树的bootstrap信息。

MEGA:   使用MEGA软件可得到压缩树condensed tree,打开 RAxML_bipartions.ex或者RAxML_bipartionsBranchLabels.ex  显示设定bootstrap阈值的condensed tree。

更多参数可参考:https://www.yuque.com/wusheng/gw7a9p/mcc73y


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7561265.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-07
下一篇 2023-04-07

发表评论

登录后才能评论

评论列表(0条)

保存