安装完成之后,本来打算用raxml进行建树 *** 作的,但一旦软件进行check的时候,就会发现raxml没有安装,但你检查一下raxml确实是已经安装好了的,这时你进去orthofinder的配置文件,就会发现原来默认用的是raxmlHPC-AVX,而你检查的时候只有raxmlHPC-AVX2,所以需要进去修改一下
而后就可以选择跑程序的选择了
然后就是等,结果一等就是5天,我以为跑完了,结果就这样报错了
百度查了一下原因,原来是使用shell时候,默认环境里是直接服务器多少线程就多少线程,即使你被限制了,软件还是默认你有那么多线程,如果达不到就会报错,故而我们需要在软件中限制一下运行环境中的线程数,提前给软件一个提示,我这里就只有这么多线程,你不能超过这个数,然后软件检查的时候,已经被你提前通知了就不会报错了,具体修改方法如下:
再次运行就不会报错了。
同时如果服务器被限制到线程,在运行一些java软件的时候也会出现GCthreads报错,这个真的就是看用的软件的运气了,如果软件写得好,那可以通过下面这样来限制环境的线程数
正常就可以运行了,但是类似tassel这个坑爹软件的话,会提示
如果你不做限制,或者限制接近你被限制的线程总数,则会提示这样的报错
具体接近看我后面怎么试了,幸好还有其他服务器可以用,转移一下数据就行,但也是够烦的,祝大家都买得起自己的塔式服务器,当自己的管理员,不用被限制到
最近杂事真的非常的满,终于找到时间更新一下。。。。
通过上一篇文章的介绍, 系统发育树的基本概念 大家已经了解清楚,那到底怎么获得一棵可信的进化树呢?
对于群体遗传学分析,一般都会以群体SNPs位点数据构建系统发育树,因此,接下来我主要以SNPs数据为例,介绍系统进化树的构建方法。
序列比对->建树方法选择->计算最佳替代模型->进化树建立->进化树美化
常见的序列比对软件包括:Clustal和Muscle等。
Clustal 除了有自己独立的软件外(多种 *** 作系统都支持),也常被整合到一些常见的软件中,如:Bioedit、MEGA等。
Muscle 同样支持多种 *** 作系统。
两个软件的引用频率都很高,没有绝对的谁好谁坏,哪个顺手就用哪个即可。
1、Distance-based methods 距离法:
基于距离的方法:首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。
2、Character-based methods 特征法:
基于特征的方法:不计算序列间的距离,而是将序列中有差异的位点作为单独的特征,并根据这些特征来建树。
模型选择的依据如下图:
UPGMA法已经较少使用。一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往会出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯方法则太慢。对于各种方法构建分子进化树的准确性,有一篇综述 (Hall BG, 2005) 认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。不过现在文章普遍使用的是NJ是ML模型。
系统发育分析中,最大似然法(ML)和贝叶斯法(BI)是对替代模型非常敏感的两种算法,因此,利用ML法或BI法重建系统发育树前,替代模型的选择是必不可少的过程。
Win *** 作系统下jModeltest的使用方法参考这篇文章: 图解核苷酸替代模型的选择 - jModelTest 篇(By Raindy) 。
ProTest的使用方法可以参考这篇文章: 使用 ProtTest 来选择最优氨基酸替代模型 。
我自己基本都用的是Linux版本的jModelTest,使用及其简单,命令如下:
参数说明:
-d:输入文件。注意!这个软件需要输入的是phy格式文件,不是fasta格式。
-f:include models with unequals base frecuencies
-g:include models with rate variation among sites and number of categories
-i: include models with a proportion invariable sites
-s:number of substitution schemes
-v:do model averaging and parameter importances
-a:estimate model-averaged phylogeny for each active criterion
-BIC:calculate the Bayesian Information Criterion
-AIC:calculate the Akaike Information Criterion
结果的最下方,有如图所示的列举,也就是得分最高的模型。
计算完最佳模型,我们就要开始建树了。对于ML树的构建,推荐大家使用新一代RAxML——raxml-ng。
RAxML一直是ML建树的经典工具,其由来自德国海德堡理论科学研究所(Heidelberg Institute for Theoretical Studies)的Alexandros Stamatakis开发。近年来,其江湖地位也受到来自其他软件,尤其是IQ-Tree的挑战。Zhou等人的文章 Evaluating Fast Maximum Likelihood-Based Phylogenetic Programs Using Empirical Phylogenomic Data set 对RAxML,IQ-TREE,FastTree,Phyml四个最大似然法建树软件的实际效果和表现进行了系统比较,其中一个结论是IQTREE在准确性方面要略胜一筹。
近日,RAxML的升级版, raxml-ng 发布!
相较于上一代,raxml-ng有如下优势:
话不多说,直接建树:
参数说明:
--all:Perform an all-in-one analysis (ML tree search + non-parametric bootstrap)
--msa:对其后的序列文件
--model:直接输入上一步产生的最佳模型
--bs-trees:检查树的鲁棒性(robustness)进行自展(bootstrap)检验,进行1000次bootstrapping抽样
--threads:给定线程
运行后结果如下图所示,其中bestTree就是我们要的树文件,导入树可视化工具即可(我比较常用MEGA和 iTOL ),下次再写一下如何美化进化树吧。
做进化分析的工友们可能都有个感觉,很多分析一等就是好几天,特别是建树(做过的都知道其中的痛苦),有时候忽然加入一个样品又要从头来。因此,一台给力的服务器是必要的工具。比如,上文提到了SNP进化树,我做的还仅仅只是相近物种,而且基因组很小(9M),SNP位点就有4万个,如果要用我MEGA这些软件调用我电脑8核的CPU,1000自展值可能要跑到毕业。
生物学背景出身的我,抄着那一点可怜的计算机常识,在我们课题组购买服务器时,我做了非常多的功课。当然,主要还是听取公司技术人员的建议,通过我非常非常非常长时间的测试,多次使用常见的生物信息分析软件(我主要从事寄生虫基因组、宿主转录组、16S宏基因组等研究),最终,找到了一个性价比超高的服务器配置,具体配置如下:
真心感谢一下烽伟的技术小哥哥们,乐死不疲的回答我各种低级的问题,如果有啥需要可以联系一下他们的技术,感觉蛮靠谱哒,官网: 烽伟科技 。
上一个他们的LOGO,以表感谢。
本文为本人的学习笔记,希望对大家有所帮助。本文大量参考网络文章,文章来源列举于全文末尾。
参考:
一文读懂进化树
使用 ProtTest 来选择最优氨基酸替代模型
RAxML进化树构建的新一代——raxml-ng
RaxML是最大似然法(ML法)建树的经典软件,可以建有根树,支持服务器上多线程运行。而且RaxML是目前为数不多支持ML法多基因联合建树的软件,可以说是一款功能非常完备的软件。但是RaxML版本多,参数巨多,让很多初学者望而却步,故将其原版说明书进行翻译,希望大家能熟练掌握这门工具进行系统发育树的构建。
该中文版使用手册请见: we-chat“生信雀”
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)