orthofinder_教程_内存溢出

conda已经安装orthofinder2，试运行了一下，目前的问题：

1.跑出的结果不知道怎么用：哪些结果可以用作下一步分析？下一步分析要做什么？怎么做？

2.-M raxml-ng 的命令不能用，显示“”未安装raxml“”：不知道怎么自定义多序列比对和建树参数（参数方面结合具体数据同时参考其他文献）？

解决方案：

A： https://www.jianshu.com/p/16e0bbb2ba19

比高乱较基因组学的相关结果文件：

Orthogroups_SpeciesOverlaps.csv：不同物种间的同源基因的交集

SingleCopyOrthogroups.txt：单基因拷贝组的编号

Statistics_Overall.csv：总体统计信息

Statistics_PerSpecies.csv：分物种统计信息

其中，我们可以用Orthogroups.GeneCount.tsv来作为CAFE的输入文件，分析基因家族的扩张与收缩；使用SpeciesTree_rooted.txt作为推断的物种树，并使用r8s，从中提取超度量树（ultrametric tree）即时间树

1-2、下一步分析包括什么？

A：直系同源基因聚类的可视化及结果解读、利用多序列比对结果建树、估算物种分化时间、基因家族收缩和扩张分析、AI美化图表

https://www.jianshu.com/p/a07dddc7747e

1-3、怎么做？

教程：

直系同源基因 https://www.jianshu.com/p/a07dddc7747e

建树 https://www.jianshu.com/p/b4a5260bc254

https://www.jianshu.com/p/9ef6d7f273b3

https://www.jianshu.com/p/52c2b99615f6

https://www.jianshu.com/p/90301eeb063a

https://www.jianshu.com/p/25e60508a08f （成功案例）

分歧时间 https://www.jianshu.com/p/b12e058c6597

基因家族收缩和扩张 https://www.jianshu.com/p/d334ec7c3571 （成功案例）

系统发育树的美化 itol AI

基因组共线性 https://www.jianshu.com/p/76d3590f7ecf

待补充

1-3-1、按照教程做的过程中有哪些难点？

A：r8s安装不上，安装包不完整，显示“缺少filename.o文键缺件”；

AI美化不会；

待补充

A：参照 https://www.jianshu.com/p/9ef6d7f273b3

3、orthofinder结果中的比较基因组统计目录结果如何可视化？

A：结果文件有什么意义： https://www.jianshu.com/p/a21f1f907a3e

一些坑：

orthofinder2的参数戚亮档 https://www.jianshu.com/p/f68b3b2dfc1d

cafe运行成功案例 https://www.jianshu.com/p/25a98611f688

利用R包可视化基因树 https://www.jianshu.com/p/e180694451a3 （有教程齐全的官方在线网站，不推荐用R）

主力软件总结 https://www.jianshu.com/p/ac89857c455f

宝藏up（多看看） https://www.jianshu.com/u/b52cb67b3e80

一些软件推荐，可以看看 https://www.jianshu.com/p/15dbf53640a0

TBtools 比较基因组文件准备 https://www.jianshu.com/p/6c33312df832

raxml-ng https://mp.weixin.qq.com/s?__biz=MzA5NjU5NjQ4MA==&mid=2651160708&idx=1&sn=38e13cc0f14062b765616d3e848f0f76&chksm=8b5c87ebbc2b0efdbcd7f3f20589cde373bbd259c43261df230357149a3fc5a4f98a10c8db61&scene=21#wechat_redirect

iq-tree https://www.jianshu.com/p/df234ca0de71

如何构建生信平台（得花点时间慢慢看，太难了） https://protocolexchange.researchsquare.com/article/pex-807/v3

前言：因为最近陆陆续续接手了几个物种的基因组项目，这也是生信分析中很大的一块。其中最基础的是组装和注释（当然我们实验室也做组装方法学的研究）。现在随着很多物种基因组的发表，纯基因组想发个很好的文章没有新颖的故事感觉也挺难的。看最近关于基因组的文章，尤其是已经release过的物种，好像都是在炒泛基因组/SV的概念。因为我们做的是多倍体物种，所以更多的就牵扯到多倍体进化，物种的比较等等比较基因组学的内容。所以最近一直在陆陆续续的系统学习一些这方面的分析。

先介绍几个概念。

Orthologs(直系同源物)是在两个物种的最后共同祖先（LCA）中来自单个基因的一对基因。直系同源物是同源性基因，是物种形成事件的结果。Paralogs（旁系同源物)是同源基因，是重复事件的结果。下图就可以看到，不同物种间的alpha-chain gene互为Orthologs(直系同源物)。这时候可以引用一个新名词orthogroup （正交群）就用来形容自一组物种的LCA中的单个基因的基因组（在图中就是alpha chain gene）。然后同一物种间alpha 和beta chain gene互为Paralogs(旁系同源物)。最后所有这些关系都可以由OrthoFinder来识别。

在介绍基因家族收缩和扩张之前，有一个概念是绕不过去的，就是基因家族。

基因家族（gene family），是来源于同一个祖先，由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因，它们在结构和功能上具有明显的相似性，编码相似的蛋白质产物，同一家族基因可以紧密排列在一起，形成一个基因簇，但多数时候，它们是分散在同一染色体的不同位置，或者存在于不同的染色体上的，各自具有不同的表达调控模式。在基因组项目中，通常会选择自己要研究的物种和其近缘的物种通过比对来寻找基因家族。

谈论到直系同源基因分析的时候，大部分教程都是介绍OrthoMCL，这是2003年发表猛蔽的一个工具，目前的引用次数已经达到了3000多，但这个软件似乎在2013年之后就不在更新，而且安装时还需要用到MySQL（GitHub上有人尝试从MySQL转到sqlite）。

而OrthoFinder则是2015年出现的软件，目前已有400多引用。该软件持续更新，安装更加友好，因此决定使用它来做直系同源基因的相关分析。

那么，OrthoFinder能做什么？

OrthoFinder: solving fundamental biases inwhole genome comparisons dramatically improves orthogroup inference accuracy提到，它的优点就是比其他的直系同源基因组的推断软件准确，并且速度还快。

此外它还能分析所提供物种的系统发育树，将基因树中的基因重复事件映射到物种树的分支上，还枝册州提供了一些比较基因组学中的统计结果。

OrthoFinder的分析过程分为如下几步:

1. BLAST all-vs-all搜索。使用BLASTP以evalue=10e-3进行搜索，寻找潜在的同源基因。(除了姿悔BLAST, 还可以选择DIAMOND和MMSeq2）

2. 基于基因长度和系统发育距离对BLAST bit得分进行标准化。

3. 使用RBNHs确定同源组序列性相似度的阈值

4. 构建直系同源组图(orthogroup graph)，用作MCL的输入

5. 使用MCL对基因进行聚类，划分直系同源组

OrthoFinder2在OrthoFinder的基础上增加了物种系统发育树的构建，流程如下：

1. 为每个直系同源组构建基因系统发育树

2. 使用STAG算法从无根基因树上构建无根物种树

3. 使用STRIDE算法构建有根物种树

4. 有根物种树进一步辅助构建有根基因树

5. 基于Duplication-Loss-Coalescent 模型，有根基因树可以用来推断物种形成和基因复制事件，最后记录在统计信息中。

===安装===

对于我这种安装软件总是无能的人，conda真是拯救了我。

conda install -c bioconda -c conda-forge orthofinder

==测试例子运行===

orthofinder -f ExampleData -S mmseqs

注： -f 指定文件夹

-S 指定序列搜索程序，有blast,mmseqs, blast_gz, diamond可用

so easy！！！

OrthoFinder的基本使用就是如此简单，而且最终效果也基本符合需求。

如果你想根据多序列联配(MSA)结果按照极大似然法构建系统发育树，那么你需要加上-M msa。这样结果会更加准确，但是代价就是运行时间会更久，这是因为OrthoFinder要做10,000 - 20,000个基因树的推断。

OrthoFinder默认用mafft进行多序列联配，用fasttree进行进化树推断。多序列联配软件还支持muscle, 进化树推断软件还支持iqtree, raxml-ng, raxml。例如参数可以设置为-M msa -Amafft -T raxml.

并行化参数: -t参数指定序列搜索时的线程数，-a指的是序列搜索后分析的CPU数。

===结果文件===

运行结束后，会在ExampleData里多出一个文件夹，Results_ Jun07, 其中Jun07是我运行的日期

(1) Results Files: Orthogroups

包含一个主文件“Orthogroups.csv”和两个支持文件：

Orthogroups.csv，每一行为一个group，每一列为一个物种，行列交汇处为基因名称。

Orthogroups_UnassignedGenes.csv，包含所有未分配到任何group的基因名称。

Orthogroups.txt，OrthoMCL格式的输出结果，内容等同于Orthogroups.csv。

（2）Results Files: Comparative_Genomics_Statistics

包含一些统计数据，可用于比较基因组分析、绘图以及质控。

Statistics_Overall.csv和Statistics_PerSpecies.csv，提供基本的描述信息

Orthogroups_SpeciesOverlaps.tsv，两两物种的group共享矩阵

- G50：group中的基因数，使得50％的基因处于该大小或更大的group中。

- O50：最小数量的group，使得50％的基因处于该大小或更大的group中。

- Number of single-copy orthogroups：每个物种中只有一个基因的group（相当于单拷贝核心基因）。这些group是构建物种树和许多其他分析的理想选择。

- Unassigned gene：未与任何其他基因划分到一个group的基因。

(3) Results Files: Orthologues

两两物种间的直系同源基因，每一行为一个group，第一列为group编号，第二列为第一个物种的基因，第三列为第二个物种的基因。同一物种的基因名以“,”分割。直系同源物可以是一对一，一对多或多对多。

(4) Results Files: Gene_Trees and Species_Tree

每个group的基因树和定根的物种树以newick格式输出，可以用各种看树软件展示，如MEGA、iTOL、Dendroscope和FigTree等，个人推荐用iTOL。例子的species的tree展示：

===其它用法===

1. 添加新物种到之前的分析（previous_orthofinder_directory指的是包含“SpeciesIDs.txt”的目录）

orthofinder -bprevious_orthofinder_directory -f new_fasta_directory

2. 从之前的分析中移除物种

从输出目录下找到工作目录“WorkingDirectory”中的“SpeciesIDs.txt”文件，在要移除的物种那一行最前面加上一个“#”并保存，然后运行（previous_orthofinder_directory指的是包含“SpeciesIDs.txt”的目录）：

orthofinder -bprevious_orthofinder_directory

3. 同时添加和删除物种

编辑好“SpeciesIDs.txt”后，运行：

orthofinder -b previous_orthofinder_directory-f new_fasta_directory

1. CIPRES网站：

CIPRES Science Gateway V 3.3 ： https://www.phylo.org/portal2/home.action#

2. 上传数据，选择RAXML tools

3. 设置参数

首先安装Linux版本RAxML

$ raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s example.phy -n ex -T 20

并行化软件支持，能最快速计算。并行化20个任务，每个任务使用8线程，能使用全部160线程计算资源：

$ /opt/sysoft/mpich2-1.5/bin/mpirun -np 20 raxmlHPC -f a -x 12345 -p 12345 -# 100 -m PROTGAMMALGX -s ex.phy -n ex -T 8

参数解读：

RAxML 的参数非常多，设置非常复杂，上述常用例子的参数为：

-f a

此参数用于选择 RAxML 运算的算法。可以设定的值非常之多。 a 表示执行启或哪快速 Bootstrap 分析并搜索最佳得分的 ML 树。

-x 12345

指定一个 int 数作为随机种子，以启用快速 Bootstrap 算法。

-p 12345

指定一个随机数作为 parsimony inferences 的种子。

-# 100

指定 bootstrap 的次数。

-m PROTGAMMALGX

指定核团物苷酸或氨基酸替代模型。PROTGAMMALGX 的解释： "PROT" 表示氨基酸替代模型； GAMMA 表示使用 GAMMA 模型； X 表示使用最大似然法估计碱基频率。

-s ex.phy

指定输入文件。phy 格式的多序列比对结果。软件包中包含一个程序来将 fasta 格式转换为 phy 格式。

-n ex

输出文件的后缀为 .ex 。

-T 20

指定多线程运行的 CPUs 。

RAxML_bootstrap.ex：完整的全部bootstrapped trees

RAxML_bestTree.ex ：最佳得分 ML 树

RAxML_bipartitions.ex ：有 bootstrap 分值支持的最佳得分树，分值在 node 上。

RAxML_bipartionsBranchLabels.ex ：悄码有 bootstrap 分值支持的最佳得分树, 分值在 branch 上。FigTree不能识别此文件。

说明：

-f a: tell RAxML to conduct a rapid Bootstrap analysis and search for the best-scoring ML tree in one single program run. Example: raxmlHPC -f a -s alg -x 12345 -# 100 -m GTRCAT -n TEST.

f b: when this is specified RAxML will draw the bipartitions using a bunch of topologies (typically bootstrapped trees) specified with -z (see below) onto a single tree topology specified by -t (typically the best-scoring ML tree). Example: raxmlHPC -f b -t ref -z trees -m GTRCAT -s alg -n TEST.

If you use -f a the tree file name RAxML_bipartions.[run_name] will be the best tree with bootstraps. For the f -b approach you first need to estimate a an optimal tree.

Figtree: 使用Figtree查看 RAxML_bipartions.ex 文件，可显示最佳得分树的bootstrap信息。

MEGA: 使用MEGA软件可得到压缩树condensed tree，打开 RAxML_bipartions.ex或者RAxML_bipartionsBranchLabels.ex 显示设定bootstrap阈值的condensed tree。

更多参数可参考：https://www.yuque.com/wusheng/gw7a9p/mcc73y

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/tougao/12125229.html

orthofinder

发表评论

评论列表（0条）