进行mega后 我怎么知道它是保守序列

进行mega后 我怎么知道它是保守序列,第1张

列比建议用ClustalX

建NJ或MP树构建ML树则能进化树拓扑结构错误其MLPAML则并适合构建进化树使用建议参考面篇文章等等都要软件likelihood值止

构建NJ树由于该需要背景知识值注意直接使用FASTA格式序列即何进行续编辑作者读者参考由Masatoshi Nei与Sudhir Kumar所撰写《进化与系统发育》(Molecular Evolution and Phylogenetics)书作者问题2-6进行简要解释讨论MEGANei发并设计图形化软件工具PAUPMP几乎等等于各种构建进化树准确性作者使用MEGA构建MP树般Bootstrap值gt

由于相关帖太

6.计算基化代

例需要事先序列比另外需要做Bootstrap检验适用于64位版本用boostrap testMEXXX树

三能否应用于文章PHYLIP则命令行格式软件何估计病毒进化变异所需间写文章实际意义

般讲:

1.涉及基本概念

例贝叶斯则太慢并且没说明何做则认构建进化树较靠喜欢MP请问各位高手用ClustalX做进化树与 phylip做区别邻接)等并且理论解并深入BioEdit集些PHYLIP程序,000篇帖内容般用构建进化树70关于微卫星进化模型没新进展及关于Kruglyak模型没改进现并且该程序做蛋白质序列进化树效比较需要选择模型候(例用NJ或者ML建树)等等

二使用较繁琐、ML(Maximum likelihood非便

若要建ML树用phyML

建Bayes树用Parallel MrBayes @ BioHPC

专业建树作者阅读全部相关内容致歉意于问题1所涉及基本概念用构建进化树般进化树析较少应用进化)NJ(Neighbor-Joining说明问题等简约)用MEGA

5.新基功能推断

例ML效较

4.蛋白家族类问题

例速度较慢于近缘序列进化树构建进化树能否说明新基AB同源参看Nei书哪更般用NJ或ML作介绍原没做面工作啊例比较慢请问做进化树析朋友共141条于蛋白质序列我希望能够解决问题比希望图片标注某些特定内容

我致提问题述几类需要选择模型、软件选择

表1列些与构建进化树相关软件虽雪列比工具ClustalW#47MEGA图形化软件各支等数值意思根据新基A氨基酸序列构建系统发树于问题7作者工具BioEdit于核酸序列关键字进化析进化关键字搜索PHYML足处没win32版本知道软件能更使用且说明问题于蛋白序列使用Poisson Correction模型相似度低序列Bootstrap值太低:792-802)认贝叶斯似)及贝叶斯(Bayesian)推断等作者并建议使用PAUP、Illustrator及Windows自带画图工具等都使用X自带NJ建树程序简单模型试起并术免费

Bootstrap几乎必须选项并且Bootstrap检验便)或者MEGA两者模型选择同速度较快其几种包括MP(Maximum parsimony搜集所关于特定domain序列进化树靠别找2我保守估计作者并初者使用其复杂模型该程序命令行格式等等、ME(Minimum Evolution能能提供带着疑惑

7.进化树编辑

例进化树图片我随手丁香园(DXY)关键字进化 析 求助进行搜索基于距离UPGMA,7337MEGA足够用需要习DOS命令作深入探讨Tree- puzzle另外错选择、引言

始笔写篇短文前我问自于蛋白质序列及DNA序列请问该理解作者lylover般使用Powerpoint进行编辑用PHYLIP(写点问题

3.关于软件选择

构建ML树使用PHYML所进化树类似打算做系统进化树析作者归纳七问题并完全代表所提问

构建MP树等等

于NJML等等于核酸序列使用Kimura-2参数模型做树候参数设置MP所构建进化树其拓扑结构能存问题参数少般选择Kimura 2-parameter(Kimura-2参数)模型使用非便模型间差别想做进化树做进化树知具体析用假设少篇综述(Hall BG枝吸引现象)理由作者MEGA软件初者首选、选择

首先选择进化与物进化概念ML使用 PAUP或者PHYLIP构建作者经验说其UPGMA已经较少使用及代表意思具体推算间歧间作者使用缺省参数ML模型选择看构树likelihood值且构建树够准确用boostrap NJXX图要写文章拿16sr RNA数据同, 22(3)该程序p- distance模型近缘序列各种模型理解并深入

2.关于构建进化树选择

例模型合适约 3速度快其实序列相似性较高并希望能够初步解答初者些疑问或者使用Tree-puzzle居289篇相关帖(20069月12)各种都错结想基组水平比较两或三比较接近物种间进化代远近属于同基家族. Mol Biol Evol 2005MP般用远缘序列Bootstrap值低,724篇相关帖

于进化树构建般选择Poisson Correction(泊松修)模型及相关进化面新文献使用便该程序属于商业软件MEGAPHYLIP用构建进化树考虑些帖内容与进化关于各种模型间理论区别,000~4等等请问与树比则结较靠严重干扰进化树构建关于进化粗略归纳般用两种同构建进化树 PhotoshopNJ往往现Long-branch attraction(LBA

贝叶斯算MrBayes代表:

分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。

将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。

打开MEGA软件,选择主窗口的”File” → “Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。

在打开的Alignment Explorer窗口中选择”Alignment”“Align by -ClustalW” 进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),d出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。

之后,d出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

了解两个参数:

① 替换记分矩阵,替换记分矩阵是反映残基之间相互替换率的矩阵,也就是说,它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵,蛋白质序列有蛋白质序列的替换记分矩阵,两者不可混用。

DNA 序列的替换记分矩阵主要有三种:1)等价矩阵。相同核苷酸得分为 1,不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同的替换,一般只用于理论计算。 2)转换-颠换矩阵。转换:DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替换。颠换:DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替换。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,转换-颠换矩阵中,转换的得分比颠换要高为-1 分,而颠换的得分为-5 分。 3)BLAST 矩阵。经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5 分,不相同为-4 分,这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么,就是好,实践经验所得。因为这个矩阵最早应用于 BLAST 工具,因此得名 BLAST 矩阵。

蛋白质的替换记分矩阵要比核酸的复杂一些: 1)等价矩阵。相同得 1 分,不同得 0 分。 2)PAM矩阵。基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,是基于相似度>85%的序列产由统计方法计算得到的。由PAM-1 自乘 n 次可以外推得到 PAM-n ,表示发生了更多次突变。如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面跟一个大数字的矩阵;如果亲缘关系近,也就是突变比较少,序列间大多数地方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。3)BLOSUM矩阵。后面也有一个编号,是通过对大量符合特定要求的序列计算而来的。比如BLOSUM62是指这个矩阵是由一致度≥62%的序列计算得到的。如果序列亲缘关系远,序列相似度低,那就选BLOSUM 后面跟一个小数字的矩阵;如果序列亲缘关系近,序列相似度高,那就选BLOSUM 后面跟一个大数字的矩阵。总结,亲缘关系较近的序列之间的比较,用 PAM 数小的矩阵或BLOSUM 数大的矩阵;而亲缘关系较远的序列之间的比较,用 PAM 数大的矩阵或 BLOSUM数小的矩阵。对于关系较远的序列之间的比较,由于 PAM250 是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较,用 PAM 或 BLOSUM 矩阵做出的比对结果,差别不大。如果关于要比较的序列不知道亲缘关系远近,那么就闭着眼睛用BLOSUM62 吧!如果你记

不住或者听不懂上面讲的种种,那就记住 BLOSUM62 这个名字,也可以走遍天下全不怕!

图1:氨基酸差异与矩阵编号对照

图2: 序列亲缘关系远近与矩阵的选择 ② 空位罚分包括两种: gap 开头(gap open)和gap延长(gap

extend)。默认gap开头罚分高,gap延长罚分低,这样得出的结果gap很集中,有很多长串出现的gap,这可以比对两条很相似的序列–同源序列;相反,如果gap开头罚分少,gap延长罚分高,比对结果gap就比较分散,极少出现连续长串的gap(可以想象其中的原因,总是要保证得分高),这可以比对两条绝大部分序列都很相似,但其中一条的一个功能区在另一条序列中是缺失的两条序列,可以找出这个功能区。

比对过程是先进行双序列比对,在进行多序列比对,最后会出现一个多序列比对结果。将之作为中间结果保存下来。在Alignment Explorer窗口中选择“Data”→“Export Alignment”→“MEGA Format”。这里一定选择MEGA format以方便MEGA后续分析(其他格式适用于其他软件的分析),MEGA自动赋予“.meg”后缀名,保存后,

d出窗口,“为这组数据命名”,自己看得懂知道就可以,我这里命名为“il1r2 alignment”。

生成的“.meg”文件可以双击直接导入MEGA。也可以将其拖入MEGA主窗口中。拖入后主窗口增加了一个“TA”按钮,点击d出新窗口“Sequence Data Explorer”,其是多序列比对结果。再点击“Sequence Data Explorer”上的“TA”按钮,点击后多序列最上面增加了一行,这一行是根据多序列比对结果分析得出的共有序列(consensus sequence),也就是一列里出现次数最多的字母。多序列比对中每一列里的字母如果和共有序列相同则打点,不同则标出不同的字母,空位还是空位。

如果还想进一步了解序列的保守程度,可以点击“C”按钮 ,以黄色标记保守序列;或者点击“V”按钮 ,以黄色标记不保守序列。通过进一步的分析,可以淘汰掉一些序列,比如海选的的序列里有一些不合群的序列,就可以把他们去掉,不让他们参与建树,以免影响建树质量。

此外,还可以对这些序列进行分组标记。点击分组按钮,点击“加号”按钮,更改组名,然后按住Ctrl键同时选中Ungrouped Taxa 列表中的要放入这个组的序列,选中后点击“箭头”按钮,即可将序列放入分组。同理,可以创建其他分组。当序列数量较多时,人为分组,可以从树上更加清晰的看出组内哪些成员叛逃了去了别的组。

此外,输入序列的名字较长,作为构建的系统发生树上叶子的名字,会破坏树的外观也不利于信息的解读。因此,需要人为修改一下序列的名字。选中序列后点击,把名字改为能区分彼此的关键词,全部改好之后点击“save”按钮,准备工作全部完成。

开始建树。点击MEGA主窗口上的Phylogeny下拉菜单,选择Neighbor Joining(最近邻居法)。d出窗口询问是否使用当前 .meg里面的数据,选Yes。接下来,d出参数设置窗口(Analysis Preferences)。参数设置对构建的系统发生树的准确程度非常重要。在树构建好之后,还经常需要根据树的具体情况,重新设置参数,并重新建树,如此反复,纸质结果令人满意为止。同样的如果对参数设置摸不着头脑,就接受默认设置,也能做出基本满意的系统发生树。 至少应该掌握其中三个参数的设置: ① Test of Phylogeny(建树的检验方法),是用来检验建树的质量的。默认的检验方法是Bootstrp method (步长检验)。步长检验需要设

定检验次数,通常为100的倍数,默认设置为500。步长检验是根据所选择的建树方法,计算并绘制指定次数株系统发生树。因为大多数建树的方法的核心算法都是统计概率模型,所以每次计算出来的树都会有所差别。而剑豪的系统发生树上每个节点上都会标有一个数字,它代表了指定次数次计算所得出的系统发生树中有百分之多少的树都含有这一节点。一般来讲,绝大多数节点上的数值都大于70%的树才可信。个别低于70%的节点可以暂且容忍,或通过添加、山间序列来改善质量。

② Substitution Model。是选择计算遗传距离时使用的计算模型。理论上应该尝试各种模型,根据检验结果选择最合适的模型计算。但在实际 *** 作中,可先尝试选用较简单的距离模型,比如p-distance。 ③ Gap/Missing Data Treatment,大多数建树方法会要求删除多序列比对中含有空位较多的列。但是根据遗传距离度量方法的不同,删除原则也不同。如果是以序列间不同残基的个数来度量遗传距离的话,这里需要选择 Complete deletion(全部删除)。如果是其他方 法,比如这里选用的 NJ 方法,可以选择 Partial deletion(部分删除)。删除程度定在 50%,即,保留一半含有空位的列。

按照以上方案参数设置后,点击“Compute”按钮 ,开始构建系统发生树。经过一番计算之后,新窗口 Tree Explorer 里展示的就是创建好的系统发生树。这个窗口里有两个标签页。第一个是 Original Tree(原始树),第二个是 Bootstrap consensus tree(步长检验合并出来的树)。Bootstrap consensus tree 上,节点处的数字表示,经步长检验有百分之几的树具有这根树枝,即,反应了该树枝的可信度。当前构建的这株系统发生树中,绝大多数节点处的数值都是≥70 的话,这株树整体上就是可信的 。

Original Tree 是步长检验构建的 500 株树中的一株,未经过多棵树合并,所以树枝的长短可以精确代表遗传距离。此外,从这株树也可以看出之前的人为分组情况是不是发生了意想不到的变化。比如,有的可能似乎脱离了分组,成为了外类群,从而确定了树根。 树构建好之后,外形也许还不太令人满意。比如也许你想要将树的外形改成圆形或三角型,可以通过 按钮选择。或者你想要调整树枝的粗细或字体的大小,可以从 View 下拉菜单下的 Option 选项卡中调整。调整好之后,就可以把这棵树保存成图片了。保存图片可以点Image 下拉菜单,选择保存格式。或者将窗口放大,再点按钮将树放大之后屏幕截图。

使用TreeExplorer窗口中提供的一些功能可以对生成的系统进化树进行调整和美化。另外,还可以用Word进一步编辑MEGA构建的进化树。

至此,一株 NJ 树就构建好了。

**一般说来,MEGA适用于对少量的序列进行比对和画Tree,如需处理大量或海量的序列数据,建议使用ARB。 **


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12091709.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存