MEGA 的 No common sites found

MEGA 的 No common sites found,第1张

感谢 原贴 答主白墨

错误

解决过程

看文档,文档的提示如下:

https://www.megasoftware.net/webhelp/errormessages_hc/hc_no_common_sites.htmwww.megasoftware.net

No Common Sites

For the sequences and data subset options selected,  MEGA  found zero common sites. If you selected the  complete deletion  option then you might achieve better results using the  pairwise deletion  option, as  complete deletion  removes all sites containing a gap in any part of the alignment. If you selected the  pairwise deletion  option then MEGA was unable to calculate the distance between one and several of the sequence pairs in the alignment. To identify such pairs compute a pairwise distance matrix using the p-distance method and look for the word “n/c” in place of the pairwise distance value.

P-distance

计算p距离(p-distance),计算式为:p= nd /n,其中 n为所测定序列的核苷酸数,nd 为核苷酸差异数.p距离没有考虑同一个位点多个核苷酸间的替换状况,即将2个序列间核苷酸差异率作为彼此间的遗传距离.

你有可能用到的技巧

左键按住ID列拖动这行,可以移动整条序列,可以把相似的序列放在一起,排出差异较大的序列

点击选中ID来选择整条序列,按Delete键删除整条序列,切记不要删除单个或多个碱基

进化树一般用NJ树,速度快,效果也不错,如果需要其他模型可以先用NJ树测一下,然后再用耗时的其他模型构建

Ctrl+Z撤销上一步 *** 作

Ctrl+c拷贝数据

Ctrl+x截切数据

Ctrl+v粘贴剪切板中的数据,如果是非序列,那么无效

实际 *** 作

1 进入 Pairwise Distances 工具,选择比对后的序列 fas 文件

2 参数按如下方法修改

3 我们会得到一个矩阵,里面有红色标识的色块,这些就是 No Common Sites

4 删除掉这些无意义数据(在比对序列页面中删除)

需要注意的是每删除一条序列,MEGA会重新编号,意味着距离矩阵和对比页面的编号会不匹配,所以最好看着id名字来删除

5 如果还有这些空值,理所应当的出现如下错误:

6 我们可以看到在71行有问题回到比对页面

7 可以看到,这一序列在这个地方几乎没有和前后任何序列有匹配(相似序列),果断删除

8 保存为meg文件,以便后续分析

9 命名

10 这里指是否要翻译,这里我们只做DNA序列,选择No(当然,你如果要做氨基酸序列分析,选择yes)

11 现在回到MEGA的开始的页面

这里需要注意的是:序列比对窗口和主窗口可以同时显示,为了方便,将窗口调成如下所示

12 选择构建NJ树

13 这里会d框,问你要不要使用已经载入的数据,我们当然不用啦,选择No。重新选择刚刚删除了差异序列的meg文件

14 参数默认,开始测试

15 如果还出现d框,按照5-14步骤定位的序列,删除它。如果没问题的话,开始跑图

16 出图

另外,如果想出图结果比较好的话,试试以下的方法

记录那些差异比较大的序列

在 比对前,比对前,比对前 的文件中删除这些序列

用MEGA做序列比对

查看比对情况,如果还出现如上错误,继续1,2,3步骤

直到出现同源性较高一组序列,完成进化树

选择多种建树方法来出图

其他原因:

1.对比完的序列由于需要对齐相似部分序列就会产生gaps(为了保证更多的匹配对比软件会把整体序列拆分成多段序列,但是要保证两条序列要长度一致,那么中间就会产生间隔)。一般情况下,序列gaps由-替代。如果你的序列中里出现了空格就会报错。

PYAAPYQKPP DSHSAGGGGAAYPP

PYAAPYQKPPKEDSHSSSGGGAAYPP

解决 :将空格替换为-

PYAAPYQKPP--DSHSAGGGGAAYPP

PYAAPYQKPPKEDSHSSSGGGAAYPP

2.在序列比对时,没有设置gaps,就会使序列长短不一。由于一般的进化树算法需要序列对齐的矩阵来进行后续计算,因此报错。一般MEGA里自带的对比程序不会出现这个问题

解决:

分子进化的研究对象是核酸和蛋白质序列。研究某个基因的进化,是用它的DNA序列,还是翻译后的蛋白质序列呢?序列的选取要遵循以下原则:1)如果DNA序列的两两间的一致度≥70%,选用DNA序列。因为,如果DNA序列都如此相似,它的蛋白质会相似到看不出区别,这对构建系统发生树是不利的。所以这种情况下应该选用DNA序列,而不选蛋白质序列。2)如果DNA序列的两两间的一致度≤70%,DNA序列和蛋白质序列都可以选用。

将要用于构建系统进化树的所有序列合并到同一个fasta格式文件,注意:所有序列的方向都要保持一致 ( 5’-3’)。 想要做系统发生树先要做多序列比对,然后把多序列比对的结果提交给建树软件进行建树,所以在用MEGA建树时可以输入一个已经比对好的多序列比对,也可以输入一条原始序列,让MEGA先来做多序列比对,再建树(一般我们都是原始序列)。所以我们以后者为例。

打开MEGA软件,选择主窗口的”File” → “Open A File”→找到并打开fasta文件,这时会询问以何种方式打开,我们是原始序列,需要先进行多序列比对,所以选择“Align”。如果是比对好的多序列比对可以直接选择“Analyze”。

在打开的Alignment Explorer窗口中选择”Alignment”“Align by -ClustalW” 进行多序列比对(MEGA提供了ClustalW和Muscle两种多序列比对方法,这里选择熟悉的ClustalW),d出窗口询问“Nothing selected for alignment,Select all?”选择“OK”。

之后,d出多序列比对参数设置窗口。这个窗口和EMBL在线多序列比对一样,可以设置替换记分矩阵、不同的空位罚分(罚分填写的是正数,计算时按负数计算)等参数。MEGA的所有默认参数都是经过反复考量设置的,这保证了MEGA傻瓜机全自动档的品质,所以当你无从下手,或者没有什么特别要求的时候,直接点击“OK”,接受这些默认参数,开始多序列比对。

了解两个参数:

① 替换记分矩阵,替换记分矩阵是反映残基之间相互替换率的矩阵,也就是说,它描述了残基两两相似的量化关系。DNA 序列有 DNA 序列的替换记分矩阵,蛋白质序列有蛋白质序列的替换记分矩阵,两者不可混用。

DNA 序列的替换记分矩阵主要有三种:1)等价矩阵。相同核苷酸得分为 1,不同核苷酸间的替换得分为 0。由于不含碱基的理化信息和不区别对待不同的替换,一般只用于理论计算。 2)转换-颠换矩阵。转换:DNA分子中的嘌呤被嘌呤或嘧啶被嘧啶替换。颠换:DNA分子中的嘌呤被嘧啶或嘧啶被嘌呤替换。在进化过程中,转换发生的频率远比颠换高。为了反映这一情况,转换-颠换矩阵中,转换的得分比颠换要高为-1 分,而颠换的得分为-5 分。 3)BLAST 矩阵。经过大量实际比对发现,如果令被比对的两个核苷酸相同时得分为+5 分,不相同为-4 分,这时比对效果最好。这个矩阵广泛地被 DNA 序列比较所采用。没有为什么,就是好,实践经验所得。因为这个矩阵最早应用于 BLAST 工具,因此得名 BLAST 矩阵。

蛋白质的替换记分矩阵要比核酸的复杂一些: 1)等价矩阵。相同得 1 分,不同得 0 分。 2)PAM矩阵。基础的 PAM-1矩阵反应的是进化产生的每一百个氨基酸平均发生一个突变的量值,是基于相似度>85%的序列产由统计方法计算得到的。由PAM-1 自乘 n 次可以外推得到 PAM-n ,表示发生了更多次突变。如果序列亲缘关系远,也就是说序列间会有很多突变,那就选 PAM 后面跟一个大数字的矩阵;如果亲缘关系近,也就是突变比较少,序列间大多数地方都是一样的,那就选 PAM 后面跟一个小数字的矩阵。3)BLOSUM矩阵。后面也有一个编号,是通过对大量符合特定要求的序列计算而来的。比如BLOSUM62是指这个矩阵是由一致度≥62%的序列计算得到的。如果序列亲缘关系远,序列相似度低,那就选BLOSUM 后面跟一个小数字的矩阵;如果序列亲缘关系近,序列相似度高,那就选BLOSUM 后面跟一个大数字的矩阵。总结,亲缘关系较近的序列之间的比较,用 PAM 数小的矩阵或BLOSUM 数大的矩阵;而亲缘关系较远的序列之间的比较,用 PAM 数大的矩阵或 BLOSUM数小的矩阵。对于关系较远的序列之间的比较,由于 PAM250 是通过矩阵自乘推算而来的,所以其准确度受到一定限制。相比之下BLOSUM 矩阵更具优势。对于关系较近的序列之间的比较,用 PAM 或 BLOSUM 矩阵做出的比对结果,差别不大。如果关于要比较的序列不知道亲缘关系远近,那么就闭着眼睛用BLOSUM62 吧!如果你记

不住或者听不懂上面讲的种种,那就记住 BLOSUM62 这个名字,也可以走遍天下全不怕!

图1:氨基酸差异与矩阵编号对照

图2: 序列亲缘关系远近与矩阵的选择 ② 空位罚分包括两种: gap 开头(gap open)和gap延长(gap

extend)。默认gap开头罚分高,gap延长罚分低,这样得出的结果gap很集中,有很多长串出现的gap,这可以比对两条很相似的序列–同源序列;相反,如果gap开头罚分少,gap延长罚分高,比对结果gap就比较分散,极少出现连续长串的gap(可以想象其中的原因,总是要保证得分高),这可以比对两条绝大部分序列都很相似,但其中一条的一个功能区在另一条序列中是缺失的两条序列,可以找出这个功能区。

比对过程是先进行双序列比对,在进行多序列比对,最后会出现一个多序列比对结果。将之作为中间结果保存下来。在Alignment Explorer窗口中选择“Data”→“Export Alignment”→“MEGA Format”。这里一定选择MEGA format以方便MEGA后续分析(其他格式适用于其他软件的分析),MEGA自动赋予“.meg”后缀名,保存后,

d出窗口,“为这组数据命名”,自己看得懂知道就可以,我这里命名为“il1r2 alignment”。

生成的“.meg”文件可以双击直接导入MEGA。也可以将其拖入MEGA主窗口中。拖入后主窗口增加了一个“TA”按钮,点击d出新窗口“Sequence Data Explorer”,其是多序列比对结果。再点击“Sequence Data Explorer”上的“TA”按钮,点击后多序列最上面增加了一行,这一行是根据多序列比对结果分析得出的共有序列(consensus sequence),也就是一列里出现次数最多的字母。多序列比对中每一列里的字母如果和共有序列相同则打点,不同则标出不同的字母,空位还是空位。

如果还想进一步了解序列的保守程度,可以点击“C”按钮 ,以黄色标记保守序列;或者点击“V”按钮 ,以黄色标记不保守序列。通过进一步的分析,可以淘汰掉一些序列,比如海选的的序列里有一些不合群的序列,就可以把他们去掉,不让他们参与建树,以免影响建树质量。

此外,还可以对这些序列进行分组标记。点击分组按钮,点击“加号”按钮,更改组名,然后按住Ctrl键同时选中Ungrouped Taxa 列表中的要放入这个组的序列,选中后点击“箭头”按钮,即可将序列放入分组。同理,可以创建其他分组。当序列数量较多时,人为分组,可以从树上更加清晰的看出组内哪些成员叛逃了去了别的组。

此外,输入序列的名字较长,作为构建的系统发生树上叶子的名字,会破坏树的外观也不利于信息的解读。因此,需要人为修改一下序列的名字。选中序列后点击,把名字改为能区分彼此的关键词,全部改好之后点击“save”按钮,准备工作全部完成。

开始建树。点击MEGA主窗口上的Phylogeny下拉菜单,选择Neighbor Joining(最近邻居法)。d出窗口询问是否使用当前 .meg里面的数据,选Yes。接下来,d出参数设置窗口(Analysis Preferences)。参数设置对构建的系统发生树的准确程度非常重要。在树构建好之后,还经常需要根据树的具体情况,重新设置参数,并重新建树,如此反复,纸质结果令人满意为止。同样的如果对参数设置摸不着头脑,就接受默认设置,也能做出基本满意的系统发生树。 至少应该掌握其中三个参数的设置: ① Test of Phylogeny(建树的检验方法),是用来检验建树的质量的。默认的检验方法是Bootstrp method (步长检验)。步长检验需要设

定检验次数,通常为100的倍数,默认设置为500。步长检验是根据所选择的建树方法,计算并绘制指定次数株系统发生树。因为大多数建树的方法的核心算法都是统计概率模型,所以每次计算出来的树都会有所差别。而剑豪的系统发生树上每个节点上都会标有一个数字,它代表了指定次数次计算所得出的系统发生树中有百分之多少的树都含有这一节点。一般来讲,绝大多数节点上的数值都大于70%的树才可信。个别低于70%的节点可以暂且容忍,或通过添加、山间序列来改善质量。

② Substitution Model。是选择计算遗传距离时使用的计算模型。理论上应该尝试各种模型,根据检验结果选择最合适的模型计算。但在实际 *** 作中,可先尝试选用较简单的距离模型,比如p-distance。 ③ Gap/Missing Data Treatment,大多数建树方法会要求删除多序列比对中含有空位较多的列。但是根据遗传距离度量方法的不同,删除原则也不同。如果是以序列间不同残基的个数来度量遗传距离的话,这里需要选择 Complete deletion(全部删除)。如果是其他方 法,比如这里选用的 NJ 方法,可以选择 Partial deletion(部分删除)。删除程度定在 50%,即,保留一半含有空位的列。

按照以上方案参数设置后,点击“Compute”按钮 ,开始构建系统发生树。经过一番计算之后,新窗口 Tree Explorer 里展示的就是创建好的系统发生树。这个窗口里有两个标签页。第一个是 Original Tree(原始树),第二个是 Bootstrap consensus tree(步长检验合并出来的树)。Bootstrap consensus tree 上,节点处的数字表示,经步长检验有百分之几的树具有这根树枝,即,反应了该树枝的可信度。当前构建的这株系统发生树中,绝大多数节点处的数值都是≥70 的话,这株树整体上就是可信的 。

Original Tree 是步长检验构建的 500 株树中的一株,未经过多棵树合并,所以树枝的长短可以精确代表遗传距离。此外,从这株树也可以看出之前的人为分组情况是不是发生了意想不到的变化。比如,有的可能似乎脱离了分组,成为了外类群,从而确定了树根。 树构建好之后,外形也许还不太令人满意。比如也许你想要将树的外形改成圆形或三角型,可以通过 按钮选择。或者你想要调整树枝的粗细或字体的大小,可以从 View 下拉菜单下的 Option 选项卡中调整。调整好之后,就可以把这棵树保存成图片了。保存图片可以点Image 下拉菜单,选择保存格式。或者将窗口放大,再点按钮将树放大之后屏幕截图。

使用TreeExplorer窗口中提供的一些功能可以对生成的系统进化树进行调整和美化。另外,还可以用Word进一步编辑MEGA构建的进化树。

至此,一株 NJ 树就构建好了。

**一般说来,MEGA适用于对少量的序列进行比对和画Tree,如需处理大量或海量的序列数据,建议使用ARB。 **

把下载的meg格式的文件

放在merig里面的application这个文件包里就行了

有个专门服务于至尊宝meg格式的手机网站

里面有详细介绍

还有专门讨论安装的版块

网址是

http://met.stuwap.com

保你满意!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8064653.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-13
下一篇 2023-04-13

发表评论

登录后才能评论

评论列表(0条)

保存