朴素贝叶斯(Naive Bayes)算法

朴素贝叶斯(Naive Bayes)算法,第1张

朴素贝叶斯算法属于分类算法。发源于古典数学理论,对缺失数据不太敏感,有稳定的分类效率,模型所需估计的参数很少,算法比较简单。

朴素贝叶斯算法 贝叶斯 是说明这个算法和贝叶斯定理有联系,而 朴素 是因为处理实际的需要,做了一个简化—— 假设每个特征之间是独立的 (如果研究的对象互相之间的影响很强,计算概率时考虑的问题非常复杂,做了独立假设,就可以分解后进行研究),这是这个算法模型与贝叶斯定理的区别。

将 x 作为特征,y 作为类别,那公式左边的 P(yi|x)就是说在知道特征 x 的情况下,计算这个特征属于 yi 类的可能性大小。通过比较找出这个可能性的值最大的属于哪一类,就将特征 x 归为这一类。

第3步的计算就是整个关键所在,计算依据是上面的贝叶斯公式。

对于每一个类的概率计算,公式右边的分母的 P(x)都是相同的,所以可以不计算(我们只是对最终结果进行比较,不影响)。

P(yi)也称为先验概率,是 x 属于 yi 类的一个概率,这个是通过历史信息得到的(在程序实现的时候,历史信息或者说先验信息就是我们的训练数据集),我们通过对训练样本数据进行统计,分别算出 x 属于 y1,y2,...,yn 类的概率是多少,这个是比较容易得到的。

所以,主要是求 P(x|yi)= P(a1,a2,...,am|yi)

这个时候对于贝叶斯模型的 朴素 的独立性假设就发挥作用了(综合的计算变成了独立计算后的综合,简化模型,极大地减少了计算的复杂程度):

P(a1,a2,...,am|yi) = P(a1|yi)P(a2|yi)...P(am|yi)

所以计算想要得到的东西如下:

一个程序简例

算法一:快速排序算法

快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地被实现出来。

快速排序使用分治法(Divide and conquer)策略来把一个串行(list)分为两个子串行(sub-lists)。

算法步骤:

1 从数列中挑出一个元素,称为 “基准”(pivot),

2 重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition) *** 作。

3 递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。

递归的最底部情形,是数列的大小是零或一,也就是永远都已经被排序好了。虽然一直递归下去,但是这个算法总会退出,因为在每次的迭代(iteration)中,它至少会把一个元素摆到它最后的位置去。

算法二:堆排序算法

堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序的平均时间复杂度为Ο(nlogn) 。

算法步骤:

1.创建一个堆H[0..n-1]

2.把堆首(最大值)和堆尾互换

3.把堆的尺寸缩小1,并调用shift_down(0),目的是把新的数组顶端数据调整到相应位置

4.重复步骤2,直到堆的尺寸为1

算法三:归并排序

归并排序(Merge sort,台湾译作:合并排序)是建立在归并 *** 作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。

算法步骤:

算法四:二分查找算法

二分查找算法是一种在有序数组中查找某一特定元素的搜索算法。搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜 素过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。如果在某一步骤数组 为空,则代表找不到。这种搜索算法每一次比较都使搜索范围缩小一半。折半搜索每次把搜索区域减少一半,时间复杂度为Ο(logn) 。

算法五:BFPRT(线性查找算法)

BFPRT算法解决的问题十分经典,即从某n个元素的序列中选出第k大(第k小)的元素,通过巧妙的分 析,BFPRT可以保证在最坏情况下仍为线性时间复杂度。该算法的思想与快速排序思想相似,当然,为使得算法在最坏情况下,依然能达到o(n)的时间复杂 度,五位算法作者做了精妙的处理。

算法步骤:

终止条件:n=1时,返回的即是i小元素。

算法六:DFS(深度优先搜索)

深度优先搜索算法(Depth-First-Search),是搜索算法的一种。它沿着树的深度遍历树的节点,尽可能深的搜索树的分 支。当节点v的所有边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发 现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。DFS属于盲目搜索。

深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。一般用堆数据结构来辅助实现DFS算法。

算法步骤:

上述描述可能比较抽象,举个实例:

DFS 在访问图中某一起始顶点 v 后,由 v 出发,访问它的任一邻接顶点 w1;再从 w1 出发,访问与 w1邻 接但还没有访问过的顶点 w2;然后再从 w2 出发,进行类似的访问,… 如此进行下去,直至到达所有的邻接顶点都被访问过的顶点 u 为止。

接着,退回一步,退到前一次刚访问过的顶点,看是否还有其它没有被访问的邻接顶点。如果有,则访问此顶点,之后再从此顶点出发,进行与前述类似的访问;如果没有,就再退回一步进行搜索。重复上述过程,直到连通图中所有顶点都被访问过为止。

算法七:BFS(广度优先搜索)

广度优先搜索算法(Breadth-First-Search),是一种图形搜索算法。简单的说,BFS是从根节点开始,沿着树(图)的宽度遍历树(图)的节点。如果所有节点均被访问,则算法中止。BFS同样属于盲目搜索。一般用队列数据结构来辅助实现BFS算法。

算法步骤:

算法八:Dijkstra算法

戴克斯特拉算法(Dijkstra’s algorithm)是由荷兰计算机科学家艾兹赫尔·戴克斯特拉提出。迪科斯彻算法使用了广度优先搜索解决非负权有向图的单源最短路径问题,算法最终得到一个最短路径树。该算法常用于路由算法或者作为其他图算法的一个子模块。

该算法的输入包含了一个有权重的有向图 G,以及G中的一个来源顶点 S。我们以 V 表示 G 中所有顶点的集合。每一个图中的边,都是两个顶点所形成的有序元素对。(u, v) 表示从顶点 u 到 v 有路径相连。我们以 E 表示G中所有边的集合,而边的权重则由权重函数 w: E → [0, ∞] 定义。因此,w(u, v) 就是从顶点 u 到顶点 v 的非负权重(weight)。边的权重可以想像成两个顶点之间的距离。任两点间路径的权重,就是该路径上所有边的权重总和。已知有 V 中有顶点 s 及 t,Dijkstra 算法可以找到 s 到 t的最低权重路径(例如,最短路径)。这个算法也可以在一个图中,找到从一个顶点 s 到任何其他顶点的最短路径。对于不含负权的有向图,Dijkstra算法是目前已知的最快的单源最短路径算法。

算法步骤:

重复上述步骤2、3,直到S中包含所有顶点,即W=Vi为止

算法九:动态规划算法

动态规划(Dynamic programming)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。 动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。

动态规划背后的基本思想非常简单。大致上,若要解一个给定问题,我们需要解其不同部分(即子问题),再合并子问题的解以得出原问题的解。 通常许多 子问题非常相似,为此动态规划法试图仅仅解决每个子问题一次,从而减少计算量: 一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个 子问题解之时直接查表。 这种做法在重复子问题的数目关于输入的规模呈指数增长时特别有用。

关于动态规划最经典的问题当属背包问题。

算法步骤:

算法十:朴素贝叶斯分类算法

朴素贝叶斯分类算法是一种基于贝叶斯定理的简单概率分类算法。贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概率的情况下, 如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不相关。

朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法,换言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。

构建一棵系统发育树是研究系统学和进化的基础。然而,发育树的构建是对分类单元进化历史的推测,因此对发育树的可靠性检验也是重中之重。一棵发育树的获得大致分为 数据输入 数据处理 算法计算 树的获取 可靠性检验、 树的可视化 树的注释 等等。

数据输入 一般分为两类,序列数据如DNA、AA、RNA,性状数据如形态数据、各种生态学数据。 数据处理 包括序列比对、饱和检验、碱基替换模型比较等。 算法计算 涉及到各种构建发育树的算法,如UPGMA、NJ、MP、ML、BI等,以及多基因数据的串联方法和溯祖理论之间的比较。 树的获取 指得是如何从多棵树中总结出一棵最优树。 可靠性检验 顾名思义,指对发育树拓扑结构的检验,包括自展支持、后验概率等,以及对不同发育树之间的比较。 树的可视化 是使用工具展示发育树以及使其更加美观的方法。 树的注释 包罗万象,如分化时间校准、祖先序列推测和各种生物地理学的各种注释,加深了树的深刻程度,和各种具体问题联系起来,使树的思想成为进化研究的基础方法。

序列比对是系统发育树构建的基础,旨在找到理论上的同源位点。存在多种多样的比对算法,可以由不同软件来实现。常用的如 Muscle 、 MAFFT 等。此教程以 Mega 中的Muscle算法比对DNA非编码序列为例。

此处的file需要特定的格式,如常见的fasta(.fas)格式。格式如下:

fasta格式比较简单,>后跟随序列名称,不支持空格等大部分特殊字符,仅支持部分字符如_ . 等,序列另起一行。导入文件前,需要将测序得到的序列以此序列保存,扩展名 .txt, .fas均可。

比对后的序列两段常常不整齐,此比对导致的gap(即-)会部分影响发育树结果,两段大部分截取删除后,少部分gap可用‘‘?’’填充整齐。

比对结果的保存优先使用fasta格式,而一般发育树构建软件通常使用nexus格式作为输入文件。Mega支持这两种格式的输出。

碱基替换模型是对碱基突变的量化描述,一般为一个4*4的矩阵。

4个碱基的突变情况,共产生6个不同的速率,这是一个最一般的模型,称为 General time reverse model,即GTR,该模型具有普适性,符合绝大部分数据集。该模型假设A -- T和T -- A具有相同的速率,即突变没有时间方向性,是可逆的。此等假设并未考虑其是否符合生物学的本质,仅仅是计算可行性上的需要。

该一般模型的种种简化,会产生各种模型,如F81、JC69、HKY等。一个重要的简化是把6个速率分为两类,即转换和颠换两种不同的速率也就是HKY模型。一般认为转换比颠换更为容易。

指的一提的是,一条序列上的全部位点并不具有完全相同的替换矩阵,即不同位置的碱基有着不同的突变速率,对于这种异质的突变速率通常通过Gamma分布(G)来描述,Gamma分布是一个灵活而强大的分布,具有较好的计算性。此外可能仍有部分碱基很少有突变事件发生,这些碱基会共同由一个不变位点比例(I)来描述。

(此段存疑)一般认为替换模型估算的突变数量仅和枝长相关,不影响拓扑结构。不同模型对拓扑结构的影响并不大,然而在计算时间节点之类对枝长敏感的算法时模型的选择和预设就更为重要。

贝叶斯命令模块:

ML命令模块(此处仅针对Garli软件):

MrModeltest仅在24个模型中选择,Modeltest也不过是48个,这可能并不能选择到最优模型。Jmodeltest支持多达88个甚至1624个模型比较。jModeltest具有友好的图形界面, *** 作简单,但极耗硬件资源,对于较大的数据集几乎不能完成计算。简要 *** 作如下:

除了较为常用的DNA序列的碱基突变模型选择,氨基酸数据的突变模型复杂的多,此处并不涉及。考虑到越来越多的形态数据的构树,形态数据的模型选择仍然需要考虑,然而以上两种方法均不支持。此处介绍ModelFinder来评估其模型选择。

待续...

系统发育树构建方法通常分为两类,基于距离的方法和基于性状的方法。

基于距离的方法是系统学早期发展起来的,将序列转化为距离矩阵然后根据距离矩阵构建聚类树,优点是速度极快,缺点很多,模型考虑简单,不适合远缘序列,不适合复杂序列,理论上不总是可以得到一个最优树。

基于性状的方法是系统发育的主流,不转化为距离矩阵,避免了数据的丢失,直接基于碱基序列计算。常见的包括最大简约法、贝叶斯法和最大似然法。

最大简约法不基于任何假设,不进行模型描述,认为具有最少突变步骤的发育树是最优树,计算强度较小,缺点同样是不适合远缘序列,无法考虑到复杂的突变事件。

最大似然法的基础是统计学的最大似然估计,把拓扑结构和枝长均视为参数,使观测数据(即碱基序列)有最大的似然值的参数为最优参数,即最优树。缺点是计算强度较大,可能会得到次优树。

贝叶斯方法则刚刚相反,基于观测数据,得分最高的拓扑结构被认为是最优树。蒙特卡洛(MC)和马尔科夫链(MC)的引入使得贝叶斯方法的得到极大的发展。贝叶斯方法具有较快的运算速度,多个链同时运行也可较大限度的避免局部最优化,因此被认为是最好的发育树构建方法。

nexus文件刚才选模型时已有所接触,此处再次解释。nexus和fasta文件一样是系统发育处理中常见的格式,但远比fasta复杂,可以记录序列文件和树文件。一个典型的nexus文件如下:

通常nexus包括文件说明头:

矩阵维度说明:

字符串说明:(包括是否数据分段,此处为分段)

序列矩阵:

除了以上基本模块,还有一些其他的block块。例如数据分段(按基因、按密码子第几位等):

算法命令模块:(例如上文提到的PAUP的MP命令block,下面列出的替换模型模块以及单系约束命令,当然这些block并非所有的程序均支持。)

此外nexus也可以保存树,如常见的.tre扩展名的文件实际上就是nexus的格式,例如:

另外一个概念是外类群,指定外类群的目的是为了置根,置根有多种方法,如中点置根法、分子种赋根法,当然也还有一些较新的方法。置根之后的发育树才有方向,才可以看到祖裔关系。这里我们关注的外类群的挑选规则: 外类群应该是所有内类群的姐妹群,关系越近越好 。亲缘关系较远的外类群容易与内类群形成长枝吸引。

最大似然法最初是为了解决简约法的长枝吸引而引入的一种系统发育重建方法,其理论基础是发展非常成熟的最大似然估计方法。一开始,在 PhyML 和 Garli 等软件中实现最大似然法较为耗时,其后以 RXaML 、 IQ-tree 为代表的执行快速自展的算法,极大地提高了运行速度,基本上是最快的系统发育方法。以RXaML-master为例介绍最大似然树的构建:

Mrbayes 是实现贝叶斯算法的主要软件。

Mega所导出的nexus的格式和贝叶斯所支持的nex格式略有区别。Mega所导出nexus前文已列出,下面列出Mrbayes的nex文件头:

差异主要包括三点:

此外还包括文件末尾的Mrbayes模块。该模块灵活度很大,可简单也可复杂,最简单的情况仅为一个碱基突变模型指定模块(模型选择部分已提及),最复杂的情况可以包含从log文件、模型指定、运行参数指定、树总结参数指定等等。

一个相对详细的Mrbayes模块如下:

各命令解释:

配合数据分段的模型分段指定的模块如下:

将准备好的nexus文件放入到Mrbayes程序文件夹下即可准备运行。

Mrbayes的运行 *** 作分为两种,一种打开Mrbayes后手动逐行输入命令行,如外类群,链长等参数,此时不需要准备复杂的Mrbayes block。另一个即为前面的提到的准备一个详尽的Mrbayes block,预先根据数据提前指定好其参数,此时重复分析时就不用每次重复手动输入命令行。此外,第二种方法还有一个优势,即支持中断续跑,如果在分析过程中,程序意外中断,仅需在mcmcp 命令中加入 append=yes ,如下:

Mrbayes免安装,没有图形化界面,所有 *** 作均通过输入 *** 作命令行进行,主界面如下:

Mrbayes由于使用MCMC算法,与上述两个系统发育软件有所不同,会存在一个收敛问题。Mrbayes软件使用Average standard deviation of split frequencies来判断收敛,默认每5000代计算一次该参数,如果该参数小于0.01,软件运行到预设代数则会自动停止,如果没有就会提示是否需要继续增加代数!

但是由于数据集的差别,即使增加到很大代数后,该参数仍然大于0.01,此时有以下几种方法可以尝试解决:

发育树的可视化较为复杂,分为多个层面,从仅仅把发育树本身展示出来,到对发育树本身进行颜色标识强调等,再到加上各种各样的注释数据,如物种信息、分布地信息、形态特征以及基因结构多种多样。

对于发育树本身的展示和强调可以在 Figtree 、 Mega 等常用软件中进行。

而对于添加注释信息则 iTol 、 treeio 等工具较为常用。

Figtree是一个图形化的发育树可视化软件,使用较为简单。界面如下,可自行研究:

iTol是一个发育树可视化的在线工具,可以方便对发育树进行注释,可实现的效果如下:

具体教程待续……

系统发育是一种历史过程,任何基于分子数据集得到的发育树都是对真实系统发生的推测。一个合理地假设,总是应该接收来自各种证据的检验。

系统发育假设检验(phylogenetic hypothesis testing)是用 统计学方法检验两个或多个不同发育树的差异是否有统计学上的显著性 。系统发育检验需要数据集、模型、两棵以上的发育树。已有有大量的检验方法,主要包括频率检验或者贝叶斯检验。一般来说,检验方法包括Approximately unbiased test,Approximate Bayesian posterior probability test,bootstrap probability test,Kishino-Hasegawa test,weighted Kishino-Hasegawa test,Shimodaira-Hasegawa test和weighted Shimodaira-Hasegawa test等。常用的为 Approximately unbiased test (AU)和Kishino-Hasegawa test (KH)

多个软件都可以用于执行这种检验,如 PAUP,TREE-PUZZLE等。此处,我们介绍consel 01j.

具体教程请点击 这里 !


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/7788969.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-09
下一篇 2023-04-09

发表评论

登录后才能评论

评论列表(0条)

保存