隐马尔可夫分析方法在危险化学品安全评价过程中的应用

隐马尔可夫分析方法在危险化学品安全评价过程中的应用,第1张

HMM是在马尔可夫模型的基础上发展起来的由于实际问题比Markov链模型所描述的更为复杂,
观察到的事件并不是与状态一一对应的,而是通过一组概率分布相联系的,这样的模型称为隐马尔可
夫模型(HMM) 它是一个双重的随机过程,其中之一是Markov链,这是基本随机过程,它描述状态的
转移概率 另一个随机过程描述状态和观察值之间的统计对应关系 这样站在观察者的角度,只能看到观察值,不像Markov链模型中的观察值和状态一一对应,因此不能直接看到状态,而是通过一个随机过程去感知状态的存在及其特性,因而成为“隐”马尔可夫模型 在评估应用中,传感器收到的信息是可看到的观察值,评估对象的状态是要得到的隐含状态通过不断变化的观察值可以动态地评估对象的安全状态。
现有的安全评估方法大部分是基于系统设计和周期性数据进行人工分析的, 针对这些方法实时性差的问题,将隐马尔可夫模型(HMM)应用于安全评估中,提高了安全评估的实时性。

概率图模型是之前一直搁置的内容,然而躲得过初一躲不过十五,看葫芦书时发现其中有整整一章关于概率图,方才意识到概率图模型的重要性,回过头来重新补上这部分内容。

概率图模型(Probabilistic Graphical Model,PGM),简称图模型,是指一种用图结构来描述多元随机变量之间条件独立关系的概率模型 。给研究高维空间中的概率模型带来了很大的便捷性。

对于一个 维随机向量 ,其联合概率为高维空间中的分布,一般难以直接建模。假设每个变量为离散变量并有 个取值,在不作任何独立假设条件下,则需要 个参数才能表示其概率分布(因为我们需要给出每一组可能的 的概率,共 种可能,由于概率和为1因此在此基础上减1)。不难看出,参数数量是指数级的,这在实际应用中是不可接受的。

一种有效减少参数量的方法是 独立性假设 。将 维随机向量的联合概率分解为 个条件概率的乘积:

其中 表示变量 的取值。如果某些变量之间存在条件独立,其参数量就可以大幅减少。

假设有四个二值变量 ,在不知道这几个变量依赖关系的情况下以用一个联合概率表来记录每一种取值的概率需要 个参数。假设在已知 时 和 独立,即有:

同理:

在已知 和 时 也和 独立,即有:

那么其联合概率 可以分解为:

是 个局部条件概率的乘积。如果分别用 个表格来记录这 个条件概率的话,只需要 个独立参数。

当概率模型中的变量数量比较多时,其条件依赖关系也比较复杂。我们可以使用图结构的方式将概率模型可视化,以一种直观、简单的方式描述随机变量之间的条件独立性的性质,并可以将一个复杂的联合概率模型分解为一些简单条件概率模型的组合。下图给出了上述例子中 个变量之间的条件独立性的图形化描述。

图模型有三个基本问题

很多机器学习模型都可以归结为概率模型,即建模输入和输出之间的条件概率分布。因此,图模型提供了一种新的角度来解释机器学习模型,并且这种角度有很多优点,比如了解不同机器学习模型之间的联系,方便设计新模型等。

图由一组节点和节点之间的边组成。在概率图模型中,每个节点都表示一个随机变或一组随机变量,边表示这些随机变量之间的概率依赖关系

常见的概率图模型可以分为两类向图模型和无向图模型。有向图模型的图结构为有向非循环图,如果两个节点之间有连边,表示对于的两个变量为 因果关系 。无向图模型使用无向图来描述变量之间的关系。每条边代表两个变量之间有 概率依赖关系,但是并不一定是因果关系

有向图模型,也称贝叶斯网络(Bayesian Network)或信念网络(Belief Network),是指用有向图来表示概率分布的图模型。

贝叶斯网络 : 对于一个随机向量 和一个有 个节点的有向非循环图 , 中的每个节点都对应一个随机变量,可以是可观测的变量,隐变量或是未知参数。 中的每个连接 表示两个随机变量 和 之间具有非独立的因果关系。 表示变量 的所有父节点变量集合,每个随机变量的局部条件概率分布(local conditional probability distribution)为 。

若 的联合概率分布可以分解为每个随机变量 的局部条件概率的连乘形式,即:

那么 构成了一个 贝叶斯网络

条件独立性 :在贝叶斯网络中,如果两个节点是直接连接的,它们肯定是非条件独立的直接因果关系。 父节点是“因”,子节点是“果”

如果两个节点不是直接连接的,但是它们之间有一条经过其它节点的路径来连接,那么这两个节点之间的条件独立性就比较复杂,例如:

(a)(b)(c)(d)分别代表 间接因果关系、间接果因关系、共因关系、共果关系

局部马尔可夫性质 :对一个更一般的贝叶斯网络,其局部马尔可夫性质为: 每个随机变量在给定父节点的情况下,条件独立于它的非后代节点

其中 为 的非后代变量。

一种简单的参数化模型为Sigmoid信念网络。Sigmoid信念网络种变量取值为 ,对于变量 和它的父节点集合 ,条件概率分布表示为:

其中 是Logistic sigmoid函数, 是可学习的参数。假设变量 的父节点数量为 ,如果使用表格来记录条件概率需要 个参数,如果使用参数化模型只需要 个参数。如果对不同的变量的条件概率都共享使用一个参数化模型,其参数数量又可以大幅减少。

值得一提的是Sigmoid信念网络与Logistic回归模型都采用Logistic函数来计算条件概率。如果假设Sigmoid信念网络中只有一个叶子节点,其所有的父节点之间没有连接,且取值为实数,那么sigmoid信念网络的网络结构和Logistic回归模型类似,如图所示。

这两个模型区别在于Logistic回归模型中的 作为一种确定性的参数,而非变量。因此Logistic回归模型只建模条件概率 ,是一种判别模型,而Sigmoid信念网络建模 ,是一种生成模型

朴素贝叶斯分类器是一类简单的概率分类器,在强(朴素)独立性假设的条件下运用贝叶斯公式来计算每个类别的后验概率。

给定一个有 维特征的样本 和类别 ,类别的后验概率为:

其中 是概率分布的参数。

朴素贝叶斯分类器中,假设在给定 的情况下 之间条件独立,即 。下图给出了朴素贝叶斯分类器的图形表示。

条件概率分布 可以分解为:

其中 是 的先验概率分布的参数, 是条件概率分布 的参数。若 为连续值, 可以用高斯分布建模。若 为离散值, 可以用多项分布建模。

虽然朴素贝叶斯分类器的条件独立性假设太强,但是在实际应用中,朴素贝叶斯分类器在很多任务上也能得到很好的结果,并且模型简单,可以有效防止过拟合

隐马尔科夫模型是一种含有隐变量的马尔可夫过程。下图给出隐马尔可夫模型的图模型表示。

隐马尔可夫模型的联合概率可以分解为:

其中 为输出概率, 为转移概率, 分别表示两类条件概率的参数。

无向图模型,也称为马尔可夫随机场或马尔科夫网络,是一类用无向图来描述一组具有局部马尔可夫性质的随机向量 的联合概率分布的模型。

马尔可夫随机场 :对于一个随机向量 和一个有 个节点的无向图 (可有循环), 中节点 表示随机变量 , 。如果 满足 局部马尔可夫性质,即一个变量 在给定它的邻居的情况下独立于所有其它变量

其中 为变量 的邻居集合, 为除 外其它变量的集合,那么 就构成了一个马尔可夫随机场。

无向图的马尔可夫性 :无向图中的马尔可夫性可以表示为:

其中 表示除 和 外的其它变量。

上图中由马尔可夫性质可以得到: 和 。

由于无向图模型并不提供一个变量的拓扑顺序,因此无法用链式法则对 进行逐一分解 。无向图模型的联合概率一般以全连通子图为单位进行分解。无向图中的一个全连通子图,称为团(Clique),即团内的所有节点之间都连边。在所有团中,如果一个团不能被其它的团包含,这个团就是一个 最大团(Maximal Clique)

因子分解 :无向图中的的联合概率可以分解为一系列定义在最大团上的非负函数的乘积形式。

Hammersley ­Clifford定理 :如果一个分布 满足无向图 中的局部马尔可夫性质,当且仅当 可以表示为一系列定义在最大团上的非负函数的乘积,即:

上式也称为 吉布斯分布 。其中 为 中的最大团集合, 是定义在团 上的 势能函数 , 是配分函数(Partition Function),用来将乘积归一化为概率形式。

其中 为随机向量 的取值空间。

无向图模型与有向图模型的一个重要区别是有配分函数 。配分函数的计算复杂度是指数级的,因此在推断和参数学习时都需要重点考虑。

由于势能函数必须为正的,因此我们一般定义为:

其中 为 能量函数 。这里的负号是遵从物理上的习惯,即能量越低意味着概率越高。

因此无向图上定义的概率分布可以表示为:

这种形式的分布又称为 玻尔兹曼分布(Boltzmann Distribution) 。任何一个无向图模型都可以用上式来表示其联合概率。

势能函数一般定义为:

其中函数 为定义在 上的特征向量, 为权重向量。这样联合概率 的对数形式为:

其中 代表所有势能函数中的参数 。这种形式的无向图模型也称为 对数线性模型或最大熵模型

如果用对数线性模型来建模条件概率 ,有:

其中 。这种对数线性模型也称为 条件最大熵模型或softmax回归模型

条件随机场是一种直接建模条件概率的无向图模型

和条件最大熵模型不同,条件随机场建模的条件概率 中, 一般为随机向量,因此需要对 进行因子分解。设条件随机场的最大团集合为 ,条件概率为:

其中 为归一化项。

一个最常用的条件随机场为图(b)中所示的链式结构,其条件概率为:

其中 为状态特征,一般和位置 相关, 为转移特征,一般可以简化为 并使用状态转移矩阵来表示。

无向图模型可以表示有向图模型无法表示的一些依赖关系,比如循环依赖;但它不能表示有向图模型能够表示的某些关系,比如因果关系。

以图(a)中的有向图为例,其联合概率分布可以分解为:

其中 和四个变量都相关。如果要转换为无向图, 需要将这四个变量都归属于一个团中。因此需要将 的三个父节点之间都加上连边,如图(b)所示。这个过程称为 道德化(Moralization) 。转换后的无向图称为 道德图(Moral Graph)

在道德化的过程中来有向图的一些独立性会丢失 ,比如上面 在道德图中不再成立。

在图模型中,推断(Inference)是指在观测到部分变量 时,计算其它变量的某个子集 的后验概率 。

假设一个图模型中,除了变量 外,其余变量表示为 。根据贝叶斯公式有:

因此, 图模型的推断问题可以转换为求任意一个变量子集的边际概率分布问题

在图模型中用的推断方法可以分为 精确推断 近似推断 两类。

以上图为例,假设推断问题为计算后验概率 ,需要计算两个边际概率 和 。

根据条件独立性假设,有:

假设每个变量取 个值,计算上面的边际分布需要 次加法以及 次乘法。

根据乘法的分配律,边际概率 可以写为:

这样计算量可以减少到 次加法和 次乘法。

这种方法是利用 动态规划 的思想,每次消除一个变量,来减少计算边际分布的计算复杂度,称为 变量消除法

信念传播(Belief Propagation,BP)算法,也称为和积(Sum-Product)算法或消息传递(Message Passing)算法,是将变量消除法中的和积(Sum-Product) *** 作看作是消息,并保存起来,这样可以节省大量的计算资源。

以上图所示的无向马尔可夫链为例,其联合概率 为:

其中 是定义在团 的势能函数。

第 个变量的边际概率 为:

假设每个变量取 个值,不考虑归一化项,计算上述边际分布需要 次加法以及 次乘法。

根据乘法的分配律际概率 可以通过下面方式进行计算:

其中 定义为变量 向变量 传递的消息, 是关于变量 的函数,可以递归计算:

为变量 向变量 传递的消息,定义为:

边际概率 的计算复杂度减少为 。如果要计算整个序列上所有变量的边际概率,不需要将消息传递的过程重复 次,因为其中每两个相邻节点上的消息是相同的。

信念传播算法也可以推广到具有树结构的图模型上。如果一个有向图满足任意两个变量只有一条路径(忽略方向),且只有一个没有父节点的节点,那么这个有向图为树结构,其中唯一没有父节点的节点称为根节点。如果一个无向图满足任意两个变量只有一条路径,那么这个无向图也为树结构。在树结构的无向图中任意一个节点都可以作为根

生物学信息,因此计算机科学为生物信息学的研究和应用提供了非常好的支撑。
1序列比对
序列比对其意义是从核酸、氨基酸的层次来比较两个或两个以上符号序列的相似性或不相似性,进而推测其结构功能及进化上的联系。研究序列相似性的目的是通过相似的序列得到相似的结构或功能,也可以通过序列的相似性判别序列之间的同源性,推测序列之间的进化关系。序列比对是生物信息学的基础,非常重要。
序列比对中最基础的是双序列比对,双序列比较又分为全局序列比较和局部序列比较,这两种比较均可用动态程序设计方法有效解决。在实际应用中,某些在生物学上有重要意义的相似性不是仅仅分析单条序列,只能通过将多个序列对比排列起来才能识别。比如当面对许多不同生物但蛋白质功能相似时,我们可能想知道序列的哪些部分是相似的,哪些部分是不同的,进而分析蛋白质的结构和功能。为获得这些信息,我们需要对这些序列进行多序列比对。多重序列比对算法有动态规划算法、星形比对算法、树形比对算法、遗传算法、模拟退火算法、隐马尔可夫模型等,这些算法都可以通过计算机得以解决。
2数据库搜索
随着人类基因组计划的实施,实验数据急剧增加,数据的标准化和检验成为信息处理的第一步工作,并在此基础上建立数据库,存储和管理基因组信息。这就需要借助计算机存储大量的生物学实验数据,通过对这些数据按一定功能分类整理,形成了数以百计的生物信息数据库,并要求有高效的程序对这些数据库进行查询,以此来满足生物学工作者的需要。数据库包括一级数据库和二级数据库,一级数据库直接来源于实验获得的原始数据,只经过简单的归类整理和注释;二级数据库是对基本数据进行分析、提炼加工后提取的有用信息。
分子生物学的三大核心数据库是GenBank核酸序列数据库,SWISS-PROT蛋白质序列数据库和PDB生物大分子结构数据库,这三大数据库为全世界分子生物学和医学研究人员了解生物分子信息的组织和结构,破译基因组信息提供了必要的支撑。但是用传统的手工分析方法来处理数据显然已经无法跟上新时代的步伐,对于大量的实验结果必须利用计算机进行自动分析,以此来寻找数据之间存在的密切关系,并且用来解决实际中的问题。
3基因组序列分析
基因组学研究的首要目标是获得人的整套遗传密码,要得到人的全部遗传密码就要把人的基因组打碎,测完每个小的序列后再把它们重新拼接起来。所以目前生物信息学的大量工作是针对基因组DNA序列的,建立快速而又准确的DNA序列分析方法对研究基因的结构和功能有非常重要的意义。对于基因组序列,人们比较关心的是从序列中找到基因及其表达调控信息,比如对于未知基因,我们就可以通过把它与已知的基因序列进行比较,从而了解该基因相关的生理功能或者提供疾病发病机理的信息,从而为研发新药或对疾病的治疗提供一定的依据,使我们更全面地了解基因的结构,认识基因的功能。因此,如何让计算机有效地管理和运行海量的数据也是一个重要问题。
4蛋白质结构预测
蛋白质是组成生物体的基本物质,几乎一切生命活动都要通过蛋白质的结构与功能体现出来,因此分析处理蛋白质数据也是相当重要的,蛋白质的生物功能由蛋白质的结构所决定,因此根据蛋白质序列预测蛋白质结构是很重要的问题,这就需要分析大量的数据,从中找出蛋白质序列和结构之间存在的关系与规律。
蛋白质结构预测分为二级结构预测和空间结构预测,在二级结构预测方面主要有以下几种不同的方法:①基于统计信息;②基于物理化学性质;③基于序列模式;④基于多层神经网络;⑤基于图论;⑥基于多元统计;⑦基于机器学习的专家规则;⑧最邻近算法。目前大多数二级结构预测的算法都是由序列比对算法BLAST、FASTA、CLUSTALW产生的经过比对的序列进行二级结构预测。虽然二级结构的预测方法其准确率已经可以达到80%以上,但二级结构预测的准确性还有待提高。
在实际进行蛋白质二级结构预测时,往往会把结构实验结果、序列比对结果、蛋白质结构预测结果,还有各种预测方法结合起来,比较常用的是同时使用多个软件进行预测,把各个软件预测结果分析后得出比较接近实际的蛋白质二级结构。将序列比对与二级结构预测相结合也是一种常见的综合分析方法。
蛋白质二级结构指蛋白质多肽链本身的折叠和盘绕的方式。二级结构主要有α-螺旋、β-折叠、β-转角等几种形式,它们是构成蛋白质高级结构的基本要素,常见的二级结构有α-螺旋和β-折叠。三级结构是在二级结构的基础上进一步盘绕,折叠形成的。研究蛋白质空间结构的目标是为了了解蛋白质与三维结构的关系,预测蛋白质的二级结构预测只是预测蛋白质三维形状的第一步,蛋白质折叠问题是非常复杂的,这就导致了蛋白质的空间结构预测的复杂性。蛋白质三维结构预测方法有:同源模型化方法、线索化方法和从头预测的方法但是无论用哪一种方法,结果都是预测,采用不同的算法,可能产生不同的结果,因此还需要研究新的理论计算方法来预测蛋白质的三维结构。
图41 蛋白质结构
目前,已知蛋白质序列数据库中的数据量远远超过结构数据库中的数据量,并且这种差距会随着DNA序列分析技术和基因识别方法的进步越来越大,人们希望产生蛋白质结构的进度能够跟上产生蛋白质序列的速度,这就需要对蛋白质结构预测发展新的理论分析方法,目前还没有一个算法能够很好地预测出一个蛋白的三维结构形状,蛋白质的结构预测被认为是当代计算机科学要解决的最重要的问题之一,因此蛋白质结构预测的算法在分子生物学中显得尤为重要。
5结束语
现如今计算机的发展已渗透到各个领域,生物学中的大量实验数据的处理和理论分析也需要有相应的计算机程序来完成,因此随着现代科技的发展,生物技术与计算机信息技术的融合已成为大势所趋。生物学研究过程中产生的海量数据需要强有力的数据处理分析工具,这样计算机科学技术就成为了生物科学家的必然选择,虽然人们已经利用计算机技术解决了很多生物学上的难题,但是如何利用计算机更好地处理生物学中的数据仍是一个长期而又复杂的课题。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/dianzi/10409710.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-08
下一篇 2023-05-08

发表评论

登录后才能评论

评论列表(0条)

保存