目录
2. 高斯朴素贝叶斯
3. 多项式分布朴素贝叶斯
朴素贝叶斯分类器(Naive Bayes classifier),在机器学习中是一系列以假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类器。
朴素贝叶斯的假设:
- 一个特征出现的概率,与其它特征(条件)独立(特征独立性)(也可以认为是:对于给定分类的条件下,特征独立)
- 每个特征同等重要(特征均衡性)。
理论上,概率模型分类器是一个条件概率模型。
独立的类别变量C有若干类别,条件依赖于若干特征变量 F1,F2,……Fn。但问题在于如果特征数量n较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。 贝叶斯定理有以下式子:
用朴素的语言可以表达为(前面好几个算法也可以这样表示:即后验概率正比于先验概率*似然函数)
实际中,我们只关心分式中的分子部分,因为分母不依赖于、C而且特征 Fi 的值是给定的,于是分母可以认为是一个常数。这样分子就等价于联合分布模型。
重复使用链式法则,可将该式写成条件概率的形式,如下所示:
现在“朴素”的条件独立假设开始发挥作用:假设每个特征Fi对于其他特征是条件独立的。这就意味着
对于,所以联合分布模型可以表达为
这意味着上述假设下,类变量C的条件分布可以表达为:
讨论至此为止我们导出了独立分布特征模型,也就是朴素贝叶斯概率模型。朴素贝叶斯分类器包括了这种模型和相应的决策规则。一个普通的规则就是选出最有可能的那个:这就是大家熟知的最大后验概率(MAP)决策准则。相应的分类器便是如下定义的classify公式:
参数估计:
所有的模型参数都可以通过训练集的相关频率来估计。常用方法是概率的最大似然估计。类的先验概率可以通过假设各类等概率来计算(先验概率 = 1 / (类的数量)),或者通过训练集的各类样本出现的次数来估计(A类先验概率=(A类样本的数量)/(样本总数))。为了估计特征的分布参数,我们要先假设训练集数据满足某种分布或者非参数模型。
2. 高斯朴素贝叶斯如果要处理的是连续数据,一种通常的假设是这些连续数值为高斯分布。 例如,假设训练集中有一个连续属性x。我们首先对数据根据类别分类,然后计算每个类别中x的均值和方差。令表示为x在c类上的均值,令为 x在c类上的方差。在给定类中某个值的概率,可以通过将v表示为均值为方差为正态分布计算出来。如下,
处理连续数值问题的另一种常用的技术是通过离散化连续数值的方法。通常,当训练样本数量较少或者是精确的分布已知时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现更优,因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种典型的用到大量样本的方法(越大计算量的模型可以产生越高的分类精确度),所以朴素贝叶斯方法都用到离散化方法,而不是概率分布估计的方法。
3. 多项式分布朴素贝叶斯
如果一个给定的类和特征值在训练集中没有一起出现过,那么基于频率的估计下该概率将为0。故可以引入Laplace和Lidstone平滑。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)