二元正态分布又名高斯分布(英语:Gaussian distribution, 采用德国数学家卡尔·弗里德里希·高斯的名字冠名),是一个在数学、物理及工程等领域都非常重要的概率分布,由于这个分布函数具有很多非常漂亮的性质,使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。
比如图像处理中最常用的滤波器类型为Gaussian滤波器(也就是所谓的正态分布函数)。
高斯函数以大数学家约翰·卡尔·弗里德里希·高斯的名字命名。高斯函数应用范围很广,在自然科学、社会科学、数学以及工程学等领域都能看到它的身影。
高斯函数的图形在形状上像一个倒悬着的钟。参数a指高斯曲线的峰值,b为其对应的横坐标,c即标准差(有时也叫高斯RMS宽值),它控制着“钟”的宽度。
可以利用matlab自带的函数mvnpdf,计算多维正态分布概率密度
具体的调用格式为
y = mvnpdf(X,MU,SIGMA)
其中X是输入的向量
MU是平均值
SIGMA是多维正态分布的协方差矩阵
返回的y即使向量X在MU和SIGMA确定的多维正态分布下的概率密度值
以你需要的4维分布为例
输入的MU应该是1x4的矩阵,例如 MU=[1,2,3,4];
四个维度的均值,这就是中心点在 (1,2,3,4)位置;
而SIGMA应该是4x4的协方差矩阵,其对角线上4个元素是分布在四维的方差
而非对角线元素是协方差,表示不同维度分布之间的相关性
如果不同维度之间的分布是互不相关的,或者说是正交的,那么非对角线元素都为0
那么SIGMA也可以简化为1x4的矩阵
而输入X则可以是nx4的矩阵,其中每一行代表一个向量
这时候返回y是nx1的矩阵,对应X中每一行向量的到的概率密度值
例如:
>> X=[0,0,0,0];MU=[1,2,3,4];SIGMA=[1,1,1,1];
>> y = mvnpdf(X,MU,SIGMA)
y = 77486e-09
计算(0,0,0,0)这点在四维均值为(1,2,3,4),四维方差都是1的正态分布中的概率密度
结果是77486e-09
peaks是一个函数,其中有2个变量。由平移和放缩高斯分布函数获得。这里输入n(=30)是说输出3030的矩阵,并显示。
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量服从一个位置参数、尺度参数为的概率分布,记为:则其概率密度函数为正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方或标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是位置参数, 尺度参数的正态分布(见图中绿色曲线)。
分布函数(英文Cumulative Distribution Function, 简称CDF),是概率统计中重要的函数,正是通过它,可用数学分析的方法来研究随机变量。分布函数是随机变量最重要的概率特征,分布函数可以完整地描述随机变量的统计规律,并且决定随机变量的一切其他概率特征。
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。CF高斯在研究测量误差时从另一个角度导出了它。PS拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
04 EM算法 - EM算法收敛证明
GMM (Gaussian Mixture Model, 高斯混合模型)是指该算法由多个高斯模型线性叠加混合而成。每个高斯模型称之为component。
GMM算法 描述的是数据的本身存在的一种分布,即样本特征属性的分布,和预测值Y无关。显然GMM算法是无监督的算法,常用于聚类应用中,component的个数就可以认为是类别的数量。
回到昨天说的例子:随机选择1000名用户,测量用户的身高;若样本中存在男性和女性,身高分别服从高斯分布N(μ1,σ1)和N(μ2,σ2)的分布,试估计参数:μ1,σ1,μ2,σ2;
1、如果明确的知道样本的情况(即男性和女性数据是分开的),那么我们使用极大似然估计来估计这个参数值。
2、如果样本是混合而成的,不能明确的区分开,那么就没法直接使用极大似然估计来进行参数的估计。
我们可以认为当前的1000条数据组成的集X,是由两个高斯分布叠加而成的(男性的分布和女性的分布)。
如果能找到一种办法把每一个高斯分布对应的参数π、 μ、σ求出来,那么对应的模型就求解出来了。
如果模型求解出来后,如何对数据进行聚类?
这个公式求出来的分别是男性和女性身高分布的概率密度,如果把π、 μ、σ都求出来,以后我们可以构建出一个 能够根据样本特征 计算出样本属于男性或女性的可能性。
实际做样本分类的时候,我们把样本X的特征x1~xn分别代入两个公式中,求出来的两个结果分别是:样本X的性别是男、是女的可能性。如果是男的可能性大于是女的可能性,我们就把样本X归入男性的分类。
假定 GMM 由k个Gaussian分布线性叠加而成,那么概率密度函数如下:
分析第1个等式:
p(x): 概率密度函数,k个Gaussian分布线性叠加而成的概率密度函数。
∑p(k)p(x|k): k个某种模型叠加的概率密度函数。
p(k): 每个模型占的权重,即上面提到的π。
p(x|k): 给定类别k后,对应的x的概率密度函数。
分析第2个等式: 目标 - 将公式写成高斯分布的样子。
π k : 即p(k)
p(x;μ k ,∑ k ): 多元高斯(正态)分布。有了观测数据x后,在 给定了条件 下的高斯分布。这个 条件 是 1、第k个分类的均值μ k ; 2、第k个分类的方差∑ k ;
深入分析p(x;μ k ,∑ k )的参数:
如果样本有n个特征,所有的特征x1~xn一起服从一个多元的高斯分布(正态分布),所有特征的均值应该是一个向量 (μ 1 ~μ n );
μ k : 第k个分类的情况下(第k个高斯分布的情况下对应的每一列的均值);μ k = (μ k1 ~μ kn )
∑ k : 协方差矩阵(对称阵)。现在有n个特征,协方差矩阵是一个n×n的矩阵。现在我们要算的是:
cov(x1,x1),cov(x1,x2),,cov(x1,xn)
cov(x2,x1),cov(x2,x2),,cov(x2,xn)
cov(xn,x1),cov(x1,x2),,cov(xn,xn)
其中, 对角线 cov(x1,x1)、cov(x2,x2), ,cov(xn,xn)中,x1和x1的协方差 = x1的方差;即cov(x1,x1) = var(x1);所以 对角线上两个特征的协方差 = 对应的特征的方差。
协方差 (Covariance)在 概率论 和 统计学 中用于衡量两个变量的总体 误差 。而 方差 是协方差的一种特殊情况,即当两个变量是相同的情况。
协方差表示的是两个变量的总体的 误差 ,这与只表示一个变量误差的 方差 不同。 如果两个 变量 的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
理解了公式后,再来看看公式在图像上是如何体现的:
如果样本X只有一个特征x1,在二维的坐标系上的表示出来。特征x1是由n个单变量样本的高斯分布叠加而成的。向量x1 k = ∑ k (x1 (1) ,x1 (2) ,~,x1 (n) ),如k=(男、女),累加男性分类下的特征高斯分布和女性分类下的高斯分布;
图中 红色曲线 表示原有数据的分布情况,我认为这个原有数据是由多个比较的高斯分布叠加而成的, 蓝色曲线 表示单个单个高斯分布的分布情况。向量x1 = (x1 (1) ,x1 (2) ,~,x1 (n) );
PS: 蓝1+蓝2=红 体现的就是公式 p(x) = ∑πp(x;μ,∑k);
在得知数据的特征 x=(x1~xn) 后,如果我们想把数据合理得聚类到一个分类中,我们该如何去计算呢?
既然我已经得到了k个高斯分布对应的概率密度函数(现在设k=3,共3个分类),将当前特征的x=(x1~xn)代入我们的概率密度函数: p(x) = ∑πp(x;μ,∑k);
我们分别计算p(蓝1)、p(蓝2)、p(蓝3),蓝色三条线各对应k分类中的一个,哪个数大,我认为当前的样本该分到哪一类。
GMM算法的两个前提:
1、数据服从高斯分布;
2、我们人为定义了分类个数k。
问:我们人为假定了高斯分布的分类个数k,就类似于我们聚簇时分的聚簇中心个数一样。参数π、μ、σ该如何求出来
答:和K-Means算法一样,我们可以用 EM算法 来求解这个问题。 GMM也满足EM算法的聚类思想,首先人为得定义了聚类的个数k,从数据特征X中发掘潜在关系的一种模型。而且我还默认数据是服从多个高斯分布的。
GMM算法中的隐含条件是:第k个模型占的权重 - 、 第k个高斯分布的情况下对应的每一列的均值 - 、协方差矩阵 cov(xi,xj) - ;因为本质上我们是知道数据原有的分类状况的,只是无法观测到隐含在数据中的这些特性,使用EM的思想可以迭代得求解出这些隐含变量。
对联合概率密度函数求对数似然函数:
对联合概率密度函数求对数后,原本 连乘 的最大似然估计变成了 连加 的函数状态。
EM算法求解 - E步:
套用公式后,我们可以假定隐含变量z的分布:Q(z (i) = j);
我们认为分布wj (i) = 第i个观测值对应的隐含分类第z (i) 类; = 以(看不见的参数π、μ、∑)为参数的情况下,输入第i观测值的特征x后得到的分类z (i) 类;
EM算法求解 - M步:
M步第1行就是上一章通过化简找到 下界 的那个函数:
1、对均值求偏导:
2、对方差求偏导:
3、对概率使用拉格朗日乘子法求解:
06 EM算法 - 案例一 - EM分类初识及GMM算法实现
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)