正态分布的性质:如果X1,…,Xn为独立标准常态随机变量,那么X1²+…+Xn²服从自由度为n的卡方分布。只有相互独立的正态分布加减之后,才是正态分布。如果两个相互独立的正态分X~N(u1,m²),Y~N(u2,n²),那么Z=X±Y仍然服从正太分布,Z~N(u1±u2,m²+n²)。
正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ=0,σ=1的正态分布。
(1)曲线在X轴上方,并且关于直线X=μ对称。
P{X<μ}=P{X>μ}=0.5
P{X<μ-a}=P{X>μ+a}
(2)曲线在X=μ时处于最高点,由这一点向左右延伸时,曲线逐渐降低。X~N(0,1)分布称为正态分布。
(3)正态曲线呈钟型,两头低,中间高,左右对称,曲线与横轴间的面积总等于1。
(4)正态分布在三个特殊区间的概率值
P(μ-a≤μ+a)=0.6827
P(μ-2a≤μ+2a)=0.9545
P(μ-3a≤μ+3a)=0.9973
正态分布,英语叫“Normal Distribution”,normal是普通的,正常的意思。如果翻译成“普通分布”,或者“常规分布”,马上就会想到这是在自然界中最常见的一种分布形式,但翻译成“正态分布”,对于像我这种普通人来说,很难立刻想到这是最常见的一种分布。
正态分布是由系统中连续随机变量的 概率密度 函数定义的。设 X 是随机变量, 是概率密度函数,即在一个无穷小的范围内,随机变量出现的概率。
并且
正态分布或高斯分布的概率密度函数公式为:
其中, 为随机变量; 为随机变量x在整个变化范围内 的平均值; 为随机变量取值的标准差 (Standard Deviation)。
在正态分布中,所谓“随机变量”指的是在一定变化范围内其值可能为任意一个数值的变量。比如说一个学校学生的身高就是一个随机变量,它可能为1.5 m,也可能为2.0 m,极端的情况它也可能是5 m,只不过这种可能能太低太低了。这个范围是受到实际情况限制的,纯碎数学意义上的正态分布,随机变量的取值范围不受实际条件的限制,可以扩展到 ,并且可以连续变化。当我们确定了随机变量的平均值和标准偏差后,概率密度函数 也就确定下来了,那么对于上任意范围内 X 出现的概率也就可以计算出来。
一般地,对于符合正态分布的随机变量,其标准差是大于0 的实数,表征数据的分布情况。其值越大,则数据越分散,曲线越宽泛;标准差越小,则数据越集中,曲线高而窄。正态分布的钟形曲线是左右对称的,对称轴正好在平均值上,即 正态分布有任何正的标准差。如果采用标准差的倍数分割随机变量的取值范围,那么我们就可以确定不同范围内x出现的概率,比如:
在 范围内,x出现的概率约为68%;
在 范围内,x出现的概率约为95%;
在 范围内,x出现的概率约为99.7%。
以下是正态分布的一些重要性质:
(1)在正态分布中,平均数、中位数和模相等。
(2)曲线下的总面积为1,即在全部范围内,随机变量x出现的概率为100%。
(3)正态分布曲线以 为轴线,左右对称分布。
(4)正态分布曲线由平均值和标准差来定义。
学生的成绩、人体的身高和血压等数据都符合正态分布。但实际情况,学生的成绩并不符合正态分布。
正态分布咋来的呢?
如果你要向一个直角坐标系投掷飞镖,目标靶心就是直角坐标系的坐标原点,但你知道大部分情况下你都不会正中靶心的,假设所有的投掷都是随机的,并且:
——随机误差与坐标系的方向无关,所以你不要考虑重力会不会对飞镖的位置有影响,现在我们认为,No。
——飞镖的x,y方向时相互独立的,也即是说飞镖落在y的位置不会影响到它在x方向的位置,反之亦然。
—— 大误差出现的可能性比小误差的小。(这个假设符合实际吗?比如误差为0.00001mm 和误差为3mm, 哪个概可能性大,哪个可能性小?)
根据上述假设,在图2中,飞镖落在A处的可能性比落在B位置的可能性要大,同样,落在B位置的概率又大于落在C位置的概率,因为相对B,A更靠近靶心;相对于C,B更靠近靶心。右图中,落在F区域内的概率大于落在E区域内的概率,后者的概率又大于D区域概率,——因为区域的面积依次减小。
所以飞镖落在某一区域的概率与该区域的大小有关,因此我们可以设飞镖落在 范围内的概率为 。类似地,飞镖落在 范围的几率可设为 。
那么在 位置上的 区域内,飞镖出现的概率为
这就是说:
方程两边同时对幅角 取导数,左边式 中因为不含 ,所以导数为0,即
将 代入上式:
即
对于任意不相关的 ,上述微分方程都成立,那么必然就有
分别解微分方程 和
得
由此,
因为 越大,概率越小,但 大于0,所以C必然小于0,设
所以有
这是正态分布曲线的通用表达式,现在我们来确定其中的常数A和k。
我们知道,在整个取值范围 内,随机变量x出现的几率为1,即
重新整理为
因为 为偶函数,在 位置左右对称,所以
即有
同样地,
两式相乘,得
左边用极坐标的形式表达为
左边可积,即可得
则
因此概率密度函数的形式为:
那么问题是: 又怎么确定呢?
当我们在谈论概率时,首先想到的是平均值是什么?数据是怎么分布的?k的大小就会涉及到平均值和分布的问题。现在问题是:如果你知道概率密度函数 ,那么你怎么用它来表达平均值的大小呢?首先你要理解 的含义,它表示在随机变量在x位置 的范围内出现的概率, 表示随机变量取任意 的百分数, 表示随机变量为 时在平均数中的贡献值,在取值范围内将所有的贡献值加起来就是平均值了,即平均值 。类似地,方差大小可表示为 。
你知道函数 为奇函数,所以平均值 ,并且 。将 带入到方差的表达式中,得:
因为 为偶函数,所以上式可以写成
可以看做 的一个分步积分,即有
其中
所以
由此根据上述三个假设,我们可以得到概率密度函数的表达式为:
当随机变量的平均值 不为0时,正态分布的通用表达式为
标准正态分布平均值为0,标准差为1,则概率密度函数表达式为:
done!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)