概率分布

概率分布,第1张

概率 :用数值来描述事件发生的可能性,等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。

概率分布 用来描述这一系列数值的规律。

概率论中对实验的定义是:能够产生明确结果的过程,投硬币、抛骰子、明天下不下雨、公交车上有几个人,这些都是实验。而所谓随机变量,是对实验结果的数值性描述。例:

通常用大写英文字母表示随机变量,这是约定。

随机变量根据其取值特征,分为离散型和连续型。

实验结果是由可逐一列举的结果组成的,那这个结果就是离散型随机变量。满足

比如上面列举的投骰子事件,一个均匀的骰子,结果必然是在1,2,3,4,5,6之中的一个,而且每个的概率相等,投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。

离散型随机变量的方差:

连续随机变量中有一种特殊事件,只会产生两种结果,并且重复这一实验每次的结果不会影响其他实验(独立实验),称为伯努利实验。

期望E(x) = p

方差D(x) = p(1-p)

进行一次伯努利实验叫做1重伯努利实验,进行两次伯努利实验叫做2重伯努利实验,以此类推。统计学中管N次伯努利实验的结果分布称为二项分布。

以投硬币来说,(投硬币是很标准的伯努利实验,结果只有正反两面,每次投硬币不影响其他次)重复10次,即10重伯努利实验,查看正面朝上的次数,把10重伯努利实验看做一个试验,随机变量X的取值是正面朝上的次数,则X=0,1,2,3,4,5,6,7,8,9,10 每种结果的概率不尽相等。

其分布服从:

二项概率的期望:

泊松分布的作用是描述一段时间内(或者一段空间中)某一事件发生的次数:比如医院每天接收到的病人数,呼叫台收到的求助电话,或者一段高速公路上道路的损坏量。

比如说,医院每天接诊的病人数量是不固定的,单是理论上讲,最少是0人,最多可以无限多,但是总有一个平均值,不妨设为100人。那么医院接诊人数的概率分布大概是这样的:

最左侧为零概率很小,最大可能100人在峰顶,随着人数增多,概率降低。其概率分布服从:

μ表示均值。

如果实验结果取值是无限的,比如明天降雨量可能是10~50mm之间任意小数,可以用离散随机变量来表示这一事件。

正态分布是一种特殊的分布类型,自然界中非常常见:同龄人中体重分布、商品价格、家电使用寿命等。

正态分布的图形和函数

正态分布具有如下特性:

为了便于计算,统计学家又创造了一个特殊的工具——标准正态分布。

规定均值μ=0,标准差σ=1的正态分布为标准正态分布,因为在标准正态分布中,根据标准正态分布表可以方便查找某一数值内的概率值。将非标准正态分布转换为标准正态分布的公式是:

得到的Z其实就是,当前X距离均值μ有多少个标准差,然后在标准正态分布表中查找概率即可。

之前讲到的泊松分布,用于描述 单位时间内某一独立事件发生的次数 ,如果说1小时之内有10个人被送往医院,那么我们有没有理由得出一个结论:在进入医院的这些人中,平均每两个人间隔的时间是6分钟呢?

指数概率分布就是用来描述这样的现实情况的, 两个独立事件发生的间隔时间是遵循一定规律的。

下一个病人进入医院的时间遵循下图:

用公式表示:

那么指数概率函数的概率值怎么计算呢?

我们知道,对于连续型随机变量,函数曲线下方的面积表示某一范围内实验成功的概率。

如果医院平均每小时接诊10个病人,等价于平均每隔6分钟就有一个病人入院,如何计算接下来10分钟都没有病人来的概率?

对f(x)进行积分,得到指数概率函数的积分函数

R是为统计而生的语言,而概率又是统计的左右手,那么R中必然涵盖了最丰富最实用的概率函数。

生成一个取值为(1,2,3,4,5)的离散型随机变量

sample函数是取样函数,语句表示在总体S中取样本容量为1 的样本。

连续型随机变量:

生成一个连续随机变量的结果集,最大值为1,最小值为0,总共产生10个结果。

求总体的描述统计量:

在排列组合中有一计数法则,公式为

binom是R中的二项分布函数族,包含密度函数(dbinom),累积分布函数(pbinom),分为函数(qbinom),以及随机数函数(rbinom)

投10次硬币,结果为5次正面的概率

这跟手动计算的结果是一样的,可互相验证。

累计分布函数,正面大于5(包含6,7,8,9,10)的概率

这是正面数0~5的累计概率,大于5的概率为

手动验证:

正确!

rbinom可生成二项实验结果集

rbinom(100,10,5)表示每轮进行10次实验,共进行100轮,每次实验的概率是1/2 ,返回结果成功次数的结果集。

这是进行100次每次10个实验的结果,如果数值设置大一点,结果就很接近正态分布了。

1、首先,打开excel表,鼠标点击要编辑的单元格;

2、点击菜单栏的公式——“插入函数”;

3、在函数对话框内输入“POISSON”,点击确定;

4、在X区输入A2事件数,在mean处输入B2;

5、在Cumulative处输入true,

6、点击确定后就能获得泊松累积分布概率函数;

7、在Cumulative处输入false,

8、点击确定后就能获得泊松概率密度函数值;完成效果图。

泊松分布是离散概率分布

泊松分布的概率函数表示随机变量=k的概率

k=0,1,2,……

例3求不脱销的概率

销售量不超过进货量的概率

P(X≤a)=P(X=0)+P(X=1)+……+P(X=a)≥095

则,X=a+1到X=正无穷大的概率之和≤005

查泊松累积分布表,参数λ=10

可得a+1≥16

所以,a≥15

例4、n很大,p很小时

二项分布近似泊松分布

λ=np=3

设备出现故障而不能及时维修的概率

=1-可以及时维修的概率

不能及时维修的概率小于001

则,可以及时维修的概率大于1-001=099

P(X≤N)=P(X=0)+P(X=1)+……+P(X=N)>1-001=099

则,X=N+1到X=正无穷大的概率之和<001

查泊松累积分布表,参数λ=3

可得N+1≥9

所以,N≥8

  矩量母函数的定义为:

  连续随机变量X的矩量母函数为:Mx(t)=E(exp(tx))=∫exp(tx)f(x)dx,其中积分下限为-∞,上限为+∞,f(x)为X的概率密度函数(Probability Density Function, 简称PDF)。

  离散型随机变量X的矩量母函数为:Mx(t)=E(exp(tx))=∑exp(tx)p(x),其中连加号代表所有X的取值(-∞,+∞)连加,p(x)为X的概率分布函数(Probability Mass Function, 简称PMF)。

  矩量母函数存在当且仅当上述积分(连加)极限存在。

  性质:

  以连续随机变量X为例,离散型随机变量可做相同变换

  1由泰勒级数exp(x)=1+x+x^2/2!++x^n/n!+, Mx(t)=∫(1+tx+(tx)^2/2!++(tx)^n/n!+)f(x)dx=1+tM1+t^2/2!M2+t^n/n!Mn, 其中Mi是X的第i阶矩。

  2Mx(-t)是双侧拉普拉斯变换(Laplace Transform)。

  3不管概率分布是不是连续,矩量母函数都可以用黎曼-斯蒂尔吉斯积分给出:

  Mx(t)=∫exp(tx)dF(x),其中F(x)是积累分布函数(Cumulative Distribution Function, 简称CDF)。积分下限为-∞,上限为+∞。

  意义编辑

  只要矩量母函数在t=0周围的开区间内存在,X的第i阶矩即为矩量母函数在0点的第i阶导数值。

  即E(x^n)=d^n(Mx(t))/dt^n|t=0

  证明:

  

二项分布概率公式:

泊松分布需要做以下假定:

根据以上条件,在这段时间内,该事件发生k次的概率服从二项分布,可以得到概率表示如下:

所以,有:

从上式可知,泊松分布是关于数学期望或平均次数(lambda)的函数,随着lambda的不同,概率密度图也不同。泊松分布概率密度图如下:

泊松分布概率累计图:

我的理解,如果知道事件某段时间内发生次数的期望(均值),那么围绕着该均值,就可以知道任意时间段内发生次数的概率分布。

比如90分钟内平均进球数为3个:

在期望一定的情况下,缩小粒度(缩小p)相当于增大了n,在n比较大的时候二项分布不好计算,且此时p比较小,正好可以用泊松分布来替代(近似)二项分布,来估计事件发生任意次数时的概率。

借用维基百科的一个图,当λ=10的时候,泊松分布是不是看起很对称,有点像正态分布?

其实可以证明,当发生次数k比较大的时候,泊松分布会变成均值为λ,方差为λ的正态分布:

说明泊松分布只适用于发生次数k较少的情况。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/12155308.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存