概率 :用数值来描述事件发生的可能性,等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。
概率分布 用来描述这一系列数值的规律。
概率论中对实验的定义是:能够产生明确结果的过程,投硬币、抛骰子、明天下不下雨、公交车上有几个人,这些都是实验。而所谓随机变量,是对实验结果的数值性描述。例:
通常用大写英文字母表示随机变量,这是约定。
随机变量根据其取值特征,分为离散型和连续型。
实验结果是由可逐一列举的结果组成的,那这个结果就是离散型随机变量。满足
比如上面列举的投骰子事件,一个均匀的骰子,结果必然是在1,2,3,4,5,6之中的一个,而且每个的概率相等,投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。
离散型随机变量的方差:
连续随机变量中有一种特殊事件,只会产生两种结果,并且重复这一实验每次的结果不会影响其他实验(独立实验),称为伯努利实验。
期望E(x) = p
方差D(x) = p(1-p)
进行一次伯努利实验叫做1重伯努利实验,进行两次伯努利实验叫做2重伯努利实验,以此类推。统计学中管N次伯努利实验的结果分布称为二项分布。
以投硬币来说,(投硬币是很标准的伯努利实验,结果只有正反两面,每次投硬币不影响其他次)重复10次,即10重伯努利实验,查看正面朝上的次数,把10重伯努利实验看做一个试验,随机变量X的取值是正面朝上的次数,则X=0,1,2,3,4,5,6,7,8,9,10 每种结果的概率不尽相等。
其分布服从:
二项概率的期望:
泊松分布的作用是描述一段时间内(或者一段空间中)某一事件发生的次数:比如医院每天接收到的病人数,呼叫台收到的求助电话,或者一段高速公路上道路的损坏量。
比如说,医院每天接诊的病人数量是不固定的,单是理论上讲,最少是0人,最多可以无限多,但是总有一个平均值,不妨设为100人。那么医院接诊人数的概率分布大概是这样的:
最左侧为零概率很小,最大可能100人在峰顶,随着人数增多,概率降低。其概率分布服从:
μ表示均值。
如果实验结果取值是无限的,比如明天降雨量可能是10~50mm之间任意小数,可以用离散随机变量来表示这一事件。
正态分布是一种特殊的分布类型,自然界中非常常见:同龄人中体重分布、商品价格、家电使用寿命等。
正态分布的图形和函数:
正态分布具有如下特性:
为了便于计算,统计学家又创造了一个特殊的工具——标准正态分布。
规定均值μ=0,标准差σ=1的正态分布为标准正态分布,因为在标准正态分布中,根据标准正态分布表可以方便查找某一数值内的概率值。将非标准正态分布转换为标准正态分布的公式是:
得到的Z其实就是,当前X距离均值μ有多少个标准差,然后在标准正态分布表中查找概率即可。
之前讲到的泊松分布,用于描述 单位时间内某一独立事件发生的次数 ,如果说1小时之内有10个人被送往医院,那么我们有没有理由得出一个结论:在进入医院的这些人中,平均每两个人间隔的时间是6分钟呢?
指数概率分布就是用来描述这样的现实情况的, 两个独立事件发生的间隔时间是遵循一定规律的。
下一个病人进入医院的时间遵循下图:
用公式表示:
那么指数概率函数的概率值怎么计算呢?
我们知道,对于连续型随机变量,函数曲线下方的面积表示某一范围内实验成功的概率。
如果医院平均每小时接诊10个病人,等价于平均每隔6分钟就有一个病人入院,如何计算接下来10分钟都没有病人来的概率?
对f(x)进行积分,得到指数概率函数的积分函数
R是为统计而生的语言,而概率又是统计的左右手,那么R中必然涵盖了最丰富最实用的概率函数。
生成一个取值为(1,2,3,4,5)的离散型随机变量
sample函数是取样函数,语句表示在总体S中取样本容量为1 的样本。
连续型随机变量:
生成一个连续随机变量的结果集,最大值为1,最小值为0,总共产生10个结果。
求总体的描述统计量:
在排列组合中有一计数法则,公式为
binom是R中的二项分布函数族,包含密度函数(dbinom),累积分布函数(pbinom),分为函数(qbinom),以及随机数函数(rbinom)
投10次硬币,结果为5次正面的概率
这跟手动计算的结果是一样的,可互相验证。
累计分布函数,正面大于5(包含6,7,8,9,10)的概率
这是正面数0~5的累计概率,大于5的概率为
手动验证:
正确!
rbinom可生成二项实验结果集
rbinom(100,10,5)表示每轮进行10次实验,共进行100轮,每次实验的概率是1/2 ,返回结果成功次数的结果集。
这是进行100次每次10个实验的结果,如果数值设置大一点,结果就很接近正态分布了。
1、首先,打开excel表,鼠标点击要编辑的单元格;
2、点击菜单栏的公式——“插入函数”;
3、在函数对话框内输入“POISSON”,点击确定;
4、在X区输入A2事件数,在mean处输入B2;
5、在Cumulative处输入true,
6、点击确定后就能获得泊松累积分布概率函数;
7、在Cumulative处输入false,
8、点击确定后就能获得泊松概率密度函数值;完成效果图。
泊松分布是离散概率分布
泊松分布的概率函数表示随机变量=k的概率
k=0,1,2,……
例3求不脱销的概率
销售量不超过进货量的概率
P(X≤a)=P(X=0)+P(X=1)+……+P(X=a)≥095
则,X=a+1到X=正无穷大的概率之和≤005
查泊松累积分布表,参数λ=10
可得a+1≥16
所以,a≥15
例4、n很大,p很小时
二项分布近似泊松分布
λ=np=3
设备出现故障而不能及时维修的概率
=1-可以及时维修的概率
不能及时维修的概率小于001
则,可以及时维修的概率大于1-001=099
P(X≤N)=P(X=0)+P(X=1)+……+P(X=N)>1-001=099
则,X=N+1到X=正无穷大的概率之和<001
查泊松累积分布表,参数λ=3
可得N+1≥9
所以,N≥8
矩量母函数的定义为:
连续随机变量X的矩量母函数为:Mx(t)=E(exp(tx))=∫exp(tx)f(x)dx,其中积分下限为-∞,上限为+∞,f(x)为X的概率密度函数(Probability Density Function, 简称PDF)。
离散型随机变量X的矩量母函数为:Mx(t)=E(exp(tx))=∑exp(tx)p(x),其中连加号代表所有X的取值(-∞,+∞)连加,p(x)为X的概率分布函数(Probability Mass Function, 简称PMF)。
矩量母函数存在当且仅当上述积分(连加)极限存在。
性质:
以连续随机变量X为例,离散型随机变量可做相同变换
1由泰勒级数exp(x)=1+x+x^2/2!++x^n/n!+, Mx(t)=∫(1+tx+(tx)^2/2!++(tx)^n/n!+)f(x)dx=1+tM1+t^2/2!M2+t^n/n!Mn, 其中Mi是X的第i阶矩。
2Mx(-t)是双侧拉普拉斯变换(Laplace Transform)。
3不管概率分布是不是连续,矩量母函数都可以用黎曼-斯蒂尔吉斯积分给出:
Mx(t)=∫exp(tx)dF(x),其中F(x)是积累分布函数(Cumulative Distribution Function, 简称CDF)。积分下限为-∞,上限为+∞。
意义编辑
只要矩量母函数在t=0周围的开区间内存在,X的第i阶矩即为矩量母函数在0点的第i阶导数值。
即E(x^n)=d^n(Mx(t))/dt^n|t=0
证明:
二项分布概率公式:
泊松分布需要做以下假定:
根据以上条件,在这段时间内,该事件发生k次的概率服从二项分布,可以得到概率表示如下:
所以,有:
从上式可知,泊松分布是关于数学期望或平均次数(lambda)的函数,随着lambda的不同,概率密度图也不同。泊松分布概率密度图如下:
泊松分布概率累计图:
我的理解,如果知道事件某段时间内发生次数的期望(均值),那么围绕着该均值,就可以知道任意时间段内发生次数的概率分布。
比如90分钟内平均进球数为3个:
在期望一定的情况下,缩小粒度(缩小p)相当于增大了n,在n比较大的时候二项分布不好计算,且此时p比较小,正好可以用泊松分布来替代(近似)二项分布,来估计事件发生任意次数时的概率。
借用维基百科的一个图,当λ=10的时候,泊松分布是不是看起很对称,有点像正态分布?
其实可以证明,当发生次数k比较大的时候,泊松分布会变成均值为λ,方差为λ的正态分布:
说明泊松分布只适用于发生次数k较少的情况。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)