概率分布_语言综合

概率：用数值来描述事件发生的可能性，等于要测定的事件数目与全部可能发生的偶然事件总数之间的比率。

概率分布 用来描述这一系列数值的规律。

概率论中对实验的定义是：能够产生明确结果的过程，投硬币、抛骰子、明天下不下雨、公交车上有几个人，这些都是实验。而所谓随机变量，是对实验结果的数值性描述。例：

通常用大写英文字母表示随机变量，这是约定。

随机变量根据其取值特征，分为离散型和连续型。

实验结果是由可逐一列举的结果组成的，那这个结果就是离散型随机变量。满足

比如上面列举的投骰子事件，一个均匀的骰子，结果必然是在1,2,3,4,5,6之中的一个，而且每个的概率相等，投一次骰子必然出现上述结果中的一个。那么每个结果的概率就是1/6。

离散型随机变量的方差：

连续随机变量中有一种特殊事件，只会产生两种结果，并且重复这一实验每次的结果不会影响其他实验（独立实验）,称为伯努利实验。

期望E(x) = p

方差D(x) = p(1-p)

进行一次伯努利实验叫做1重伯努利实验，进行两次伯努利实验叫做2重伯努利实验，以此类推。统计学中管N次伯努利实验的结果分布称为二项分布。

以投硬币来说，（投硬币是很标准的伯努利实验，结果只有正反两面，每次投硬币不影响其他次）重复10次，即10重伯努利实验，查看正面朝上的次数，把10重伯努利实验看做一个试验，随机变量X的取值是正面朝上的次数，则X=0,1,2,3,4,5,6,7,8,9,10 每种结果的概率不尽相等。

其分布服从:

二项概率的期望：

泊松分布的作用是描述一段时间内（或者一段空间中）某一事件发生的次数：比如医院每天接收到的病人数，呼叫台收到的求助电话，或者一段高速公路上道路的损坏量。

比如说，医院每天接诊的病人数量是不固定的，单是理论上讲，最少是0人，最多可以无限多，但是总有一个平均值，不妨设为100人。那么医院接诊人数的概率分布大概是这样的：

最左侧为零概率很小，最大可能100人在峰顶，随着人数增多，概率降低。其概率分布服从：

μ表示均值。

如果实验结果取值是无限的，比如明天降雨量可能是10~50mm之间任意小数，可以用离散随机变量来表示这一事件。

正态分布是一种特殊的分布类型，自然界中非常常见：同龄人中体重分布、商品价格、家电使用寿命等。

正态分布的图形和函数：

正态分布具有如下特性：

为了便于计算，统计学家又创造了一个特殊的工具——标准正态分布。

规定均值μ=0，标准差σ=1的正态分布为标准正态分布，因为在标准正态分布中，根据标准正态分布表可以方便查找某一数值内的概率值。将非标准正态分布转换为标准正态分布的公式是：

得到的Z其实就是，当前X距离均值μ有多少个标准差，然后在标准正态分布表中查找概率即可。

之前讲到的泊松分布，用于描述 单位时间内某一独立事件发生的次数 ，如果说1小时之内有10个人被送往医院，那么我们有没有理由得出一个结论：在进入医院的这些人中，平均每两个人间隔的时间是6分钟呢？

指数概率分布就是用来描述这样的现实情况的， 两个独立事件发生的间隔时间是遵循一定规律的。

下一个病人进入医院的时间遵循下图：

用公式表示：

那么指数概率函数的概率值怎么计算呢？

我们知道，对于连续型随机变量，函数曲线下方的面积表示某一范围内实验成功的概率。

如果医院平均每小时接诊10个病人，等价于平均每隔6分钟就有一个病人入院，如何计算接下来10分钟都没有病人来的概率？

对f(x)进行积分，得到指数概率函数的积分函数

R是为统计而生的语言，而概率又是统计的左右手，那么R中必然涵盖了最丰富最实用的概率函数。

生成一个取值为(1,2,3,4,5)的离散型随机变量

sample函数是取样函数，语句表示在总体S中取样本容量为1 的样本。

连续型随机变量：

生成一个连续随机变量的结果集，最大值为1，最小值为0，总共产生10个结果。

求总体的描述统计量：

在排列组合中有一计数法则，公式为

binom是R中的二项分布函数族，包含密度函数（dbinom），累积分布函数（pbinom），分为函数（qbinom），以及随机数函数（rbinom）

投10次硬币，结果为5次正面的概率

这跟手动计算的结果是一样的，可互相验证。

累计分布函数，正面大于5（包含6,7,8,9,10）的概率

这是正面数0~5的累计概率，大于5的概率为

手动验证：

正确！

rbinom可生成二项实验结果集

rbinom(100,10,5)表示每轮进行10次实验，共进行100轮，每次实验的概率是1/2 ，返回结果成功次数的结果集。

这是进行100次每次10个实验的结果，如果数值设置大一点，结果就很接近正态分布了。

1、首先，打开excel表，鼠标点击要编辑的单元格；

2、点击菜单栏的公式——“插入函数”；

3、在函数对话框内输入“POISSON”，点击确定;

4、在X区输入A2事件数，在mean处输入B2；

5、在Cumulative处输入true,

6、点击确定后就能获得泊松累积分布概率函数；

7、在Cumulative处输入false,

8、点击确定后就能获得泊松概率密度函数值；完成效果图。

泊松分布是离散概率分布

泊松分布的概率函数表示随机变量＝k的概率

k＝0，1，2，……

例3求不脱销的概率

销售量不超过进货量的概率

P(X≤a)＝P(X＝0)＋P(X＝1)＋……＋P(X＝a)≥095

则，X＝a＋1到X＝正无穷大的概率之和≤005

查泊松累积分布表，参数λ＝10

可得a＋1≥16

所以，a≥15

例4、n很大，p很小时

二项分布近似泊松分布

λ＝np＝3

设备出现故障而不能及时维修的概率

＝1－可以及时维修的概率

不能及时维修的概率小于001

则，可以及时维修的概率大于1－001＝099

P(X≤N)＝P(X＝0)＋P(X＝1)＋……＋P(X＝N)>1－001＝099

则，X＝N＋1到X＝正无穷大的概率之和<001

查泊松累积分布表，参数λ＝3

可得N＋1≥9

所以，N≥8

　　矩量母函数的定义为：

　　连续随机变量X的矩量母函数为：Mx(t)=E(exp(tx))=∫exp(tx)f(x)dx,其中积分下限为-∞，上限为+∞，f(x)为X的概率密度函数(Probability Density Function, 简称PDF)。

　　离散型随机变量X的矩量母函数为：Mx(t)=E(exp(tx))=∑exp(tx)p(x),其中连加号代表所有X的取值(-∞,+∞)连加，p(x)为X的概率分布函数(Probability Mass Function, 简称PMF)。

　　矩量母函数存在当且仅当上述积分(连加)极限存在。

　　性质：

　　以连续随机变量X为例，离散型随机变量可做相同变换

　　1由泰勒级数exp(x)=1+x+x^2/2!++x^n/n!+, Mx(t)=∫(1+tx+(tx)^2/2!++(tx)^n/n!+)f(x)dx=1+tM1+t^2/2!M2+t^n/n!Mn, 其中Mi是X的第i阶矩。

　　2Mx(-t)是双侧拉普拉斯变换(Laplace Transform)。

　　3不管概率分布是不是连续，矩量母函数都可以用黎曼-斯蒂尔吉斯积分给出：

　　Mx(t)=∫exp(tx)dF(x),其中F(x)是积累分布函数(Cumulative Distribution Function, 简称CDF)。积分下限为-∞，上限为+∞。

　　意义编辑

　　只要矩量母函数在t=0周围的开区间内存在，X的第i阶矩即为矩量母函数在0点的第i阶导数值。

　　即E(x^n)=d^n(Mx(t))/dt^n|t=0

　　证明：

二项分布概率公式：

泊松分布需要做以下假定：

根据以上条件，在这段时间内，该事件发生k次的概率服从二项分布，可以得到概率表示如下：

所以，有：

从上式可知，泊松分布是关于数学期望或平均次数(lambda)的函数，随着lambda的不同，概率密度图也不同。泊松分布概率密度图如下：

泊松分布概率累计图：

我的理解，如果知道事件某段时间内发生次数的期望（均值），那么围绕着该均值，就可以知道任意时间段内发生次数的概率分布。

比如90分钟内平均进球数为3个：

在期望一定的情况下，缩小粒度（缩小p）相当于增大了n，在n比较大的时候二项分布不好计算，且此时p比较小，正好可以用泊松分布来替代（近似）二项分布，来估计事件发生任意次数时的概率。

借用维基百科的一个图，当λ=10的时候，泊松分布是不是看起很对称，有点像正态分布？

其实可以证明，当发生次数k比较大的时候，泊松分布会变成均值为λ，方差为λ的正态分布：

说明泊松分布只适用于发生次数k较少的情况。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/12155308.html

概率分布

发表评论

评论列表（0条）