语法 POISSON(x,mean,cumulative)
X 事件数。
Mean 期望值。
Cumulative 为一逻辑值,确定所返回的概率分布形式。如果 cumulative 为 TRUE,函数 POISSON 返回泊松累积分布概率,即,随机事件发生的次数在 0 到 x 之间(包含 0 和 1);如果为 FALSE,则返回泊松概率密度函数,即,随机事件发生的次数恰好为 x。
说明
如果 x 不为整数,将被截尾取整。
如果 x 或 mean 为非数值型,函数 POISSON 返回错误值 #VALUE!。
如果 x < 0,函数 POISSON 返回错误值 #NUM!。
如果 mean ≤ 0,函数 POISSON 返回错误值 #NUM!。
举个例子:某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个
(0 1000 + 1 90000 + 2 6000 + 3 3000) / 100000 = 111
数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和
0 001 + 1 09 + 2 006 + 3 003 = 111
概率密度一般的写法是:P(X=a) = …,即X等于某个值a的可能性
累积分布一般的写法是:P(X<=a) = …,即X小于等于某个值a的所有可能性累加之和
这二者千万别弄混,否则就会被各种公式绕晕。下图是增量分布的概率密度图(橙色)和累积分布图(蓝色)。
(1) 离散分布:
伯努利分布(零一分布,两点分布),二项分布,几何分布,泊松分布(Poisson分布)
(2) 连续分布:
指数分布,正态分布(高斯分布),均匀分布
(3) 抽样分布:
卡方分布(X 2 分布),F分布,T分布
(4) 其它分布:
多项分布,Beta分布,Dirichlet分布
(1) 应用场景
应用于两种实验结果。要么成功,要么失败,一定程度上是二元的性质。比如:一个硬币抛一次人结果。
(2) 描述
进行一次事件试验,该事件发生的概率为p,不发生的概率为1-p,任何一个只有两种结果的随机现象都服从0-1分布。
(1) 应用场景
在独立n次实验中成功次数,比如:一个硬币抛n次,k次正面朝上。
(2) 描述
上图是n=100, p=05(抛硬100次, 每一枚硬币正面朝上的概率为05),图中横轴为正面朝上的次数,纵轴为概率,可以看出正面朝上50次的可能性最大,为008左右。
(1) 应用场景
某一区间内发生随机事件次数的概率分布,比如:每小时出生3个婴儿,某网站平均每分钟有2次访问。
(2) 描述
一个离散型随机变量X 满足:
这样看起来就很抽象了,推荐看一看参考中的《如何通俗理解泊松分布》,简单地说一下上述公式怎么用,以出生婴儿为例,λ是每小时出生的婴儿的平均数,k是3个婴儿,P(X=3)是每小时出生3个婴儿的概率。从λ中我们就能看出单位时间和发生事件的大概关系。
上图是λ=2时(平均每小时出生2个婴儿),出生0个的概率为014,出生1个的概率为027…
(1) 应用场景
第一次成功所进行的试验次数,比如:考几次能通过,抛几次硬币能出现正面。
(2) 描述
几何分布由n次伯努利分布构成,随机变量X表示第一次成功所进行试验的次数
从公式中很容易看出,经历了k-1次不中,和一次命中,以抛硬币为例,P(X=3)是抛三次能抛到一次正面向上概率,前两次都是背面朝上,第三次正面朝上。如果单个硬币正面朝上的概率为05,那么期望是2次。 与二项分布相比,二项分布是抛n次硬币,有几次正面朝上,几何分布是抛几次出现第一次正布朝上。
上图是p=05时的几何分布,横轴是次数,可见抛一次就中的可能性最大为05,两次中的可能性为025…,次数越多,概率越小,整体平均下来基本是两次左右,因此,期望为2。从期望就可以看出,抛第几次能出正面,主要还是取决于硬币本身正面朝上的概率。
(1) 应用场景
两次随机事件发生时间间隔的概率分布,比如:婴儿出生的时间间隔,网站访问的时间间隔。
(2) 描述
指数分布满足以下概率密度函数公式
λ> 0是分布的一个参数,常被称为率参数(rate parameter)。即每单位时间内发生某事件的次数,还是生小孩为例,公式中的x是生两个孩子的时间间隔。
假设平均每一小时出生两个婴儿,则单位时间1小时出生2个婴儿,λ=2,期望e=05(平均间隔05小时),如左图所示。
假设平均每两小时出生一个婴儿,则单位时间1小时出生05个婴儿,λ=05,期望E=2(平均间隔2小时),如右图所示。 λ越大,曲线下降越快,可见,指数分布是几何分布的加强版。
上图中x轴是时间间隔,y轴是概率,不是说概率之和为1吗?为什么间隔为0的概率大于1呢?因为这是连续分布,某一点概率大于1(但它所在区域很窄),也不影响函数线下面积之和为1。
(1) 应用场景
连续型数据或者数据离散性小,数据基本符合正态分布特点。比如:群体的身高,智商,考试分数(中间多两边少)。
(2) 描述
若随机变量X服从一个数学期望为μ、方差o^2 为的高斯分布,记为N(μ,o^2)
上图是μ=1, o=20的正态分布,简单地说,就是基本都分布在以μ为中心,分散在o范围之内,比如:全班平均分80分,考100的也少,不及格的也少。
(1) 一些概率
i 抽样
如果整体样本可以一个一个判断叫普查,如果整体样本太多,没法一个一个判断,只能取一部分代表整体,叫抽样。
ii 统计量
统计量是根据样本数据计算出来的一个量,他是样本的函数,通常我们所关心的样本统计量有品均数、样本标准差等等。
iii 抽样分布
抽样分布也称统计量分布,以样本平均数为例,它是总体平均数的一个估计量,如果按照相同的样本容量,相同的抽样方式,反复地抽取样本,每次可以计算一个平均数,所有可能样本的平均数所形成的分布,就是样本平均数的抽样分布。卡方分布,T分布,F分布都是抽样分布。
(2) 卡方分布
设 X1,X2,Xn相互独立, 都服从标准正态分布N(0,1), 则称随机变量χ 2=X1 2+X2 2++Xn 2所服从的分布为自由度为 n 的χ2分布
(3) T分布
设X1服从标准正态分布N(0,1),X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量t=X1/((X2/n)^(1/2)) 所服从的分布为自由度为n的t分布。
(4) F分布
设X1服从自由度为m的χ2分布,X2服从自由度为n的χ2分布,且X1、X2相互独立,则称变量F=(X1/m)/(X2/n)所服从的分布为F分布,其中第一自由度为m,第二自由度为n 。
(1) 几种常见的分布
>概率密度函数图形是有“界”的(若无界则不可积,即其分布会不存在),而分布函数图形是无界的。
从数学上看,分布函数f(x)=p(x<=x)
概率密度f(x)是f(x)在x处的关于x的一阶导数,即变化率。如果在某一x附近取非常小的一个邻域δx,那么,随机变量x落在(x,
x+δx)内的概率约为f(x)δx,即p(x<x<
x+δx)
换句话说,概率密度f(x)是x落在x处“单位宽度”内的概率。“密度”一词可以由此理解。
方法一:逆变换法(Inverse Transform Method)
逆变换法的基本思路是利用累积分布函数(Cumulative Distribution Function, CDF)和均匀分布随机数产生非均匀分布的随机数。对于泊松分布,其概率质量函数(Probability Mass Function, PMF)可以表示为:
$$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$$
其中 $\lambda$ 是泊松分布的参数,$k=0,1,2,$。
泊松分布的累积分布函数为:
$$F(X\leq k)=\sum_{i=0}^{k}\frac{\lambda^i}{i!}e^{-\lambda}$$
为了得到一个泊松分布随机数 $X$,我们可以先生成一个均匀分布随机数 $U$,然后通过下面的逆变换公式计算出 $X$:
$$X=\max{k:U \leq F(X\leq k)}$$
其中 $\max$ 表示取最大值,$k$ 是泊松分布的取值范围,从 $0$ 开始逐渐增加。
方法二:拒绝采样法(Rejection Sampling)
拒绝采样法的基本思路是构造一个可以包含目标分布的“包络线”分布,并利用该分布来生成目标分布的随机数。对于泊松分布,我们可以将其包含在参数为 $\lambda$ 的指数分布中,即:
\frac{\lambda^k}{k!}e^{-\lambda},& x=k\\
0, & \text{otherwise}
\end{cases}$$
$$g(x)=e^{-\lambda}\frac{\lambda^x}{x!}, \quad x=0,1,2,\dots$$
则有:
$$\frac{f(x)}{cg(x)}=\begin{cases}
1/c, & x=0,1,2,\dots\\
0, & \text{otherwise}
\end{cases}$$
其中 $c$ 是一个常数,需要满足 $c\geq 1$。由于 $c$ 是常数,可以事先计算出来,所以我们可以先生成一个指数分布随机数 $Y$,然后再生成一个均匀分布随机数 $U$,最后判断 $Y$ 是否被接受,即:
- 如果 $Y=k$ 且 $U\leq \frac{f(k)}{cg(k)}$,则接受 $k$ 作为泊松分布的随机数;
- 否则,重新生成 $Y$ 和 $U$。
通过不断地重新生成 $Y$ 和 $U$,直到得到一个符合条件的随机数为止。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)