我这里并不是要讲“伪随机”、“真随机”这样的问题,而是关于如何生成服从某个概率分布的随机数(或者说 sample)的问题。比如,你想要从一个服从正态分布的随机变量得到 100 个样本,那么肯定抽到接近其均值的样本的概率要大许多,从而导致抽到的样本很多是集中在那附近的。当然,要解决这个问题,我们通常都假设我们已经有了一个 生成 0 到 1 之间均匀分布的随机数的工具,就好像 randomorg 给我们的结果那样,事实上许多时候我们也并不太关心它们是真随机数还是伪随机数,看起来差不多就行了。 :p
现在再回到我们的问题,看起来似乎是很简单的,按照概率分布的话,只要在概率密度大的地方多抽一些样本不就行了吗?可是具体要怎么做呢?要真动起手 来,似乎有不是那么直观了。实际上,这个问题曾经也是困扰了我很久,最近又被人问起,那我们不妨在这里一起来总结一下。为了避免一下子就陷入抽象的公式推 导,那就还是从一个简单的具体例子出发好了,假设我们要抽样的概率分布其概率密度函数为 p(x) = \frac{1}{9}x^2 ,并且被限制在区间 [0, 3] 上,如右上图所示。
好了,假设现在我们要抽 100 个服从这个分布的随机数,直观上来讲,抽出来的接近 3 的数字肯定要比接近 0 的数字要多。那究竟要怎样抽才能得到这样的结果呢?由于我们实际上是不能控制最原始的随机数生成过程的,我们只能得到一组均匀分布的随机数,而这组随机数 的生成过程对于我们完全是透明的,所以,我们能做的只有把这组均匀分布的随机数做一些变换让他符合我们的需求。找到下手的点了,可是究竟要怎样变换呢?有 一个变换相信大家都是很熟悉的,假设我们有一组 [0,1] 之间的均匀分布的随机数 X_0 ,那么令 X_1=3X_0 的话,X_1 就是一组在 [0,3] 之间均匀分布的随机数了,不难想象,X_1 等于某个数 x^ 的概率就是 X_0 等于 x^/3 的概率(“等于某个数的概率”这种说法对于连续型随机变量来说其实是不合适的,不过大概可以理解所表达的意思啦)。似乎有一种可以“逆转回去”的感觉了。
于是让我们来考虑更一般的变换。首先,我们知道 X_1 的概率密度函数是 f(x) = 1/3, x\in[0,3] ,假设现在我们令 Y = \phi (X_1) ,不妨先假定 \phi(\cdot) 是严格单调递增的函数,这样我们可以求其逆函数 \phi^{-1}(\cdot) (也是严格单调递增的)。现在来看变换后的随机变量 Y 会服从一个什么样的分布呢?
这里需要小心,因为这里都是连续型的随机变量,并不像离散型随机变量那样可以说成“等于某个值的概率”,因此我们需要转换为概率分布函数来处理,也就是求一个积分啦:
\displaystyle F(x) = P(X \leq x) = \int_{-\infty}^x f(t)dt
那么 X_1 的概率分布函数为 F(x) = \frac{1}{3}x 。很显然 Y 小于或等于某个特定的值 y^ 这件事情是等价于 X_1=\phi^{-1}(Y)\leq\phi^{-1}(y^) 这件事情的。换句话说,P(Y\leq y^) 等于 P(X_1 \leq \phi^{-1}(y^)) 。于是,Y 的概率分布函数就可以得到了:
\displaystyle G(y) = P(Y \leq y) = P(X_1 \leq \phi^{-1}(y)) = F(\phi^{-1}(y))
再求导我们就能得到 Y 的概率密度函数:
\displaystyle g(y) = \frac{dG(y)}{dy} = f(\phi^{-1}(y))\frac{d}{dy}\phi^{-1}(y)
这样一来,我们就得到了对于一个随机变量进行一个映射 \phi(\cdot) 之后得到的随即变量的分布,那么,回到我们刚才的问题,我们想让这个结果分布就是我们所求的,然后再反推得 \phi(\cdot) 即可:
\displaystyle \frac{1}{9}y^2 = g(y) = f(\phi^{-1}(y))\frac{d}{dy}\phi^{-1}(y) = \frac{1}{3}\frac{d}{dy}\phi^{-1}(y)
经过简单的化简就可以得到 \phi^{-1}(y) = \frac{1}{9} y^3 ,亦即 \phi(x) = (9x)^{1/3} 。也就是说,把得到的随机数 X_1 带入到到函数 \phi(\cdot) 中所得到的结果,就是符合我们预期要求的随机数啦! :D 让我们来验证一下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
#!/usr/bin/python import numpy as np import matplotlibpyplot as plot N = 10000 X0 = nprandomrand(N) X1 = 3X0 Y = nppower(9X1, 10/3) t = nparange(00, 30, 001) y = tt/9 plotplot(t, y, 'r-', linewidth=1) plothist(Y, bins=50, normed=1, facecolor='green', alpha=075)plotshow()
这就没错啦,目的达成啦!让我们来总结一下。问题是这样的,我们有一个服从均匀分布的随机变量 X ,它的概率密度函数为一个常数 f(x)=C ,如果是 [0,1] 上的分布,那么常数 C 就直接等于 1 了。现在我们要得到一个随机变量 Y 使其概率密度函数为 g(y) ,做法就是构造出一个函数 \phi(\cdot) 满足(在这里加上了绝对值符号,这是因为 \phi(\cdot) 如果不是递增而是递减的话,推导的过程中有一处就需要反过来)
\displaystyle g(y) = f(\phi^{-1}(y))\left|\frac{d}{dy}\phi^{-1}(y)\right| = C\left|\frac{d}{dy}\phi^{-1}(y)\right|
反推过来就是,对目标 y 的概率密度函数求一个积分(其实就是得到它的概率分布函数 CDF ,如果一开始就拿到的是 CDF 当然更好),然后求其反函数就可以得到需要的变换 \phi(\cdot) 了。实际上,这种方法有一个听起来稍微专业一点的名字:Inverse Transform Sampling Method 。不过,虽然看起来很简单,但是实际 *** 作起来却比较困难,因为对于许多函数来说,求逆是比较困难的,求积分就更困难了,如果写不出解析解,不得已只能用数 值方法来逼近的话,计算效率就很让人担心了。可事实上也是如此,就连我们最常见的一维标准正态分布,也很难用这样的方法来抽样,因为它的概率密度函数
\displaystyle g(y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}y^2}
的不定积分没有一个解析形式。这可真是一点也不好玩,费了这么大劲,结果好像什么都干不了。看来这个看似简单的问题似乎还是比较复杂的,不过也不要灰心,至少对于高斯分布来说,我们还有一个叫做 Box Muller 的方法可以专门来做这个事情。因为高斯分布比较奇怪,虽然一维的时候概率分布函数无法写出解析式,但是二维的情况却可以通过一些技巧得出一个解析式来。
首先我们来考虑一个二维的且两个维度相互独立的高斯分布,它的概率密度函数为
\displaystyle f(x,y) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}\cdot\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}} = \frac{1}{2\pi}e^{-\frac{x^2+y^2}{2}}
这个分布是关于原点对称的,如果考虑使用极坐标 (\theta,r) (其中 \theta\in[0,2\pi), r\in[0,\infty) )的话,我们有 x = r\cos\theta,y=r\sin\theta 这样的变换。这样,概率密度函数是写成:
\displaystyle f(\theta,r) = \frac{1}{2\pi}e^{-\frac{r^2}{2}}
注意到在给定 r 的情况下其概率密度是不依赖于 \theta 的,也就是说对于 \theta 来说是一个均匀分布,这和我们所了解的标准正态分布也是符合的:在一个圆上的点的概率是相等的。确定了 \theta 的分布,让我们再来看 r,用类似于前面的方法:
\displaystyle \begin{aligned} P(r<R) &= \int_0^{2\pi}\int_0^R\frac{1}{2\pi}e^{\frac{r^2}{2}}rdrd\theta \ &= \int_0^Re^{-\frac{r^2}{2}}rdr \ &= 1-e^{-\frac{R^2}{2}} \end{aligned}
根据前面得出的结论,我现在得到了 r 的概率分布函数,是不是只要求一下逆就可以得到一个 \phi(\cdot) 了?亦即 \phi(t) = \sqrt{-2\log (1-t)} 。
现在只要把这一些线索串起来,假设我们有两个相互独立的平均分布在 [0,1] 上的随机变量 T_1 和 T_2 ,那么 2\pi T_1 就可以得到 \theta 了,而 \phi(T_2) = \sqrt{-2\log(1-T_2)} 就得到 r 了(实际上,由于 T_2 和 1-T_2 实际上是相同的分布,所以通常直接写为 \sqrt{-2\log T_2})。再把极坐标换回笛卡尔坐标:
\displaystyle \begin{aligned} x = r\cos\theta & = \sqrt{-2\log T_2}\cdot \cos(2\pi T_1) \ y = r\sin\theta &= \sqrt{-2\log T_2}\cdot \sin(2\pi T_1) \end{aligned}
这样我们就能得到一个二维的正态分布的抽样了。可以直观地验证一下,二维不太好画,就画成 heatmap 了,看着比较热的区域就是概率比较大的,程序如下:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
#!/usr/bin/python import numpy as np import matplotlibpyplot as plot N = 50000 T1 = nprandomrand(N) T2 = nprandomrand(N) r = npsqrt(-2nplog(T2)) theta = 2nppiT1 X = rnpcos(theta) Y = rnpsin(theta) heatmap, xedges, yedges = nphistogram2d(X, Y, bins=80) extent = [xedges[0], xedges[-1], yedges[0], yedges[-1]] plotimshow(heatmap, extent=extent) plotshow()
画出来的图像这个样子:
不太好看,但是大概的形状是可以看出来的。其实有了二维的高斯分布,再注意到两个维度在我们这里是相互独立的,那么直接取其中任意一个维度,就是一个一维高斯分布了。如下:
如果 X\sim N(0,1) 即服从标准正态分布的话,则有 \sigma X+\mu \sim N(\mu, \sigma^2) ,也就是说,有了标准正态分布,其他所有的正态分布的抽样也都可以完成了。这下总算有点心满意足了。不过别急,还有最后一个问题:多元高斯分布。一般最常 用不就是二元吗?二元不是我们一开始就推出来了吗?推出来了确实没错,不过我们考虑的是最简单的情形,当然同样可以通过 \sigma X+\mu 这样的方式来处理每一个维度,不过高维的情形还有一个需要考虑的就是各个维度之间的相关性——我们之前处理的都是两个维度相互独立的情况。对于一般的多维正态分布 X\sim N(\mathbf{\mu}, \Sigma) ,如果各个维度之间是相互独立的,就对应于协方差矩阵 \Sigma 是一个对角阵,但是如果 \Sigma 在非对角线的地方存在非零元素的话,就说明对应的两个维度之间存在相关性。
这个问题还是比较好解决的,高斯分布有这样的性质:类似于一维的情况,对于多维正态分布 X\sim N(\mathbf{\mu}, \Sigma),那么新的随机变量 X_1=\mathbf{\mu}_1 + LX 将会满足
\displaystyle X_1 \sim N(\mathbf{\mu}_1+L\mu, L\Sigma L^T)
所以,对于一个给定的高斯分布 N(\mathbf{\mu}, \Sigma) 来说,只要先生成一个对应维度的标准正态分布 X\sim N(0, I) ,然后令 X_1 = \mu+LX 即可,其中 L 是对 \Sigma 进行 Cholesky Decomposition 的结果,即 \Sigma = LL^T 。
结束之前让我们来看看 matlab 画个 3D 图来改善一下心情:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
N = 50000; T1 = rand(1, N); T2 = rand(1, N); r = sqrt(-2log(T2)); theta = 2piT1; X =[rcos(theta); rsin(theta)]; mu = [1; 2]; Sigma = [5 2; 2 1]; L = chol(Sigma); X1 = repmat(mu,1, N) + LX; nbin = 30; hist3(X1', [nbin nbin]); set(gcf, 'renderer', 'opengl'); set(get(gca,'child'), 'FaceColor', 'interp', 'CDataMode', 'auto'); [z c] = hist3(X1', [nbin nbin]); [x y] =meshgrid(c{1}, c{2}); figure; surfc(x,y,-z);
下面两幅图,哪幅好看一些(注意坐标比例不一样,所以看不出形状和旋转了)?似乎都不太好看,不过感觉还是比前面的 heatmap 要好一点啦!
然后,到这里为止,我们算是把高斯分布弄清楚了,不过这只是给一个介绍性的东西,里面的数学推导也并不严格,而 Box Muller 也并不是最高效的高斯采样的算法,不过,就算我们不打算再深入讨论高斯采样,采样这个问题本身也还有许多不尽人意的地方,我们推导出来的结论可以说只能用 于一小部分简单的分布,连高斯分布都要通过 trick 来解决,另一些本身连概率密度函数都写不出来或者有各种奇怪数学特性的分布就更难处理了。所以本文的标题里也说了,这是上篇,如果什么时候有机会抽出时间 来写下篇的话,我将会介绍一些更加通用和强大的方法,诸如 Rejection Sampling 、Gibbs Sampling 以及 Markov Chain Monte Carlo (MCMC) 等方法。如果你比较感兴趣,可以先自行 Google 一下解馋! :D
Z的概率密度函数为:fz(t)=F'z(z<t)=λ1λ2(e^(λ1-t)-e^(λ2-t))/(λ2-λ1),z>0
分析过程如下:
因为X,Y分别服从参数为λ1,λ2的指数分布;
所以有:密度函数f(x)=λ1e^(-λ1x),f(y)=λ2e^(-λ2y),(x>0,y>0);
令Z=X+Y的分布函数为Fz;
则Fz(z<t)=Fz(X+Y<t)=∫∫[X+Y<t](λ1e^(-λ1x)λ2e^(-λ2y))dxdy
=∫[0→t]∫[0→t-x](λ1e^(-λ1x)λ2e^(-λ2y)dy)dx
=1-λ2e^(-λ1t)/(λ2-λ1)+λ1e^(-λ2t)/(λ2-λ1)
即:Fz(z<t)=1-λ2e^(-λ1t)/(λ2-λ1)+λ1e^(-λ2t)/(λ2-λ1)
令Z的概率密度函数为fz(t);
则:fz(t)=F'z(z<t)=[1-λ2e^(-λ1t)/(λ2-λ1)+λ1e^(-λ2t)/(λ2-λ1)]'
=λ1λ2(e^(λ1-t)-e^(λ2-t))/(λ2-λ1)
z>0
概率指事件随机发生的机率,对于均匀分布函数,概率密度等于一段区间(事件的取值范围)的概率除以该段区间的长度,它的值是非负的,可以很大也可以很小。
扩展资料:
概率密度函数的求解方法
1、概率密度函数用数学公式表示就是一个定积分的函数,概率密度函数是分布函数的导函数,求解时对分布函数进行求导即可。
2、如果概率密度函数fX(x)在一点x上连续,那么累积分布函数可导,并且它的导数:
3、最常见的连续型概率分布是正态分布,也称为高斯分布。它的概率密度函数为:
4、已知连续型随机变量的密度函数,可以通过讨论及定积分的计算求出其分布函数;当已知连续型随机变量的分布函数时,对其求导就可得到密度函数。
二维正态分布的两个边缘分布都是一维正态分布的形式公式是:
二维正态分布采用德国数学家卡尔·弗里德里希·高斯的名字冠名),是一个在数学、物理及工程等领域都非常重要的概率分布,由于这个分布函数具有很多非常漂亮的性质。
使得其在诸多涉及统计科学离散科学等领域的许多方面都有着重大的影响力。比如图像处理中最常用的滤波器类型为Gaussian滤波器(也就是所谓的正态分布函数)。
二维正态的独立性
对于二维正态随机变量(X,Y),X和Y相互独立的充要条件是参数ρ=0。也即二维正态随机变量独立和不相关可以互推。以下给出证明过程。
必要性:如果ρ=0
有:
充分性:如果X和Y相互独立,由于
都是连续函数,有:
为使这一等式成立,从而ρ=0。
在前面第3章介绍的最小二乘法是L2范数解,数据满足高斯分布。当地球物理数据d在统计学上满足双边指数分布时,数据的指数概率分布密度函数[2]为
地球物理反演教程
其中:σ为高斯分布的标准差; 为数据的平均值。
数据的指数概率分布函数[4]为
地球物理反演教程
P1(d)表示取值在(-∞,d]的概率,其中要求 。由于分布密度是对称的,求大于 的[d1,∞)的概率用关于 的对称值计算:
地球物理反演教程
而高斯概率分布密度函数[4]为
地球物理反演教程
数据的高斯概率分布函数为
地球物理反演教程
注意:概率分布密度函数和概率分布函数的区别。概率分布函数就是通常所说的概率,所有取值的概率之和为1,即100%,没有一个取值的概率超过100%。而概率密度则不同,它与标准差有关,标准差越小,概率密度越大,它不是概率,所以它的值可能会超过1。
取σ=001, ,在相同的σ和 条件下的概率分布密度曲线如图61所示,其中实线为指数分布概率密度函数,虚线为高斯分布概率密度函数。概率分布函数如图62所示,其中实线为指数分布概率函数,虚线为高斯分布概率函数。
从图62中可见,指数分布出现远离均值的数据的概率比高斯分布大。这说明指数分布容易出现个别数据较坏的情况,这时可以用L1范数解进行反演,这对数据集中极少数坏数据具有较大的韧性[1,2]。
L1范数反演可以转化为线性规划问题,然后再利用线性规划的方法求解[7,12]。线性规划问题是首先在经济和企业管理中发展起来的并已经被深入研究过的问题,目前有很多成熟的解法,其中求解线性规划问题最常用的是单纯形法。因此L1范数反演思路如下:首先将具体地球物理反演问题转化为线性规划问题,然后用单纯形法求解。
图61 指数和高斯概率分布密度函数曲线
图62 指数和高斯概率分布函数曲线
线性规划问题的数学模型为[2]
目标函数:
ψ=cTx=max (66)
约束条件:
地球物理反演教程
其中:c,x,b为列向量;c称为价值系数;x称为决策变量;A为矩阵。线性规划的优化问题是:在满足约束条件的前提下使得目标函数取极大值(有的书取极小值[7])。
式(66)和式(67)不是线性规划的标准形式。在实际应用中,各种线性规划问题都可以变换为如式(68)和式(69)的标准形式后求解。
线性规划问题的标准形式:
目标函数:
ψ=cTx=max (68)
约束条件:
Ax=b,x≥0 (69)
下面仍然以一维直流电测深反演为例说明如何将地球物理反演问题转化为线性规划问题。
假设视电阻率数据满足指数分布,则可以用L1范数进行反演。
因此建立L1范数曲线拟合目标函数:
地球物理反演教程
其中:M为视电阻率曲线中数据个数;ρai为实测视电阻率; 为理论计算视电阻率。
式(610)写成向量形式为
地球物理反演教程
其中:d为观测电测深视电阻率数据;d为计算机模拟的视电阻率数据,都为列向量。
采用泰勒近似:
d≈d0+J·(m-m0)
则
地球物理反演教程
要想使ψ=min,则有
地球物理反演教程
式(613)可以作为约束条件,而目标函数可以采用模型参数的L1范数最小:
地球物理反演教程
其中:N为模型参数的个数。由于模型参数都是正的,所以有
地球物理反演教程
其中:
地球物理反演教程
这样地球物理反演问题化为线性规划问题(在满足约束条件的前提下使得目标函数取极小值):
目标函数:
L1=cTm=min (617)
约束条件:
地球物理反演教程
注意:这里是要使目标函数取极小而不是极大,所以不是线性规划的标准形式。需要化成标准形式来求解。下面介绍变换的四种情况:
(1)目标函数的极小问题改为极大问题。只要令ψ'=-ψ,可以把minψ变为maxψ'。
(2)如果有负的决策变量,可令x'k=-xk将其改为非负的决策变量。
(3)如果约束条件中有决策变量取值无约束,可以把它改为有约束的变量。如:令xk=x'k-x″k,其中x'k和x″k是非负的松弛变量。
(4)约束条件中的不等号改为等号。对于<或≤符号,在左端加入一个非负松弛变量;对于>或≥符号,在右端减去一个非负的剩余变量。
任何形式的线性规划数学模型都可以化为标准形式,下面用例子说明。
对于式(617)和式(618)的线性规划问题,只要令L1=-cTm=max即可。
设有一个非标准形式的线性规划问题:
地球物理反演教程
将这个问题化为标准形式的过程如下:
(1)令z'=-z;
(2)令x'2=-x2;
(3)令x3=x4-x5,其中x4≥0,x5≥0;
(4)在第(1)和第(2)个约束不等式的左端分别加入、减去松弛变量x6和剩余变量x7,其中x6≥0,x7≥0。
这时我们得到如下标准形式的线性规划问题:
地球物理反演教程
解式(620)的线性规划问题可以采用单纯形法求解[7,12]。限于篇幅本文不详细介绍单纯形法的具体步骤,有兴趣的读者可以参考相关的书籍。下面仅仅对单纯形法做简单的介绍。
单纯形法是美国数学家丹齐克于1947年首先提出来的。它的理论根据是:线性规划问题的可行域是n维向量空间Rn中的多面凸集,其最优值如果存在必在该凸集的某顶点处达到。顶点所对应的可行解称为基本可行解。单纯形法的基本思想是:先找出一个基本可行解,对它进行鉴别,看是否是最优解;若不是,则按照一定法则转换到另一改进的基本可行解,再鉴别;若仍不是,则再转换,按此重复进行。因基本可行解的个数有限,故经有限次转换必能得出问题的最优解。如果问题无最优解也可用此法判别。
单纯形法的一般解题步骤可归纳如下:
(1)把线性规划问题的约束方程组表达成标准型方程组,找出基本可行解作为初始基本可行解。
(2)若基本可行解不存在,即约束条件有矛盾,则问题无解。
(3)若基本可行解存在,从初始基本可行解作为起点,根据最优性条件和可行性条件,引入非基变量取代某一基变量,找出目标函数值更优的另一基本可行解。
(4)按步骤(3)进行迭代,直到对应检验数满足最优性条件(这时目标函数值不能再改善),即得到问题的最优解。
(5)若迭代过程中发现问题的目标函数值无界,则终止迭代。用单纯形法求解线性规划问题所需的迭代次数主要取决于约束条件的个数。
数学优化中,由George Dantzig发明的单纯形法是线性规划问题的数值求解的流行技术。有一个算法与此无关,但名称类似,它是Nelder-Mead法或称下山单纯形法,由Nelder和Mead(1965)发现,这是用于优化多维无约束问题的一种数值方法,属于更一般的搜索算法的类别。这二者都使用了单纯形的概念,它是N维中的(N+1)个顶点的凸包、直线上的一个线段、平面上的一个三角形、三维空间中的一个四面体等。在何宝侃等所著《地球物理反问题中的最优化方法》一书中有下山单纯形法的详细公式及反演步骤[3]。
随机变量取一切可能值的概率的规律称为概率分布(probability distribution),简称为 分布 。
表示分布最常用的方法是 直方图 (histogram),这种图用于展示各个值出现的频数或概率。 频数 指的是数据集中的一个值出现的次数。 概率 就是频数除以 样本数量n 。用表示概率的直方图称为 概率质量函数 (Probability Mass Function, PMF)。
常见分布根据变量类型可分为 离散型分布 和 连续型分布
离散型变量 指变量值可以按一定顺序一一列举,通常以整数位取值的变量。
连续型变量 是指在连续区间取值,例如质量、长度、面积、体积、寿命、距离等就是连续型变量。现在试想一下连续变量观测值的直方图;如想其纵坐标为相对频数,那么所有这些矩形条的高度和为1,那么完全可以重新设置量纲,例这些矩形条的面积为1,如果不断增加观测值,并不断增加直方图的矩形条的数目,这些直方图就会越来越像一条光滑曲线,其下面的面积和为1,这种曲线就是 概率密度函数 (probability density function, pdf),简称为 密度函数 或 密度 。
常用离散型分布有: 二项分布、几何分布、 超几何分布、 负二项分布和泊松分布 等。
常用连续型分布有: 正态分布、卡方分布、指数分布、F分布、伽马分布、t 分布、均匀分布、贝塔分布、柯西分布、对数正态分布、Logistic 分布、Wilcoxon signed Rank 分布、Weibull 分布,Wilcoxon Rank Sum 分布、多元正态分布 。
分布族谱:
基于每次的实验有两个可能结果的重复独立伯努利(Bernoulli)试验。
伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 - 1705)提出来的。
n为实验总次数,k是成功的次数,p是成功概率:
P(X=k)=C_n kp k(1-p)^{n-k}
典型为 掷色子
每次试验不止有两种可能,而是有 k 种结果;且
超几何分布就是不放回的伯努利试验;
在抽样调查的实践中,一般不会重复调查同一个体,这相当于不放回抽样,所以应该用超几何分布描述;
但是在一个很大的群体中抽样时放不放回差异很小,但是二项分布计算更简单所以会用二项分布描述。
R语言中与超几何分布有关的函数为 phyper,dhyper,rhyper,qhyper 。
在一批产品里,一共有N件产品,其中有M件次品,那么当我们任何取n件产品,其中恰有X件次品的概率P就可以按归照下面的公式进行计算:
Bernoulli试验独立地重复进行,一直到出现有功能出现时停止试剂,则试验失败的次数服从一个参数为p的几何分布。
伯努利试验独立地重复进行,一直到出现 k 次成功时停止试验,则试验 失败 的次数服从一个参数为(k,p)的负二项分布。
其中:
k是失败的次数,为自变量,取值范围为0, 1, 2, 3,
r是成功的次数,为固定值。当r=1时,负二项分布退化为几何分布
p是伯努利试验成功的概率,失败概率则为1-p
泊松概率分布描述的是在某段时间或某个空间内发生随机事件次数的概率,简而言之就是:根据过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生k次的概率。
由于泊松分布适用于描述某段时间(或某个空间)内随机事件发生的次数,因此它常用于预测某些事件的发生。例如:某家医院在一定时间内到达的人数;某段时间内DNA序列的变异数。
其中:
λ是过去某段时间或某个空间内随机事件发生的平均次数
e = 271828,是自然常数
k的取值为 0, 1, 2, 3, 4,
k! = k x (k-1) x (k-2) x x 2 x 1,是k的阶乘
参数统计学的理论核心。正态分布像一只倒扣的钟。两头低,中间高,左右对称。大部分数据集中在平均值,小部分在两端,因此人们又经常称之为 钟形曲线 。
正态分布笔记参考
三个特征 :
shapirotest()函数可进行Shapiro-Wilk正态分布检验, 用来检验是否数据符合正态分布,类似于线性回归的方法一样,是检验其于回归曲线的残差。
伽玛分布与卡方分布和指数分布有关,卡方分布与指数分布可以视为一种特殊的伽玛分布。
许多随机变量,例如计算机使用寿命的长度,假定仅取非负值,这种类型数据的相对频率分布通过用Γ型密度函数建模。
alpha (一般为整数)代表一件事发生的次数;beta代表它发生一次的概率(或者叫速率)。那么gamma 分布就代表这么一件事发生alpha 次所需要时间的分布。
X∼Gamma(α,λ)
指数分布解决的问题是“要等到一个随机事件发生,需要经历多久时间”,伽玛分布解决的问题是“要等到n个随机事件都发生,需要经历多久时间”。所以,伽玛分布可以看作是n个指数分布的独立随机变量的加总,即,n个Exponential(λ)random variables--->Gamma(n,λ)
alpha代表上述的n, 当alpha=1时,伽马分布就变成了指数分布:
卡方分布是由正态分布推导出来的分布,它的定义为,n个独立标准正态变量的平方和称为有n个自由度的χ2分布,记为χ2(n),χ2(n)的总体均值为n,总体方差为2n。
以特定概率分布为某种情况建模时,事物长期结果较为稳定,能够清晰进行把握。但是期望与事实存在差异怎么办?偏差是正常的小幅度波动?还是建模错误?此时,利用卡方分布分析结果,排除可疑结果。
事实与期望不符合情况下使用卡方分布进行检验
常规事件中出现非常规现象,如何检查问题所在的情况下使用卡方分布
它广泛的运用于检测数学模型是否适合所得的数据,以及数据间的相关性。数据并不需要呈正态分布
Γ 表示的是一个gamma函数,它是整数k的封闭形式。
“t”,是伟大的 Fisher 为之取的名字。Fisher最早将这一分布命名为“Student's distribution”,并以“t”为之标记。Student,则是William Sealy Gosset(戈塞特)的笔名。他当年在爱尔兰都柏林的一家酒厂工作,设计了一种后来被称为t检验的方法来评价酒的质量。
我们平常说的t分布,都是指小样本的分布。但是,随着样本量n / 自由度的增加,t分布越来越接近正态分布。正态分布,可以看做只是t分布的一个特例而已。
所以,t分布在大小样本中都是通用的。相对于正态分布,t分布额外多了一个参数,自由度。
应用在当对呈正态分布的母群体的均值进行估计或者当母群体的标准差是未知的但却又需要估计时
自由度1~10,t分布为绿色,蓝色为正态分布,t分布也是钟形曲线,但是更宽更厚有尾巴。自由度(希腊字母V,读作“纽”)越大,分布越是接近正态分布。
Gam(x)为伽马函数
研究A、B、C三种不同学校学生的阅读理解成绩找到一种解决的办法,有人可能会以为,只要多次使用Z检验或t检验,比较成对比较学校(或条件)即可。但是我们不会这样来处理。因为Z检验或t检验有其局限性:
(1)比较的组合次数增多,上例需要3次,如果研究10个学校,需要45个
(2)降低可靠程度,如果我们做两次检验,每次都为005的显著性水平,那么不犯Ⅰ型错误的概率就变为095×095=090。此时犯Ⅰ型错误的概率则为1-090=010,即至少犯一次Ⅰ型错误的概率翻了一倍。若做10次检验的话,至少犯一次Ⅰ型错误的概率将上升到040(1-0952),而10次检验结论中都正确的概率只有60%。所以说采用Z检验或t检验随着均数个数的增加,其组合次数增多,从而降低了统计推论可靠性的概率,增大了犯错误的概率。
F-分布被广泛应用于似然比率检验,特别是方差分析ANOVA中
有两个独立的正态分布N(μ1,σ12)和 N(μ2,σ22)如果我们对这两个总体进行抽样,获得的样本方差为s12和s22,那么它们遵循F分布:
rbinom(n, size, prob)二项分布
rgeom(n, prob)几何分布
rhyper(nn, m, n, k) 超几何分布
rlogis(n, location=0, scale=1) logistic分布
rlnorm(n, meanlog=0, sdlog=1)对数正态
rnbinom(n, size, prob)负二项分布
rnorm(n, mean=0, sd=1) 高斯(正态)分布
rexp(n, rate=1) 指数分布
rgamma(n, shape, scale=1) γ分布
rpois(n, lambda) Poisson分布
rweibull(n, shape, scale=1) Weibull分布
rcauchy(n, location=0, scale=1) Cauchy分布
rbeta(n, shape1, shape2) β分布
rt(n, df) t分布
rf(n, df1, df2) F分布
rchisq(n, df) χ 2 分布
runif(n, min=0, max=1)均匀分布
rwilcox(nn, m, n), rsignrank(nn, n) Wilcoxon分布
自由度
中心极限定理
方差分析
高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,它是一个将事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
定义
高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。对图像背景建立高斯模型的原理及过程:图像灰度直方图反映的是图像中某个灰度值出现的频次,也可以以为是图像灰度概率密度的估计。如果图像所包含的目标区域和背景区域相差比较大,且背景区域和目标区域在灰度上有一定的差异,那么该图像的灰度直方图呈现双峰-谷形状,其中一个峰对应于目标,另一个峰对应于背景的中心灰度。对于复杂的图像,尤其是医学图像,一般是多峰的。通过将直方图的多峰特性看作是多个高斯分布的叠加,可以解决图像的分割问题。在智能监控系统中,对于运动目标的检测是中心内容,而在运动目标检测提取中,背景目标对于目标的识别和跟踪至关重要。而建模正是背景目标提取的一个重要环节。
混合高斯背景建模原理
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)