常见概率分布介绍

常见概率分布介绍,第1张

Bernoulli分布 是单个二值随机变量分布, 单参数 ∈[0,1]控制, 给出随机变量等于1的概率 基本形式为:

其期望为:

其方差为:

Multinoulli分布 也叫 范畴分布 , 是单个 k 值随机分布,经常用来表示 对象分类的分布 其中 是有限值Multinoulli分布由向量 参数化,每个分量 表示第 个状态的概率, 且

适用范围 : 伯努利分布 适合对 离散型 随机变量建模

高斯也叫正态分布(Normal Distribution), 概率度函数如下:

其中, 和 分别是均值和方差, 中心峰值x坐标由 给出, 峰的宽度受 控制, 最大点在 处取得, 拐点为

正态分布中,±1 、±2 、±3 下的概率分别是683%、955%、9973%,这3个数最好记住。

此外, 令 高斯分布即简化为标准正态分布:

对概率密度函数高效求值:

其中, 通过参数 来控制分布精度。

问: 何时采用正态分布

答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

正态分布的推广:

正态分布可以推广到 空间, 此时称为 多位正态分布 , 其参数是一个正定对称矩阵 :

对多为正态分布概率密度高效求值:

此处, 是一个精度矩阵。

深度学习中, 指数分布用来描述在 点处取得边界点的分布, 指数分布定义如下:

指数分布用指示函数 来使 取负值时的概率为零。

一个联系紧密的概率分布是 Laplace 分布(Laplace distribution),它允许我们在任意一点 处设置概率质量的峰值

Dirac分布可保证概率分布中所有质量都集中在一个点上 Diract分布的狄拉克 函数(也称为 单位脉冲函数 )定义如下:

Dirac 分布经常作为 经验分布(empirical distribution)的一个组成部分出现

, 其中, m个点 是给定的数据集, 经验分布 将概率密度 赋给了这些点

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了 采样来源

适用范围 : 狄拉克δ函数适合对 连续型 随机变量的经验分布

在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。

概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。方差是一种特殊的期望。定义为:

协方差是衡量两个变量线性相关性强度及变量尺度。 两个随机变量的协方差定义为:

方差是一种特殊的协方差。当 时, 。

相关系数是研究变量之间线性相关程度的量。两个随机变量的相关系数定义为:

经验估计法是根据管理人员和工作人员的实际工作经验,并参考有关技术文件或实物,评估计划期内条件的变化等因素,制定标准的方法。

经验分布---如:Fn(X)是基于来自总体的容量为n的简单随机样本的经验分布函数;Fn(X)是总体的分布函数,则下列命题错误的是,对于每个给定的x,Fn(X)

A是分布函数 B依概率收敛于F(X) C是一统计量 D其数学期望是F(X)

利用样条函数将分布函数光滑化,得到光滑经验分布函数,在一定的条件下,证明了光没经验分布函数随机加权逼近的相合性。 (共3页)累积分布函数(cumulative distribution function, 缩写为 cdf)能完整描述一个实数随机变数,X,机率分布。对於所有实数x ,cdf定义如下:

<math>F(x) = \operatorname{P}(X\leq x)</math>

百分位数图和经验累计分布函数 一种更定量地显示数据分布的图是经验累计分布函数图。尽管这种类型的图听上去可能很复杂,但是概念相当简单。对于统计分布的每个值,一个累计分布函数(cumulative distribution function,CDF)显示点小于该值的概率。对于每个观测值,一个经验累计分布函数(empirical cumulative distribution function,ECDF)显示小于该值的点的百分比。由于点的个数是有限的,经验累计分布函数是一个阶梯函数。

好不容易在网上找的,就这些了,真希望能够帮到您!

概率论与数理统计

一、随机事件和概率

 考试内容:

 随机事件与样本空间 事件的关系与运算 完备事件组 概率的概念 概率的基本性质 古典型概率 几何型概率 条件概率 概率的基本公式 事件的独立性 独立重复试验。

 考试要求:

 1、了解样本空间(基本事件空间)的概念,理解随机事件的概念,掌握事件的关系与运算。

 2、理解概率、条件概率的概念,掌握概率的基本性质,会计算古典型概率和几何型概率,掌握概率的加法公式、减法公式、乘法公式、全概率公式,以及贝叶斯(Bayes)公式。

 3、理解事件的独立性的概念,掌握用事件独立性进行概率计算;理解独立重复试验的概念,掌握计算有关事件概率的方法。。

 二、随机变量及其分布

 考试内容:

 随机变量 随机变量的分布函数的概念及其性质 离散型随机变量的概率分布 连续型随机变量的概率密度 常见随机变量的分布 随机变量函数的分布

 考试要求:

 1、理解随机变量的概念。理解分布函数的概念及性质。会计算与随机变量相联系的事件的概率。

 2、理解离散型随机变量及其概率分布的概念,掌握0-1分布、二项分布、几何分布、超几何分布、泊松(Poisson)分布 及其应用。

 3、了解泊松定理的结论和应用条件,会用泊松分布近似表示二项分布。

 4、理解连续型随机变量及其概率密度的概念,掌握均匀分布、正态分布、指数分布及其应用。

 5、会求随机变量函数的分布。

 三、多维随机变量及其分布

 考试内容:

 多维随机变量及其分布 二维离散型随机变量的概率分布、边缘分布和条件分布 二维连续性随机变量的概率密度、边缘概率密度和条件密度 随机变量的独立性和不相关性 常用二维随机变量的分布 两个及两个以上随机变量简单函数的分布

 考试要求:

 1、理解多维随机变量的概念,理解多维随机变量的分布的概念和性质。 理解二维离散型随机变量的概率分布、边缘分布和条件分布;理解二维连续型随机变量的概率密度、边缘密度和条件密度。会求与二维随机变量相关事件的概率。

 2、理解随机变量的独立性及不相关性的概念,掌握随机变量相互独立的条件。

 3、掌握二维均匀分布,了解二维正态分布 的概率密度,理解其中参数的概率意义。

 4、会求两个随机变量简单函数的分布,会求多个相互独立随机变量简单函数的分布。

 解析: 2008年数一大纲对随机变量的定义进行了一些说法上的修订:

 1、这部分定义上的更正,完全是对原先大纲语言表述上的完善,没有增加任何的新的要求和知识点,反而从另一个角度讲,这种规范有利于我们在做题以及理解上的惯性,使我们较快较准地识别各种随机变量的特征,比如一看到马上反映到以为参数的泊松分布,不容易产生混淆。所以我们在解题时也能继承随机变量的这种表示风格,不要随便自我创造,增加混淆度。

 四、随机变量的数字特征

 考试内客:

 随机变量的数学期望(均值)、方差和标准差及其性质 随机变量函数的数学期望 矩、协方差 相关系数及其性质

 考试要求:

 1、理解随机变量数字特征(数学期望、方差、标准差、矩、协方差、相关系数)的概念,会运用数字特征的基本性质,并掌握常用分布的数字特征

 2、会求随机变量函数的数学期望。

 五、大数定律和中心极限定理

 考试内容:

 切比雪夫(Chebyshev)不等式 切比雪夫大数定律 伯努利(Bernoulli)大数定律 辛钦(Khinchine)大数定律 棣莫弗-拉普拉斯(De Moivre-laplace)定理 列维-林德伯格(Levy-Lindberg)定理

 考试要求:

 1、了解切比雪夫不等式。

 2、了解切比雪夫大数定律、伯努利大数定律和辛钦大数定律(独立同分布随机变量序列的大数定律)

 3、了解棣莫弗-拉普拉斯定理(二项分布以正态分布为极限分布)和列维-林德伯格定理(独立同分布随机变量序列的中心极限定理)

 六、数理统计的基本概念

 考试内容

 总体 个体 简单随机样本 统计量 经验分布函数 样本均值 样本方差和样本矩 分布 分布 分布 分位数 正态总体的常用抽样分布

 考试要求

 1、理解总体、简单随机样本、统计量、样本均值、样本方差及样本矩的概念。

 2、了解产生分布 变量、变量和变量的典型模式;理解标准正态分布、 分布、分布和分布的 分位数,会查相应的数值表。

 解析:2008年数一大纲对分位数的计算要求进行了一些修订:

 1、这部分更正,没有增加任何的新的要求和知识点,反而降低了要求,因为对于分位数有上侧分位数,还有下侧分位数,这种限制明确了我们的复习范围和要求,不容易产生混淆,我们只需要掌握解题方法,针对提到的几种分布会熟练计算其上侧分位数,保证计算准确度即可。

 3、掌握正态总体的抽样分布:样本均值、样本方差、样本矩、样本均值差、样本方差比的抽样分布。

 4、理解经验分布函数的概念和性质,会根据样本值求经验分布函数。

 七、参数估计

 考试内容

 点估计的概念 估计量与估计值 矩估计法 似然估计法 估计量的评选标准 区间估计的概念 单个正态总体均值的区间估计 单个正态总体的方差和标准差的区间估计 两个正态总体的均值差和方差比的区间估计

 考试要求

 1、理解参数的点估计、估计量与估计值的概念;了解估计量的无偏性、有效性(最小方差性)和一致性(相合性)的概念,并会验证估计量的无偏性。

 2、掌握矩估计法(一阶、二阶矩)和似然估计法。

 3、掌握建立未知参数的(双侧和单侧)置信区间的一般方法;掌握正态总体均值、方差、标准差、矩以及与其相联系的数字特征的置信区间的求法。

 4、掌握两个正态总体的均值差和方差比及相关数字特征的置信区间的求法。

 八、假设检验

 考试内容

 显著性检验 假设检验的两类错误 单个及两个正态总体的均值和方差的假设检验

 考试要求

 1、理解“假设”的概念和基本类型;理解显著性检验的基本思想,掌握假设检验的基本步骤;会构造简单假设的显著性检验。

 2、理解假设检验可能产生的两类错误,对于较简单的情形,会计算两类错误的概率。

 3、掌握单个及两个正态总体的均值和方差的假设检验。

对于一个样本序列 ,经验累积分布函数 (Empirical Cumulative Distribution Function)可被定义为

其中 是一个指示函数,如果 ,指示函数取值为1,否则取值为0,因此 能反映在样本中小于 的元素数量占比。

根据格利文科定理(Glivenko–Cantelli Theorem),如果一个样本满足独立同分布(IID),那么其经验累积分布函数 会趋近于真实的累积分布函数 。

首先定义一个类,命名为ECDF:

我们采用均匀分布(Uniform)进行验证,导入 uniform 包,然后进行两轮抽样,第一轮抽取10次,第二轮抽取1000次,比较输出的结果。

输出结果为:

而我们知道,在真实的0到1均匀分布中, 时, ,从模拟结果可以看出,样本量越大,最终的经验累积分布函数值也越接近于真实的累积分布函数值,因此格利文科定理得以证明。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/12155889.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-21
下一篇 2023-05-21

发表评论

登录后才能评论

评论列表(0条)

保存