概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计

概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计,第1张

事物A独立发生概率为 ,事物B独立发生的概率为 ,那么有:

表示事物B发生之后事物A发生的概率;

表示事物A发生之后事物B发生的概率;

我们可以将公式写成全量的形式:

表示全量相互排斥且性质关联的事物,即:

那么可以得到

,这就是全概率公式。

全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。

例1,已知某种疾病的发病率是0001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是099,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性的概率是多少。

例2,袋子中50个球,20个黄球,30个白球。2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。

从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。

例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。求第二次取出的卡片,比第一次取出的卡片大的概率。

例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。任意取一个袋子,求从袋子取得白球的概率。

贝叶斯公式的理解 :

可以理解他是全概率公式的反向应用,他是求某个条件出现时某个事件发生的概率。定义如下:

沿用前面医学的例子:

例1,已知某种疾病的发病率是0001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是099,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性时候,他确切患病的几率是多少。

从结论看,这个试剂挺不可靠的。

将贝叶斯公式的底部展开为全概率公式:

使用全概率公式展开之后有个很直观的发现: 当我们考察某一个事件的条件概率时——事件 发生之后 发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。

似然函数个人理解是一种更加“公式化”的条件概率表达式,因为他书写的形式和条件概率相比并没有太大区别—— ,只是解读方式不同。这里的 表示样本特征数据, 表示模型参数。

如果 已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本 在固定的模型参数 的概率值。

如果 已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数 。

按照前面似然函数 的介绍,似然函数可以看做 是已知的, 是未知的,极大似然估计就是在已知 的情况下求取 。

在现实的生产生活中也常常会遇到这样的问题。我们以及有了 样本 以及对应的 标签(结论) ,如何根据这些样本来计算(推算)条件 是一件很困难的事情。而极大似然估计就是一个根据样本值 和结论数据 计算条件参数 的过程。

总的来说,极大似然估计是一种 参数估计算法 。使用极大似然估计有一个很重要的先决条件——每 一组样本都是独立的,并且有充分的训练样本 。

先看看样本独立的判断公式: ,即2个事物同时发生的概率等于事物独立发生概率的乘积。

极大似然评估的公式及像这个公式。

设有一组样本 ,所有样本的联合概率密度 称为相对于样本 的似然函数。那么由独立判定公式推断出所有样本的概率为:

     。

设 是使得 取得最大值的 值,那么 是 的极大似然估计量。可以使用下面的公式表示 与 的关系:

,

实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程:

,因为 。 也称为对数似然函数。

如果 连续可微,那么可以使用导数为0求函数的凸点。即:

将条件因子扩展为M个,即 ,则似然函数(对数似然函数变成):

此时每一个 的求导变成一个求偏导数的过程:

,每一个 都要对 求导。

最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。 最大 就是要找最大值 ,似然 说明并不精确似乎就是这个值 ,评估 指的是这是一个过程。

现实生活中的例子:2对夫妇 和 和一个小孩 。从外观上看,小孩 长相比较接近夫妇 ,有点像 ,不像 ,让你猜测 是谁的小孩。思维正常一点的人肯定会说 是 的小孩,这本身就是一个自然而然的判断过程,用数学解释:

使用似然评估,就可以断定小孩更像谁:

最大似然估计更多的应用是在有一定样本数据的情况下用于模型评估,更准确的说是模型中的参数评估。因为似然评估来自于概率独立判决公式—— ,所以要求用于评估的样本数据相互独立。

先说一个很直观的案例解释这个问题:

例1,从盒子里连续取球,已知取得红球的概率 ,求当P取何值时最有可能连续三次拿到红球。

只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道 时拿到红球的几率更高。下面通过数学过程来说明这个问题。

设条件 ,表示取得红球, 表示没取得红球,所以用最大似然评估来计算参数得:

,只管的看就知道取值05似然评估最大。

在A发生的条件下,B发生的条件概率

P(B|A)=P(AB)/P(A)=> P(AB)=P(A)P(B|A)

可以扩展:P(ABC)=P(A)P(B|C)P(C|AB)

例:在一袋中有红球

5

个,白球

4

个,蓝球

3

个。它们除颜色外无差别。

现从中无放回任意摸出两个球。记

A

为“第一次摸到红球”,B

为“第二次摸到红球”,

P(A)=

5/12,P(B)=

5/124/11+7/125/11

=

5/12,

P(AB)=

5/124/11

=

5/33,P(B|A)=

4/11

可以看出,P(B|A)=

P(AB)/

P(A)。

5个红球及2个白球,每次看完放回袋中,所以,每次得到红球的几率是 5/7,得到白球的几率是 2/7。假定“取球”都是独立的,则:

(1)第一次,第二次都取到红球的概率 = (5/7) (5/7) = 25/49

(2)第一次取到红球,第二次取到白球的概率 = (5/7) (2/7) = 10/49

(3) 两次都取到的球为红,白各一的概率

= 第一次取到红球,第二次取到白球的概率 + 第一次取到白球,第二次取到红球的概率

= (5/7) (2/7) + (2/7) (5/7) = 20/49

(4)已经假定“取球”都是独立的,所以,第二次取到红球的概率就是每次得到红球的概率,5/7

嗯,好像和条件概率无关哦,都是乘法和加法定律。。。

A,B,C列分别引入A的数据库,B的数据库,C的数据库

D列,第一行=1

往下=D1+1

做出一列N的值

E列:=IF(D1>MAX(A1,B1-1),1,0)

F列:=IF(AND(D1>MAX(A1,B1-1),D1>C1-2),1,0)

G1里面输入:=SUM(F1:F5000)/SUM(E1:E5000)

如果A,B,C为定值,直接在ABC列的第一行输入A,B,C,然后把函数里面所有A,B,C都改成 贪财模式

$A$ $B$ $C$

这样想:AB都发生的概率就是B发生的概率乘以B发生的情况下A发生的概率,即就是P(A|B)P(B)=P(AB)其实也等于P(B|A)P(A)

所以P(A|B)=

P(AB)/P(B),P(B|A)=P(AB)/P(A)

只要想通就好了!!

以上就是关于概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计全部的内容,包括:概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计、条件概率的公式怎么来的、谁能举点例子关于条件概率应该怎么求,就是在的条件等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/10158240.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-05
下一篇 2023-05-05

发表评论

登录后才能评论

评论列表(0条)

保存