Bootstrap 2 利用Bootstrap 计算 p-value

Bootstrap 2 利用Bootstrap 计算 p-value,第1张

本展示如何利用 Bootstrap 来计算均值的 p-value, 同理也可以计算其他统计值。

假设在一次测量中, 得到测量值如下图所示, 均值是0.5.

首先, 我们复习一下 p-value 的定义:

假如Null 假设是正确的, p-value 代表我们看到比当前结果更加极端(违背Null 假设方向)的结果的概率

因此,我们需要先获得一份Null 假设是正确的样本。 在这里, Null 假设是虚丛

总体的均值为0

所以, 需要将图中样衡唤本的每个测量值, 向左移动 0.5 个单位 (样本均值), 得到:

然后, 在 Mean=0 的样本上, 对 Mean 进行 Bootstrap 采样, 会的到一个关于均值的分布:

这个分布的意思是:假如总体均值为0 ,利用样本进行Boostrap 的到的均值分布。 为了得到 p-value, 我们可以统计这个分布中, 0值左右,大于样本均值, 和小于样本均值的数据点占比(<-0.5, >0.5)。 这正好符合了 p-vlaue “更加极端” 的定义。

在上图中, (<-0.5, >0.5)的数据点占比 0.63, 那么p-value 就差拦樱是0.63。

bootstrap、boosting是机器学习中几种常用的重采样方法。其中bootstrap重采样方法主要用于统计量的估计,boosting方法则主要用于多个子分类器的组合。bootstrap:估计统计量的重采样方法(推荐学习:Python视频教程)

bootstrap方法是从大小为n的原始训练数据集DD中随机选择n个样本点组成一个新的训练集,这个选择过程独立重复B次,然后用这B个数据集对模型统计量进行估计(如均值、方差等)。由于原始数据集的大小就是n,所以这B个新的训练集中不可避免的会存在重复的样本。

统计量的估计值定义如差为独立的B个训练集上的估计值θbθb的平均:

boosting:

boosting依次训练k个子分类器,最终的分类结果由这些子分类器投票决定。

首先从大小为n的原始训练数据集中随机选取n1n1个样本训练出第一个分类器,记为C1C1,然后构造第二个分类器C2C2的训练集D2D2,要求:D2D2中一半样本能被C1C1正确分类,而另一半样本被C1C1错分。

接着继续构造第三个分类器C3C3的训练集D3D3,要求:C1C1、C2C2对D3D3中样本的禅厅分类结果不同。剩余的子分类器按照类似的思路进行训练。

boosting构造新训练集的主要原则是使用最富信息的样本。

更多Python相关技术文章,请访问Python教程栏目进行学习!以渣袭皮上就是小编分享的关于boosting和bootstrap区别的详细内容希望对大家有所帮助,更多有关python教程请关注环球青藤其它相关文章!


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/12451903.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存