蒙特卡洛方法

蒙特卡洛方法,第1张

本文主要讲解三部分:

  这一小节我们简要介绍一下引出蒙特卡洛方法的实际场景。

  机器学习/深度学习中的图像叠加文字识别需要大量的训练样本,自动生成样本(使用程序在背景上叠加文字)是一种样本的获取方式。但色彩值(为了兼顾各方向的同学,原谅我用一个这么不专业的词汇,此值可以是RGB到[0,1]区间的映射,让它能代表颜色的性质)的选择很重要,为了防止(控制)发生叠加文字与背景的色彩值相近的情况发生,叠加文字的色彩值最好服从我们指定的概率分布。这样就需要根据指定的概率分布来产生色彩值——蒙特卡洛方法擅长解决的问题。

  蒙特卡洛方法的应用场景很多,横跨物理、金融、计算机。拿计算机科学来举例,自然语言处理中的LDA模型,hinton较早提出的深度学习模型DBN都用到了蒙特卡洛方法。此文第一部分简要介绍了实际问题,简而言之蒙特卡洛方法就是生成样本,即蒙特卡洛采样。即根据某已知分布的概率密度函数f(x)f(x),产生服从此分布的样本XX。

  下面首先介绍一种最简单最易理解的蒙特卡洛方法——Accept-Rejection method(下文称接受拒绝采样),然后给出这个方法的直观解释,最后证明方法的正确性。

其中

蒙特卡洛模拟是一种模拟把真实系统中的概率过程用计算机程序来模拟的方法。对于投资组合的价格趋势分析,可以使用Python中的蒙特卡洛模拟。首先,回顾投资组合的价格趋势。投资组合中的股票价格的趋势是受多种因素影响的,可分为经济、政治和技术因素,其中经济因素最重要。因此,蒙特卡洛模拟可以模拟这些因素对投资组合价格趋势的影响,并通过计算机绘制投资组合价格趋势的曲线。

Python中的蒙特卡洛模拟首先需要计算投资组合中各股票价格的每一期的收益率,其次,计算出投资组合的收益率;随后,计算预测投资组合的期权价格,并将所有的期权价格叠加起来,从而绘制投资组合的价格曲线。最后,在投资组合的价格曲线的基础上,可以分析投资组合在不同时期的价格走势,并进行投资组合结构的调整,从而获得最优投资组合。

写在最前面:

首先需要说一下,本文的bootstrap和jackknife都算是蒙特卡罗方法(Monte Carlo method)的一种。应用广泛的的MCMC链(马尔可夫链蒙特卡洛方法;Markov chain Monte Carlo)也是蒙特卡罗与马尔可夫链的结合。简单来说,蒙特卡罗方法就是从已知样本的分布中随机抽取新的样本集进行评估,然后放回,再次抽取的方法。根据具体方法的不同,抽取样本集的手段也不同。

bootstrap抽样方法将观测到的样本视为一个有限的总体,是唯一的信息来源,从中有放回的随机抽样来评估总体特征,以及对抽样总体进行推断统计。bootstrap 也分参数bootstrap和非参数bootstrap,前者的分布已完全知道。但在生信领域一般没有这种情况。所以下面讨论的是非参数bootstrap。

直接上例子:

假设现在有bootstrap包中的law数据集如下,

现在我们要计算LSAT成绩(美国法学入学考试)和GPA之间的相关系数。但因为样本量太少了,所以我们使用bootstrap重复抽样评估其标准误。

200次循环抽样后,计算得seR标准误为01474629

得到如下的图:

1e6次循环抽样后,计算得seR标准误为01333802

得到如下的图:

如果用bootstrap包的bootstrap函数会快一些:

bootstrap函数的用法: bootstrap(抽取样本范围,重复次数,进行bootstrap的函数,bootstrap的数据集)

偏差定义为bootstrap结果(多个数值)与原数据统计结果(单个数值)的均值:

得到bias大约为0001817608,比较小

换一个包,boot包

这里用了三种方法计算置信区间:basic、正态和百分数。样本相关系数分布接近正态,则正态置信区间接近百分数区间。此外还有“Better Bootstrap Confivendence Interval” 更好的bootstrap置信区间,称为BCa区间,使用偏差和偏度对百分数置信区间进行矫正。设置type="bca"即可。

简单的说,bootstrap是从原有真实样本中有放回地抽取n个。jacknife就是每次都抽取n-1个样本,也就是每次只剔除一个原样本。

同样地,如果以bootstrap包中的law数据进行演示:

Jackknife计算的bias为-0006473623。 这里jackknife的偏差公式相比于bootstrap有一个(n-1)系数,推导就不写了。

标准误se为01425186,与bootstrap得出的比较接近。

当统计量不太平滑的时候,Jacknife有很大误差。比如说对中位数进行统计,其变化很大。在进行Jacknife之后最好再跑一次bootstrap,看看是否相差很大。

居然还能这么嵌套着玩,针对每次bootstrap形成的数列向量计算jackknife的标准差,这样可以看出bootstrap若干次取样之间的差异。

算出来分别为01344824和008545141。后者较小,表面bootstrap取样之间的variance较小。

简单来说就是一种数据分割检验的方法,将数据分割为K份,称为"K-fold"交叉检验,每次第i个子集作为测试集来评估模型,其余的用来构建模型。Admixture使用的就是这个原理。Jackknife也属于Cross Validation的应用之一。

现在我创建一个这样的alignment:

这棵树长这样,符合遗传距离:

进行bootstrap:

phylogeny的bootstrap是对每一个节点都进行bootstrap取样并建树,比如说在9号节点,查看其bootstrap子集建的树符合系统发育关系((human2,human4,human3)(human8,human1,human6,human7,human5))的百分比(不管内部怎么样,先看这个节点)。发现Node1支持率是100(1000次都符合)。而后移到下一个节点,并且只看节点内部的分支支持率是多少。

其实原理都比较简单,计算bootstrap也会有专门的软件。

参考资料:

1)中科大张伟平教授课件

2) >

蒙特卡洛方法是通过随机抽样来估计数值的方法。我们可以通过蒙特卡洛方法来估计e的值。具体方法如下:

1随机在单位正方形内产生n个点(n越大,结果越精确)。

2计算出单位圆内的点数k,k/n即为单位圆的面积除以单位正方形的面积,即pi/4。

3将结果乘以4即可得到pi的估计值,再除以2即为e的估计值。

下面是使用C语言实现蒙特卡洛方法计算e的程序示例:

#include <stdioh>

#include <stdlibh>

#include <mathh>

#include <timeh>

#define N 1000000 // 生成随机数的个数

int main() {

srand((unsigned)time(NULL)); // 初始化随机数生成器

int i, k = 0;

double x, y, e;

for (i = 0; i < N; i++) {

x = (double)rand() / RAND_MAX; // 生成[0,1)内的随机数

y = (double)rand() / RAND_MAX; // 生成[0,1)内的随机数

if (x x + y y <= 1) { // 判断是否在单位圆内

k++;

}

}

e = (double)k / N 4 / 2; // 计算e的估计值

printf("e = %lf\n", e);

return 0;

}

在本程序中,我们使用rand()函数生成[0,1)内的随机数,并使用if语句判断随机点是否在单位圆内。最后,根据蒙特卡洛方法的原理计算出e的估计值,并输出结果。

需要注意的是,蒙特卡洛方法是一种估计方法,估计结果的精度取决于生成的随机数个数。在本程序中,我们使用了1000000个随机数,可以得到较为精确的估计结果。

以上就是关于蒙特卡洛方法全部的内容,包括:蒙特卡洛方法、用Python中的蒙特卡洛模拟两支股票组成的投资组合的价格趋势分析、R语言实现bootstrap和jackknife检验方法等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10212825.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存