随机森林通俗理解_CMS教程

随机森林通俗理解是：

随机森林分解开来就是“随机”和“森林”。“随机”的含义我们之后讲，我们先说“森林”，森林是由很多棵树组成的，因此随机森林的结果是依赖于多棵决策树的结果。

这是一种集成学习的思想。森林里新来了一只动物，森林举办森林大会，判断这到底是什么动物，每棵树都必须发表意见，票数最多的结果将是最终的结果。

随机森林是现在比较流行的一个算法。对于回归和分类问题有很好的效果。大家有可能有过这样的经历，辛辛苦苦搭好神经网络，最后预测的准确率还不如随机森林。

随机森林算法是基于决策树的集成学习算法，其核心思想是将多个决策树集合起来，以求取最优解。随机森林的原理是先在每个决策树中随机选择特征、特征值对数据进行划分，然后每棵决策树给出预测结果，最后通过投票结果确定最终的预测结果。优点是算法稳定，预测准确，而且可以处理缺失值，计算结果可解释性强。主要参数有决策树数目、特征选择策略、内部节点再划分最小样本数、叶子节点最小样本数等。

拓展：随机森林算法可以用来进行分类和回归，并且可以用来做特征选择，从而达到减少特征维度的目的，节省计算时间和提高模型准确度。

随机森林算法是以决策树为基学习器构建bagging的基础上，进一步在决策树的训练过程中引入随机属性的算法。

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。

而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"以建造决策树的集合。

随机森林算法之根据下列算法而建造每棵树：

用N来表示训练用例（样本）的个数，M表示特征数目。

输入特征数目m，用于确定决策树上一个节点的决策结果；其中m应远小于M。

从N个训练用例（样本）中以有放回抽样的方式，取样N次，形成一个训练集（即bootstrap取样），并用未抽到的用例（样本）作预测，评估其误差。

对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的。根据这m个特征，计算其最佳的分裂方式。

每棵树都会完整成长而不会剪枝，这有可能在建完一棵正常树状分类器后会被采用）。

集成学习有两个流派，一个是boosting派系，它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派，它的特点是各个弱学习器之间没有依赖关系，可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。

随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法，尤其是它可以很方便的并行训练，在如今大数据大样本的时代很有诱惑力。

bagging集成学习方法可以利用下图说明：

上面我们对bagging算法的原理做了总结，这里就对bagging算法的流程做一个总结。相对于Boosting系列的Adaboost和GBDT，bagging算法要简单的多。

输入为样本集D={(x1,y1),(x2,y2),(xm,ym)}，弱学习器算法, 弱分类器迭代次数T。输出为最终的强分类器f(x)

1）对于t=1,2,T:

理解了bagging算法，随机森林(Random Forest,以下简称RF)就好理解了。它是Bagging算法的进化版，也就是说，它的思想仍然是bagging,但是进行了独有的改进。我们现在就来看看RF算法改进了什么。　

首先，RF使用了CART决策树作为弱学习器，这让我们想到了梯度提升树GBDT。第二，在使用决策树的基础上，RF对决策树的建立做了改进，对于普通的决策树，我们会在节点上所有的n个样本特征中选择一个最优的特征来做决策树的左右子树划分，但是RF通过随机选择节点上的一部分样本特征，这个数字小于n，假设为nsub，然后在这些随机选择的nsub个样本特征中，选择一个最优的特征来做决策树的左右子树划分。这样进一步增强了模型的泛化能力。

如果nsub=nnsub=n，则此时RF的CART决策树和普通的CART决策树没有区别。nsubnsub越小，则模型越健壮，当然此时对于训练集的拟合程度会变差。也就是说nsubnsub越小，模型的方差会减小，但是偏倚会增大。在实际案例中，一般会通过交叉验证调参获取一个合适的nsubnsub的值。

除了上面两点，RF和普通的bagging算法没有什么不同，下面简单总结下RF的算法。

输入为样本集D={(x1,y1),(x2,y2),(xm,ym)}，弱分类器迭代次数T。输出为最终的强分类器f(x):

随机森林算法推广

由于RF在实际应用中的良好特性，基于RF，有很多变种算法，应用也很广泛，不光可以用于分类回归，还可以用于特征转换，异常点检测等。下面对于这些RF家族的算法中有代表性的做一个总结。

Bootstrap经典语录

作为一个可以高度并行化的算法，RF在大数据时候大有可为。这里也对常规的随机森林算法的优缺点做一个总结。

RF的主要优点有：

1）训练可以高度并行化，对于大数据时代的大样本训练速度有优势。

2）由于可以随机选择决策树节点划分特征，这样在样本特征维度很高的时候，仍然能高效的训练模型。

3）在训练后，可以给出各个特征对于输出的重要性

4）由于采用了随机采样，训练出的模型的方差小，泛化能力强。

5）相对于Boosting系列的Adaboost和GBDT， RF实现比较简单。

6）对部分特征缺失不敏感。

RF的主要缺点有：

1)在某些噪音比较大的样本集上，RF模型容易陷入过拟合。

2)取值划分比较多的特征容易对RF的决策产生更大的影响，从而影响拟合的模型的效果。

原文

随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。

在建立每一棵决策树的过程中，有两点需要注意 - 采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据要进行行、列的采样。对于行采样，采用有放回的方式，也就是在采样得到的样本集合中，可能有重复的样本。假设输入样本为N个，那么采样的样本也为N个。

以上就是关于随机森林通俗理解全部的内容，包括:随机森林通俗理解、简述数据挖掘中随机森林算法的原理,优点和主要参数、随机森林算法是什么等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10067264.html

随机森林通俗理解

发表评论

评论列表（0条）