5003笔记 Statistic Chapter9-Tree and Ensemble methods

5003笔记 Statistic Chapter9-Tree and Ensemble methods,第1张

5003笔记 Statistic Chapter9-Tree and Ensemble methods






R1,R2,R3就是leaf node页节点。internal node内节点,就是判断的条件。

决策树的评价指标是RSS,对于决策树来说,我们如何找他的预测值呢?对于回归树而言,我们会通过recursive binary splitting和greedy algorithm



树其实用的是贪心算法Greedy Algorithm,所以它只是在当前分叉时候,做最好的决策,而不是选择将来更好的结果的切分,不同于动态规划。



所以回归树的计算量是巨大的。




Gini index表示k的类别的离散程度。Gini越小越好,节点越纯。




缺点:1)与我们讨论的其他一些回归和分类方法相比,树的预测精度不高。2)容易过拟合。

为了防止过拟合,决策树不能通过正则项,所以可以通过ensemble方法。




我们通过bootstrap产生了很多数据集,然后每个数据集构建一颗决策树。当新的样本数据来进行预测的时候,我们就把新的样本放入所有的树中,最后去一个平均值作为回归树的预测值。如果是分类问题,最后就用voting的方法。

OOB(out of bag) error estimation 包外误差估计:
2/3用于训练,1/3用于测试。

随机森林(有时)通过一个小的调整来消除树木的相关性,从而改善了袋装树木。这减少了平均树木时的方差。


Boosting的工作方式类似Bagging,只是树是按顺序生长的:每棵树都是使用以前生长的树的信息生长的。

Boosting的树特征比较少,训练速度快。并且去提升表现不好的f(x)。收缩参数λ进一步减慢了这一过程,允许更多不同形状的树木修正残差。

每一次新的预测结果要加上之前的预测结果乘一个系数lambada。




老师说比重怎么来的,不用管

算法没有使用引导样本(替换),而是对训练集的一小部分进行采样。



随机森林的学习器一般比较复杂,而boosting学习器很弱,有时只是一个stump树墩。

随机森林和boosting是最先进的监督学习方法之一。然而,他们的结果可能很难解释。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5572050.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-14
下一篇 2022-12-14

发表评论

登录后才能评论

评论列表(0条)

保存