大话系列--集成学习算法_python

#博学谷IT学习技术支持#

一、Bagging

从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果。

二、Boosting 训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。

三、Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。

四、随机森林

用随机的方式建立一个森林。随机森林算法由很多决策树组成，每一棵决策树之间没有关联。建立完森林后，当有新样本进入时，每棵决策树都会分别进行判断，然后基于投票法给出分类结果。

Random Forest（随机森林）是 Bagging 的扩展变体，它在以决策树为基学习器构建Bagging 集成的基础上，进一步在决策树的训练过程中引入了随机特征选择，因此可以概括随机森林包括四个部分：
1. 随机选择样本（放回抽样）；
2. 随机选择特征；
3. 构建决策树；
4. 随机森林投票（平均）。

五、AdaBoost
自适应增强（Adaptive Boosting），其自适应在于：前一个基本分类器分错的样本会得到加强，加权后的全体样本再次被用来训练下一个基本分类器。同时，在每一轮中加入一个新的弱分类器，直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。也就是说，后一个模型的训练永远是在前一个模型的基础上完成！

六、GBDT

GBDT（Gradient Boosting Decision Tree）是一种迭代的决策树算法，该算法由多棵决策树组成，GBDT 的核心在于累加所有树的结果作为最终结果，所以 GBDT 中的树都是回归树，不是分类树，它是属于 Boosting 策略。GBDT 是被公认的泛化能力较强的算法。

七、XGBoost

XGBoost是大规模并行 boosting tree 的工具，它是目前最快最好的开源 boosting tree 工具包，比常见的工具包快 10 倍以上。XGBoost 和GBDT 两者都是 boosting 方法，除了工程实现、解决问题上的一些差异外，最大的不同就是目标函数的定义。

八、LightGBM

LightGBM 由微软提出，主要用于解决 GDBT 在海量数据中遇到的问题，以便其可以更好更快地用于工业实践中，其相对 XGBoost 具有训练速度快、内存占用低的特点。LightGBM与XGBoost相比，主要有以下几个优势：
1）更快的训练速度
2）更低的内存消耗
3）更好的准确率
4）分布式支持，可快速处理海量数据

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/916381.html

大话系列--集成学习算法

发表评论

评论列表（0条）