Bagging与Boosting的联系与区别_软件运维

Bagging算法所利用的预测数据就是通过Bootstrap方法得到的，Bootstrap方法是非参数统计上的一种抽样方法，实质就是对观测数据进行抽样，通过新抽样样本对总体分布特征进行推断。例如我们熟知的随机森林算法中不同的分类回归树，所利用的数据集就是通过Boostrap方法重抽样得到的。而利用Boostrap方法所做的好处是避免了做交叉验证时的样本量少的问题。同时重抽样后的数据可以得到相较于原观测数据少的噪声点，所以更能获得好的分类器。

Boostrap步骤：

当然Bootstrap方法适合于小样本，难以有效划分训练集和测试集时很有用，在做集成学习中，样本集往往通过Bootstrap方法来获取，倘若样本足够多，那么交叉验证会比Bootstrap更好。

在理解了Bootsrap抽样方法后，Bagging实际就是对重抽样的多个样本集，分别建立一个分类器，进行并行模型训练。由于每个分类器之间相互独立，所以Bagging与只训练一个弱分类器相比，复杂度是相同的，所以这是一个高效的集成算法！利用Bagging的好处是它能在提高准确率、稳定性的同时，通过降低结果的方差，避免过拟合的发生。并且由于利用的Boostrap方法，所以能减少噪音的影响，体现样本真实的分布情况。

Bagging的算法流程为：

通过这个流程可以看出，由于是投票选出最终的预测结果，从而可以获得很高的精度，降低泛化误差，但是弊端就是如果对于某一块，大多数分类器给出了一个错误分类，最终分类的结果也会错误。所以Bagging就没有考虑到对于分类器错分类，或者说性能差的地方做出调整。

那我们在什么时候会利用到Bagging呢？学习算法不稳定的时候，例如神经网络、kNN算法、线性回归子集选取等，这些都是不稳定的（弱学习算法），如果利用Bagging，则可以增强原算法，倘若原算法本身就有很高的稳定性，使用Bagging可能会适得其反。

随机森林（Random Forest）就是一个很好的利用Bagging的模型，他采用的弱分类器是决策树算法，在此基础上，引入了一个随机属性选择，这使得每个分类器的差异度增加，进而提升集成后的模型泛化能力。这里不对RF展开叙述，读者可参看以下相关参考。

Bagging与Boosting的联系与区别

发表评论

评论列表（0条）