详解 CatBoost 原理_python

详解 CatBoost 原理

集成学习的两大准则：基学习器的准确性和多样性。

算法：串行的Boosting和并行的Bagging,前者通过错判训练样本重新赋权来重复训练，来提高基学习器的准确性，降低偏差！后者通过采样方法，训练出多样性的基学习器，降低方差。

1.catboost 的优缺点

性能卓越：在性能方面可以匹敌任何先进的机器学习算法
鲁棒性/强健性：它减少了对很多超参数调优的需求，并降低了过度拟合的机会，这也使得模型变得更加具有通用性
易于使用：提供与 scikit 集成的 Python 接口，以及 R 和命令行界面
实用：可以处理类别型、数值型特征
可扩展：支持自定义损失函数
支持类别型变量，无需对非数值型特征进行预处理
快速、可扩展的GPU版本，可以用基于GPU的梯度提升算法实现来训练你的模型，支持多卡并行
快速预测，即便应对延时非常苛刻的任务也能够快速高效部署模型

CatBoost是一种基于对称决策树（oblivious trees）为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架，主要解决的痛点是高效合理地处理类别型特征，这一点从它的名字中可以看出来，CatBoost是由Categorical和Boosting组成。

此外，CatBoost还解决了梯度偏差（Gradient Bias）以及预测偏移（Prediction shift）的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。

与XGBoost、LightGBM相比，CatBoost的创新点有：

嵌入了自动将类别型特征处理为数值型特征的创新算法。

首先对categorical features做一些统计，计算某个类别特征（category）出现的频率，之后加上超参数，生成新的数值型特征（numerical features）。
Catboost 还使用了组合类别特征，可以利用到特征之间的联系，这极大的丰富了特征维度。
采用排序提升的方法对抗训练集中的噪声点，从而避免梯度估计的偏差，进而解决预测偏移的问题。
采用了完全对称树作为基模型。
采用一种新的算法计算 leaf-values 。

2.CatBoost 的一些原理 2.1.处理类别特征的方法

对于类别特征，如果类别数目不多，可以使用onehot编码。

否则，很容易造成维度爆炸。

catboost 不提倡使用one-hot编码，它设计了一种基于预测目标统计值的方法可以将类别特征转化为数值特征。

颇有均值编码的思想。

CatBoost 使用一个更有效的策略，一方面可以减少过拟合，另一方面使用全部数据来训练。

对数据集先随机排序，对于每个样本的该类别特征中的某个取值，转换为数值型时都是基于该样本之前的类别label value取均值，同时加入了优先级（先验值）的权重系数。

假设 σ = ( σ 1 , σ 2 , ⋯ , σ n ) \sigma = (\sigma_1, \sigma_2, \cdots, \sigma_n) σ=(σ1,σ2,⋯,σn) 是随机排列序列，则有

x σ p , k = ∑ j = 1 p − 1 [ x σ j , k = x σ p , k ] ∗ Y σ j + α ∗ P ∑ j = 1 p − 1 [ x σ j , k = x σ p , k ] + α x_{\sigma_p, k}=\frac{\sum_{j=1}^{p-1}[x_{\sigma_j, k}=x_{\sigma_p, k}]*Y_{\sigma_j}+\alpha * P}{\sum_{j=1}^{p-1}[x_{\sigma_j, k}=x_{\sigma_p, k}] + \alpha} xσp,k=∑j=1p−1[xσj,k=xσp,k]+α∑j=1p−1[xσj,k=xσp,k]∗Yσj+α∗P

[ ⋅ ] [\cdot] [⋅] 代表指示函数， P 就代表先验，对应回归任务，计算标签的平均值作为先验值；对于二分任务，将正类的出现概率作为先验值。

α \alpha α 就代表优先级的权重系数，这个是为防止低频次的特征带来的影响所用的平滑 *** 作，如果不使用这个 *** 作的话，当对于某一个特征只有一个样本的时候，其特征编码就为 1，会有过拟合的风险。

这种方法称为 Ordered Target Statistics 数值编码方法。

可以有效解决预测漂移的问题，关于预测漂移https://blog.csdn.net/qq_42003997/article/details/104400825

2.2.基于贪心策略的特征交叉方法

使用Ordered Target Statistics 方法将类别特征转化成为数值特征以后，会影响到特征交叉，因为数值特征无法有效地进行交叉。

为了有效地利用特征交叉，CatBoost 在将类别特征转换为数值编码的同时，会自动生成交叉特征。

但如果让全部的类别特征之间都进行交叉，两两交叉，三三交叉，四四交叉，这个复杂度是指数级的，特征维度一定会爆炸。

CatBoost使用一种贪心的策略来进行特征交叉。

生成tree的第一次分裂，CatBoost不使用任何交叉特征。

在后面的分裂中，CatBoost会使用生成tree所用到的全部原始特征和交叉特征跟数据集中的全部类别特征进行交叉。

使用参数“max_ctr_complexity”控制特征交叉的最大个数。

2.3.避免预测偏移的 Ordered Boosting 方法。

使用XGBoost或者LightGBM做模型时，我们可能经常会发现模型在训练集上拟合的很好，train_auc甚至达到了1.0, 但是在验证集上却差了很多, val_auc 可能只有0.7。

这当然有可能是因为tree的数量太多了，或者是每棵tree的leaves太多了，总之模型太复杂了造成了过拟合。

但也有一些XGBoost和LightGBM自身算法的缺陷因素。

我们知道LightGBM在训练下一棵tree的时候，需要计算前面这些tree构成的加法模型在所有样本上的一阶梯度和二阶梯度(Loss对模型预测结果的导数)，然后用这些梯度来决定下一棵树的结构和叶子节点取值。

但是我们计算的这些一阶梯度和二阶梯度值是问题的。

前面的这些tree都是在这些样本上训练的，现在我们又在这些样本上估计模型预测结果的一阶和二阶梯度。

我们应该换一些新的样本才更合理。

但是我们从哪里找这些新的样本呢？

CatBoost 的作者故伎重演。

先将样本随机打乱，然后每个样本只使用排序在它前面的样本来训练模型。

用这样的模型来估计这个样本预测结果的一阶和二阶梯度。

然后用这些梯度构建一棵tree的结构，最终tree的每个叶子节点的取值，是使用全体样本进行计算的。

这就是Ordered Boosting的主要思想。

可以有效地减少梯度估计的误差，缓解预测偏移。

但是会增加较多的计算量，影响训练速度。

在定义CatBoost模型时，我们可以用’boosting_type’这个参数来设置是使用Ordered Boosting 还是 LightGBM那样的 Plain Boosting。

如果不显式设置，CatBoost会根据样本和特征数量自己决定。

详细步骤

构建一颗树有两个阶段：第一，选择树结构；第二，在树结构固定后计算叶节点的值。

CatBoost在第二阶段采用传统的GBDT方法执行，而在第一阶段采用修正的方法—即梯度步长的无偏估计。

令 F i F^i Fi 为前 i i i 棵树的结构模型（已建好），为了使 g i ( X k , Y k ) g^i(X_k, Y_k) gi(Xk,Yk) 是关于模型 F i F^i Fi的无偏梯度，需要在训练的时候不使用样本 k k k 。

catboost的具体做法：样本集为$ \lbrace(X_k, Y_k)\rbrace^{n}_{k=1}$ 按随机序列 σ \sigma σ 排序，树的棵数为 I I I 。

首先，对于样本 X k X_k Xk，初始化模型 M k M_k Mk。

其次对于每一棵树，遍历每一个样本，对前 k − 1 k-1 k−1 个样本，依次计算 Loss 的梯度 g i g_i gi ；再次将前 k − 1 k-1 k−1 个样本的 g i g_i gi 和 X j ( j = 1 , ⋯ , k − 1 ) X_j (j=1, \cdots, k-1) Xj(j=1,⋯,k−1)来构建模型 M M M ；最后，对每一个样本 X k X_k Xk ，用 M M M 来修正初始化的 M k M_k Mk，这样就可以得到一个分隔的模型 M k M_k Mk （并且这个模型不需要这个样本用梯度估计来更新）。

重复上述 *** 作，就可以得到每一个样本 X X X 的分隔模型 M M M。

由此可见，每一个 M k M_k Mk 都共享相同的树结构。

在CatBoost中，构建样本集的 s 个随机序列来增强算法的鲁棒性。

用不同的序列来训练不同的模型，这将不会导致过拟合。