机器学习模型评估-AB测试_随笔

机器学习模型评估-A/B测试

1、什么是精确率？什么是召回率？

2、什么是ROC曲线？

3、什么是A/B测试？

4、为什么要进行线上A/B测试？

5、在A/B测试中如何进行流量分割？

1、什么是精确率？什么是召回率？

精确率Precision：TP / (TP + FP)，TP正确的预测成为正确，FP错误的预测成为正确，Precision表示预测结果为正例的样本中预测正确的比例。应用场景电商视频推荐

召回率Recall： TP / (TP+FN)，FN模型预测结果是负例且模型预测结果是错的即正确的样本预测错了，Recall表示真实标签为正例的样本预测正确的比例。应用场景疾病检测

TP、FP、TN、FN如何快速记忆，一方面可以画混淆矩阵图；另一方面这里四个指标一共2个字母组成，

第一个字母对应模型预测结果对不对，模型预测结果是对的就是T，错的就是F。这里”预测结果对“是指样本的预测结果和真实标签一致。

第二个字母对应模型预测结果是不是正例，预测结果是正例就是T，负例就是F。正例和负例是任务预定义的。

2、什么是ROC曲线？

横坐标是负正类率(False Postive Rate) FPR: FP/(FP+TN) 真实标签为负例的样本中，模型把真实标签为负例的样本，预测为正例的比例

纵坐标是真正类率(True Postive Rate) TPR: TP/(TP+FN) = Recall

根据不同的阈值来定义不同阈值下，模型预测结果的正例与负例

画出不同阈值下的(FPR,TPR)点，就是ROC曲线

3、什么是A/B测试？

A/B测试来源于假设检验。划分两个随机均匀采样的样本组A和B，对A组产品做出某种改动，保持B组不变，分别收集A和B的用户行为数据。实验结束后，分析两组数据，通过显著性检验，判断我们所关注的核心指标是否有显著影响。

为了考量新模型和旧模型的上线效果，将流量划分为两份，测试对比模型的上线效果。

4、为什么要进行线上A/B测试？

（1）离线的测试数据分布与实际线上的数据分布有一定差异。

（2）工程角度，离线环境和线上环境有一定差异，可能存在一下输入的异常，如特征丢失等

（3）许多线上的商业指标在离线评估中无法计算，离线难以计算与用户行为交互的一些指标，如推荐算法的用户点击率、留存时长、页面流量变化等。

5、在A/B测试中如何进行流量分割？

平等的分配流量，确保切分的流量对于模型所应用的场景是公平的

（1）分流。保证用户核心特征分布一致的情况下，把用户均匀的分为几个组，1个用户只能出现在一个组中。

（2）分层。同一份流量可以在多个实验层，前提是各个实验层之间没有业务关联。

欢迎分享，转载请注明来源：内存溢出

机器学习模型评估-AB测试