机器学习模型评估-AB测试

机器学习模型评估-AB测试,第1张

机器学习模型评估-A/B测试

1、什么是精确率?什么是召回率?

2、什么是ROC曲线?

3、什么是A/B测试?

4、为什么要进行线上A/B测试?

5、在A/B测试中如何进行流量分割?


1、什么是精确率?什么是召回率?

精确率Precision:TP / (TP + FP),TP正确的预测成为正确,FP错误的预测成为正确,Precision表示预测结果为正例的样本中预测正确的比例。应用场景电商视频推荐

召回率Recall: TP / (TP+FN),FN模型预测结果是负例且模型预测结果是错的即正确的样本预测错了,Recall表示真实标签为正例的样本预测正确的比例。应用场景疾病检测

TP、FP、TN、FN如何快速记忆,一方面可以画混淆矩阵图;另一方面这里四个指标一共2个字母组成,

第一个字母对应模型预测结果对不对,模型预测结果是对的就是T,错的就是F。这里”预测结果对“是指样本的预测结果和真实标签一致。

第二个字母对应模型预测结果是不是正例,预测结果是正例就是T,负例就是F。正例和负例是任务预定义的。


2、什么是ROC曲线?

横坐标是负正类率(False Postive Rate) FPR: FP/(FP+TN) 真实标签为负例的样本中,模型把真实标签为负例的样本,预测为正例的比例

纵坐标是真正类率(True Postive Rate) TPR: TP/(TP+FN) = Recall

根据不同的阈值来定义不同阈值下,模型预测结果的正例与负例

画出不同阈值下的(FPR,TPR)点,就是ROC曲线


3、什么是A/B测试?

A/B测试来源于假设检验。划分两个随机均匀采样的样本组A和B,对A组产品做出某种改动,保持B组不变,分别收集A和B的用户行为数据。实验结束后,分析两组数据,通过显著性检验,判断我们所关注的核心指标是否有显著影响。

为了考量新模型和旧模型的上线效果,将流量划分为两份,测试对比模型的上线效果。

4、为什么要进行线上A/B测试?

(1)离线的测试数据分布与实际线上的数据分布有一定差异。

(2)工程角度,离线环境和线上环境有一定差异,可能存在一下输入的异常,如特征丢失等

(3)许多线上的商业指标在离线评估中无法计算,离线难以计算与用户行为交互的一些指标,如推荐算法的用户点击率、留存时长、页面流量变化等。

5、在A/B测试中如何进行流量分割?

平等的分配流量,确保切分的流量对于模型所应用的场景是公平的

(1)分流。保证用户核心特征分布一致的情况下,把用户均匀的分为几个组,1个用户只能出现在一个组中。

(2)分层。同一份流量可以在多个实验层,前提是各个实验层之间没有业务关联。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5706380.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存