1、什么是精确率?什么是召回率?
2、什么是ROC曲线?
3、什么是A/B测试?
4、为什么要进行线上A/B测试?
5、在A/B测试中如何进行流量分割?
1、什么是精确率?什么是召回率?
精确率Precision:TP / (TP + FP),TP正确的预测成为正确,FP错误的预测成为正确,Precision表示预测结果为正例的样本中预测正确的比例。应用场景电商视频推荐
召回率Recall: TP / (TP+FN),FN模型预测结果是负例且模型预测结果是错的即正确的样本预测错了,Recall表示真实标签为正例的样本预测正确的比例。应用场景疾病检测
TP、FP、TN、FN如何快速记忆,一方面可以画混淆矩阵图;另一方面这里四个指标一共2个字母组成,
第一个字母对应模型预测结果对不对,模型预测结果是对的就是T,错的就是F。这里”预测结果对“是指样本的预测结果和真实标签一致。
第二个字母对应模型预测结果是不是正例,预测结果是正例就是T,负例就是F。正例和负例是任务预定义的。
2、什么是ROC曲线?
横坐标是负正类率(False Postive Rate) FPR: FP/(FP+TN) 真实标签为负例的样本中,模型把真实标签为负例的样本,预测为正例的比例
纵坐标是真正类率(True Postive Rate) TPR: TP/(TP+FN) = Recall
根据不同的阈值来定义不同阈值下,模型预测结果的正例与负例
画出不同阈值下的(FPR,TPR)点,就是ROC曲线
3、什么是A/B测试?
A/B测试来源于假设检验。划分两个随机均匀采样的样本组A和B,对A组产品做出某种改动,保持B组不变,分别收集A和B的用户行为数据。实验结束后,分析两组数据,通过显著性检验,判断我们所关注的核心指标是否有显著影响。
为了考量新模型和旧模型的上线效果,将流量划分为两份,测试对比模型的上线效果。
4、为什么要进行线上A/B测试?(1)离线的测试数据分布与实际线上的数据分布有一定差异。
(2)工程角度,离线环境和线上环境有一定差异,可能存在一下输入的异常,如特征丢失等
(3)许多线上的商业指标在离线评估中无法计算,离线难以计算与用户行为交互的一些指标,如推荐算法的用户点击率、留存时长、页面流量变化等。
5、在A/B测试中如何进行流量分割?平等的分配流量,确保切分的流量对于模型所应用的场景是公平的
(1)分流。保证用户核心特征分布一致的情况下,把用户均匀的分为几个组,1个用户只能出现在一个组中。
(2)分层。同一份流量可以在多个实验层,前提是各个实验层之间没有业务关联。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)