理解ROC和AUC

理解ROC和AUC,第1张

放在具体领域来理解上述两个指标。如在医学诊断中,判断有病的样本。那么尽量把有病的揪出来是主要任务,也就是第一个指标TPR,要越高越好。而把没病的样本误诊为有病的,也就是第二个指标FPR,要越低越好。不难发现,这两个指标之间是相互制约的。如果某个医生对于有病的症状比较敏感,稍微的小症状都判断为有病,那么他的第一个指标应该会很高,但是第二个指标也就相应地变高。最极端的情况下,他把所有的样本都看做有病,那么第一个指标达到1,第二个指标也为1。

在上述癌症检测中(正反例极度不平衡的情况下),

有时我们还会见到sensitivity和specificity两个概念:

也就是说想要sensitivity高一点相当于要True Positive Rate高一点,要specificity高一点相当于False Positive Rate低一点/。为了权衡recall和precision,对于评判二分类器的优劣,可以使用ROC(Receiver Operating Characteristic)曲线以及AUC(Area Under roc Curve)指标。

ROC曲线的几个概念:

以医生诊断为例,我们可以看出:

上图中一个阈值,得到一个点。现在我们需要一个独立于阈值的评价指标来衡量这个医生的医术如何,也就是 遍历所有的阈值 ,得到ROC曲线。还是一开始的那幅图,假设如下就是某个医生的诊断统计图,直线代表阈值。我们遍历所有的阈值,能够在ROC平面上得到如下的ROC曲线。

以一个简单的模拟数据来计算下ROC曲线每个点的值

Python可以用sklearn,R可以用ROCR包或者pROC包,这里以ROCR包来检验下上述计算结果:

xvalues对应FPR,yvalues对应TPR, alphavalues对应预测打分cutoff,结果跟上面完全一致,然后简单做个ROC图。

AUC值就相当于ROC曲线的所覆盖的面积,可以从ROC曲线看出AUC值越大,其分类效果越好。

理解ROC和AUC

ROC曲线与AUC值

我们根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要量的值,与P—R曲线的使用查准率与查全率为纵,横轴不同,ROC曲线的 纵轴是“真正例率(TPR,True Positive Rate)” 横轴是“假正例率(False Positive Rate)”

进行学习器比较时,与P—R图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住”,则可以断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣,此时如果一定要进行比较,则较为合理的判断依据是 比较ROC曲线下的面积 ,即AUC

形象化地看,AUC考虑的是样本预测的排序质量,因此它与排序误差有紧密联系

若正例的预测值小于反例,则记1个罚分,若相等则记05个罚分(可以理解成线代里面的逆序对数量),那么rank—loss对应的是ROC曲线之上的面积

明确参数 : p=m+/m

目的:对于一个模型,根据p不同,找到使得代价总期望最小的模型的阈值

横轴:归一化的正概率代价期望

纵轴:归一化的总代价期望

大致过程:给定p,给定模型根据归一化代价期望的最小值

确定混淆矩阵的成分比例 ,阈值决定了这个比例,那如果这个比例确定了,阈值也就确定了,所以这时模型的阈值也对应确定下来了,也就是模型固定下来了

同时模型的综合考量指标P,R,F1,Fbeta等都确定下来了

下面我们用实例来说明一个阈值对应一条直线,我们的例子是一个二分类问题,它是五还是不是五,样本是如图所示的十二张进入该分类器后,给其打分

评判标准:得分越高的越是五,得分越低的越不是五

1如果我们使用Pcosts作为横轴,得出的是红色直线,而以p作为横轴,得出的是紫色弯曲虚线,不是一个线性关系,虽然我们想要的就是已知某一个p,我们到底应该对应哪一条曲线的θ值更好,但是不能拿p当横轴,因为其返回曲线是非线性的,不利于我们分析。

2 当p等于0时Pcosts等于0,cost_norm=FPR;当p等于1时Pcosts等于1,cost_norm=FNR

3p的含义: 连接两点的线段如何用参数方程表示? 假设两点分别是A,B,如果想表示AB连线所有点的集合用 λA+(1-λ)B,λ∈[0,1] ,通过λ的变化,我们可以得到线段AB。、

生成多个阈值下的曲线

以上就是关于理解ROC和AUC全部的内容,包括:理解ROC和AUC、ROC AUC 代价曲线、等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10220197.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存