一、分类模型评估
1、混淆矩阵(confusion matrix)
TP(True PosiTIve) —- 将正类预测为正类数
FN(False NegaTIve) —- 将正类预测为负类数
FP(False PosiTIve) —- 将负类预测为正类数
TN(True NegaTIve) —- 将负类预测为负类数
分类模型总体判断的准确率:反映分类器统对整个样本的判定能力,能将正的判定为正,负的判定为负
精确率(Precision):指的是所得数值与真实值之间的精确程度;预测正确的正例数占预测为正例总量的比率,一般情况下,精确率越高,说明模型的效果越好。
公式如下:
召回率(Recall ):预测对的正例数占真正的正例数的比率,一般情况下,Recall越高,说明有更多的正类样本被模型预测正确,模型的效果越好。
公式如下:
False discovery rate (FDR):错误发现率,表示在模型预测为正类的样本中,真正的负类的样本所占的比例。一般情况下,错误发现率越小,说明模型的效果越好。
公式如下:
False omission rate (FOR):错误遗漏率,表示在模型预测为负类的样本中,真正的正类所占的比例。即评价模型”遗漏”掉的正类的多少。一般情况下,错误遗漏率越小,模型的效果越好。
公式如下:
Negative predictive value (NPV):阴性预测值,在模型预测为负类的样本中,真正为负类的样本所占的比例。 一般情况下,NPV越高,说明的模型的效果越好。
公式如下:
False positive rate (FPR), Fall-out:假正率,表示的是,预测为正例的负样本数,占模型负类样本数量的比值。一般情况下,假正类率越低,说明模型的效果越好。
公式如下:
False negative rate (FNR), Miss rate:假负类率,缺失率,模型预测为负类的样本中,是正类的数量,占真实正类样本的比值。缺失值越小,说明模型的效果越好。
公式如下:
True negative rate (TNR):一般情况下,真负类率越高,说明的模型的效果越好
公式如下:
F1是精确率和召回率的调和均值,即:
举例:
如有150个样本数据,这些数据分成3类,每类50个。分类结束后得到的混淆矩阵为:
每一行之和为50,表示50个样本,第一行说明类1的50个样本有43个分类正确,5个错分为类2,2个错分为类3。
混淆矩阵的每一列代表了预测类别,每一列的总数表示预测为该类别的数据的数目;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目:如下图,第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类,同理,第二行第一列的2表示有2个实际归属为第二类的实例被错误预测为第一类。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)