机器学习之模型评估的方法总结_技术

由龙骑士于星期二, 2018-09-11 14:21 发表

一、分类模型评估

1、混淆矩阵（confusion matrix）

TP(True PosiTIve) —- 将正类预测为正类数
FN(False NegaTIve) —- 将正类预测为负类数
FP(False PosiTIve) —- 将负类预测为正类数
TN(True NegaTIve) —- 将负类预测为负类数

分类模型总体判断的准确率:反映分类器统对整个样本的判定能力，能将正的判定为正，负的判定为负

精确率(Precision)：指的是所得数值与真实值之间的精确程度；预测正确的正例数占预测为正例总量的比率，一般情况下，精确率越高，说明模型的效果越好。
公式如下：

召回率(Recall )：预测对的正例数占真正的正例数的比率，一般情况下，Recall越高，说明有更多的正类样本被模型预测正确，模型的效果越好。
公式如下：

False discovery rate (FDR)：错误发现率，表示在模型预测为正类的样本中，真正的负类的样本所占的比例。一般情况下，错误发现率越小，说明模型的效果越好。
公式如下：

False omission rate (FOR)：错误遗漏率，表示在模型预测为负类的样本中，真正的正类所占的比例。即评价模型”遗漏”掉的正类的多少。一般情况下，错误遗漏率越小，模型的效果越好。
公式如下：

Negative predictive value (NPV)：阴性预测值，在模型预测为负类的样本中，真正为负类的样本所占的比例。一般情况下，NPV越高，说明的模型的效果越好。
公式如下：

False positive rate (FPR), Fall-out：假正率，表示的是，预测为正例的负样本数，占模型负类样本数量的比值。一般情况下，假正类率越低，说明模型的效果越好。
公式如下：

False negative rate (FNR), Miss rate：假负类率，缺失率，模型预测为负类的样本中，是正类的数量，占真实正类样本的比值。缺失值越小，说明模型的效果越好。
公式如下：

True negative rate (TNR):一般情况下，真负类率越高，说明的模型的效果越好
公式如下：

F1是精确率和召回率的调和均值，即：

举例：
如有150个样本数据，这些数据分成3类，每类50个。分类结束后得到的混淆矩阵为：

每一行之和为50，表示50个样本，第一行说明类1的50个样本有43个分类正确，5个错分为类2，2个错分为类3。

混淆矩阵的每一列代表了预测类别，每一列的总数表示预测为该类别的数据的数目；每一行代表了数据的真实归属类别，每一行的数据总数表示该类别的数据实例的数目。每一列中的数值表示真实数据被预测为该类的数目：如下图，第一行第一列中的43表示有43个实际归属第一类的实例被预测为第一类，同理，第二行第一列的2表示有2个实际归属为第二类的实例被错误预测为第一类。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/dianzi/2716218.html

机器学习之模型评估的方法总结

发表评论

评论列表（0条）