华为大数据HCIE实验论述题常考题型1_随笔

华为大数据HCIE实验论述题常考题型1

题目1 阐述混淆矩阵？
题目2 分类问题评估标准中查准率和召回率，正确率，错误率公式是什么？召回率和查准率各自用于什么场景？为什么会用F1分数？
题目3 PR曲线如何绘制？ROC曲线如何选择模型？

题目1 阐述混淆矩阵？

푃：正元组，感兴趣的主要类的元组。
푁：负元组，其他元组。
TP：真正例，被分类器正确分类的正元组。
푇푁：真负例，被分类器正确分类的负元组。
퐹푃：假正例，被错误地标记为正元组的负元组。
퐹푁：假负例，被错误地标记为负元组的正元组。
混淆矩阵：是一个至少为푚×푚的表。前푚行和푚列的表目C푀_(푖,푗)指出类푖的元组被分类器标记为푗的个数。
理想地，对于高准确率分类器，大部分元组应该被混淆矩阵从퐶푀_1,1到퐶푀_(푚,푚)的对角线上的表目表示，而其他表目为0或者接近于0。即퐹푃和퐹푁接近0。

题目2 分类问题评估标准中查准率和召回率，正确率，错误率公式是什么？召回率和查准率各自用于什么场景？为什么会用F1分数？

在分类问题中，常见的公式如下表所示：

查准率 (precision)：在所判别的正例结果中，真正正例的比例。可表示为：TP/(TP+FP)。查准率表示分类算法预测是否分类为1中实际为0的误报成分（真正例样本数/预测结果是正例的样本数）。
查全率 (Recall)：又被称为召回率，是指分类器预测为正例的样本占实际正例样本的比例。可表示为：TP/(TP+FN)。查全率则表示算法预测是否漏掉了一些该分为1的，却被分为0的成分，也就是漏报的（真正例样本数/真实是正例的样本数）。
宁愿漏掉，不可错杀：一般适用于识别垃圾邮件的场景中。因为我们不希望很多的正常邮件被误杀，这样会造成严重的困扰。因此，在此类场景下Precision 将是一个重要的指标。
宁愿错杀，不可漏掉：一般适用于金融风控领域。我们希望系统能够筛选出所有风险的行为或用户，然后进行人工鉴别，如果漏掉一个可能造成灾难性后果。因此，在此类场景下，Recall将是一个重要的指标

对于Precision和Recall，虽然从计算公式来看，并没有什么必然的相关性关系。但是在大规模数据集合中，这两个指标往往是相互制约的。理想情况下，两个指标都较高。但一般情况下，如果Precision高，Recall就低；如果Recall高，Precision就低。
在实际项目中，常常需要根据具体情况做出取舍，例如一般的搜索情况，在保证召回率的条件下，尽量提升精确率。而像癌症检测、地震检测、金融欺诈等，则在保证精确率的条件下，尽量提升召回率。
很多时候我们需要综合权衡这2个指标，这就引出了一个新的指标F-score。这是综合考虑Precision和Recall后的调和值。

题目3 PR曲线如何绘制？ROC曲线如何选择模型？

PR曲线是描述查准率/查全率变化的曲线，以查准率(precision)和查全率(recall)分别作为纵、横轴坐标。
根据学习器的预测结果（一般为一个实值或概率）对测试样本进行排序，将最可能是“正例”的样本排在前面，最不可能是“正例”的排在后面，按此顺序逐个把样本作为“正例”进行预测，每次计算出当前的P值和R值。

进行模型的性能比较时，若一个学习器A的ROC曲线被另外一个学习器B的ROC曲线完全包住，则称B的性能优于A。若A和B的曲线发生了交叉，则谁的曲线与坐标轴围成的面积大，谁的性能更优。ROC曲线下的面积定义为AUC(Area Under ROC Curve)。
AUC越大，证明分类的质量越好，AUC为1时，证明所有正例排在了负例前面，AUC为0时，所有的负例排在了正例的前面。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zaji/5698829.html

华为大数据HCIE实验论述题常考题型1

发表评论

评论列表（0条）