大数据与人工智能方向先修课第三次雪梨任务_随笔

大数据与人工智能方向先修课第三次雪梨任务

前言

一、了解K近邻模型的原理和流程，K近邻模型能解决机器学习任务中的哪些常见的任务？

二、考虑影响K近邻模型的因素有哪些？

总结

前言

以下仅为个人对作业的理解，仅供参考喔~

提示：以下是本篇文章正文内容，下面案例可供参考

一、了解K近邻模型的原理和流程，K近邻模型能解决机器学习任务中的哪些常见的任务？

K近邻模型的原理：给定一个训练集，对新的输入实例，在训练集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。

K近邻算法的流程：①将训练集D的输入部分进行预处理，并记录预处理的使用参数；②指定距离向量，也就是选择K值；③在训练集D内找到预处理的样本x的前k个近邻；④结合指定的分类规则，对x的类别y进行预测。

K近邻模型能解决机器学习任务中的分类和回归问题。

二、考虑影响K近邻模型的因素有哪些？

影响K近邻模型的因素：距离向量，超参数K值，决策规则

距离向量的选择：K近邻算法的核心在于如何选择K个近邻，即为距离向量的选择。常见的方式有：Lp距离，绝对值距离（即为L1距离），欧式距离（即为L2距离），拉格朗日距离等。

对超参数K值选择的意义：任意观测X的类别预测：（1）若使用较小的K值，则利用x较小邻域训练样本进行类别预测，只有更接近x的训练样本才对预测结果有作用，预测结果对近邻的训练样本类别更为敏感。若数据分布复杂或噪声影响严重，易导致高的预测错误率。最小K=1，为最近邻分类。（2）若使用较大的K值，则需要利用x较大邻域的训练样本进行类别预测，使得远离x的训练样本对预测结果也有作用，使预测结果发生错误。最大K=n，每个位置的预测结果为具有最大训练样本数目的类别。

K近邻分类模型的决策规则：多数表决，胜者为王；基于距离的加权投票

K近邻回归模型的决策规则：等权平均；基于距离的加权平均

总结

以上仅为简单答案，更具体的讲解请见本人的其他几篇博客：K近邻分类模型、K近邻回归模型

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5690330.html

大数据与人工智能方向先修课第三次雪梨任务

发表评论

评论列表（0条）