1、利用箱线图:通过绘制箱线图,判断出离群点的范围,以及离群点的数量;
2、利用极差法:即将数据的极差值除以其平均数,如果大于一定的值,就认为是离群点;
3、利用标准差法:即将数据的标准差值除以其均值,如果大于一定的值,就认为是离群点;
4、利用数学定理:计算数据的平均值和标准差,利用3σ定理来判断离群点;
5、利用统计检验:可以利用T检验、F检验等统计检验来判断离群点;
6、利用异常值检测技术:可以利用机器学习技术来检测异常值,从而判断离群点;
7、利用统计模型:可以利用统计模型来判断离群点,比如回归模型等。
离群点检测是数据挖掘中重要的一部分,它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃,然而在一些应用中,罕见的数据可能蕴含着更大的研究价值。
离群点的检测已经被广泛应用于电信和xyk的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。
离群点的主要成因有:数据来源于不同的类、自然变异、数据测量和手机误差。
从数据范围来看,分为全局离群点和局部离群点,整体来看,某些对象没有离群特征,但是从局部来看,却显示了一定的离群性。
从数据类型来看,分为数值型离群点和分类型离群点,这是以数据集的属性类型进行划分的。
从属性的个数来看,分为一维离群点和多维离群点,一个对象可能有一个或多个属性。
大部分的基于统计的离群点检测方法是构建一个概率分布模型,并计算对象符合该模型的概率,把具有低概率的对象视为离群点。基于统计模型的离群点检测方法的前提是必须知道数据集服从什么分布;对于高维数据,检验效果可能很差。
通常可以在数据对象之间定义邻近性度量,把原理大部分点的对象视为离群点。二位或三维的数据可以做散点图观察;大数据集不适用;对参数选择敏感;具有全局阈值,不能处理具有不同密度区域的数据集
考虑数据集可能存在不同密度区域这一事实,从基于密度的观点分析,离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;大数据集不适用;参数选择是困难的。
一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇;另一种更系统的方法,首先聚类所有帝乡,然后评估对象属于簇的程度。基于聚类技术来发现离群点可能是高度有效的;聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
基于统计模型的离群点检测方法需要满足统计学原理,如果分布一直,则检验可能非常有效。基于邻近度的离群点检测方法比统计学方法更一般、更容易使用,因为确定数据集有意义的邻近度量比确定他的统计分布更容易。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度常用邻近度定义:一种是定义密度为到K个最邻近的平均距离的倒数,如果该距离小,则密度高;另一种是使用DBSCAN聚类算法,一个对象周围的密度等于该对象指定距离d内对象的个数。
本论文提出来一个聚类方法用以检测离群点。通过使用k均值聚类算法来从数据集中划分聚类。离聚类中心比较近的点不太可能是离群点,同时我们可以从聚类中去除掉这些点。接下来计算剩下的点和离群点的距离。需要计算的离群点度的降低可能是由于一些点的去除。我们声明离群度最高的点作为离群点。实验数据使用真实数据集,并论证得知,即使所计算的数据比较少,但所提出的方法比现存的方法优越。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)