主要区别是,性质不同、目的不同、应用不同,具体如下:
一、性质不同
1、数据分类
数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。
2、数据聚类
数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。
二、目的不同
1、数据分类
数据分类的目的是根据新数据对象的属性,将其分配到一个正确的类别中。
2、数据聚类
聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。
三、应用不同
1、数据分类
应用于统计学、计算机控制。
2、数据聚类
广泛应用于机器学习,数据挖掘,模式识别,图像分析以及生物信息等。
以上内容参考 百度百科-数据分类、百度百科-数据聚类
聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。
1、划分法,给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。
2、层次法,这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。
3、基于密度的方法,基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。
4、图论聚类方法解决的第一步是建立与问题相适应的图,图的节点对应于被分析数据的最小单元,图的边(或弧)对应于最小处理单元数据之间的相似性度量。
5、基于网格的方法,这种方法首先将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的。
6、基于模型的方法,基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。
扩展资料:
在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。
它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。
许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好;但是,一个大规模数据库可能包含几百万个对象,在这样的大数据集合样本上进行聚类可能会导致有偏的结果。
许多聚类算法在聚类分析中要求用户输入一定的参数,例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定,特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担,也使得聚类的质量难以控制。
参考资料来源:百度百科——聚类算法
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)