一个簇可以只包含一个样本,也可以包含多个样本
• 聚类的结果可用包含m个元素的簇标记向量 表示
如何度量
外部指标
a 两个都在同一类
b 外同一类,内不同一类
c 内同一类,外部同一类
d 内外都部署同一类
指标都是越大越好
内部指标
每簇内部的平均距离
每簇内部的两两样例的最大距离
簇与簇间最近的样本间的距离
簇与簇间中心点之间的距离
DB指标:任意两个数的簇内平均距离之和两个簇中心距离的比值,然后找寻最大值,这个值越小越好
Dunn指标:每个簇与其他簇的样本间距离最小值,再除以簇内样例间距离的最大值,越大越好
距离度量的性质
距离计算
无序属性的距离度量方法
加权距离
簇内均值向量
均值向量
样例有类别标签
根据方向来更新向量,步骤6:相同,原型向量和样本靠近,不相同原型向量和样本远离
密度聚类 DBSCAN是基于密度的聚类
定义
X2由X1密度直达
X3由X1密度可达
X3与X4密度相连
随机构建种子
实心点为核心对象,空心点为非核心对象,星形为噪音对象
层次聚类,自顶向下或者自底向上
距离计算
距离的划分,先假设簇的划分就是样本数,然后逐步合并
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)