dbscan聚类算法是什么?

dbscan聚类算法是什么?,第1张

dbscan聚类算法是基于密度的聚类算法,与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直接密度可达。

聚类算法的应用

DBScan需要二个参数扫描半径 和最小包含点数。 任选一个未被访问的点开始,找出与其距离在eps之内的所有附近点。如果附近点的数量≥minPts,则当前点与其附近点形成一个簇,并且出发点被标记为已访问。 

然后递归,以相同的方法处理该簇内所有未被标记为已访问的点,从而对簇进行扩展。附近点的数量<minPts,则该点暂时被标记作为噪声点。如果簇充分地被扩展,即簇内的所有点被标记为已访问,然后用同样的算法去处理未被访问的点检测数据库中尚未检查过的对象p。

如果p未被处理归为某个簇或者标记为噪声,则检查其邻域,若包含的对象数不小于minPts,建立新簇C,将其中的所有点加入候选集N;对候选集N中所有尚未被处理的对象q,检查其邻域,若至少包含minPts个对象,则将这些对象加入N;如果q未归入任何一个簇,则将q加入C。

spark机器学习-聚类

聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中,聚类算法的思想简单的说就是物以类聚的思想,相同性质的点在空间中表现的较为紧密和接近,主要用于数据探索与异常检测,最常用的一种聚类算法是K均值(K-means)聚类算法

算法原理

kmeans的计算方法如下:

1 选取k个中心点

2 遍历所有数据,将每个数据划分到最近的中心点中

3 计算每个聚类的平均值,并作为新的中心点

4 重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代

算法的时间复杂度上界为O(n*k*t), 其中k为输入的聚类个数,n为数据量,t为迭代次数。一般t,k,n均可认为是常量,时间和空间复杂度可以简化为O(n),即线性的

spark ml编码实践

可在spark-shell环境下修改参数调试以下代码,可以用实际的业务数据做测试评估,业务数据一般是多列,可以把维度列用VectorAssembler组装成向量列做为Kmeans算法的输入列,考虑现实的应用场景,比如做异常数据检测,正常数据分为一类,异常数据分为几类,分别统计正常数据与异常数据的数据量,求百分比等

<span style="font-size:18px">import org.apache.spark.ml.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

val dataset = sqlContext.createDataFrame(Seq(

(1, Vectors.dense(0.0, 0.0, 0.0)),

(2, Vectors.dense(0.1, 0.1, 0.1)),

(3, Vectors.dense(0.2, 0.2, 0.2)),

(4, Vectors.dense(9.0, 9.0, 9.0)),

(5, Vectors.dense(1.1, 1.1, 0.1)),

(6, Vectors.dense(12, 14, 100)),

(6, Vectors.dense(1.1, 0.1, 0.2)),

(6, Vectors.dense(-2, -3, -4)),

(6, Vectors.dense(1.6, 0.6, 0.2))

)).toDF("id", "features")

// Trains a k-means model

val kmeans = new KMeans().setK(3).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")

val model = kmeans.fit(dataset)

// Shows the result

println("Final Centers: ")

model.clusterCenters.foreach(println)

model.clusterCenters.zipWithIndex.foreach(println)

val myres = model.transform(dataset).select("features","prediction")

myres.show()</span>

聚类算法是一类无监督式机器学习算法,聚类效果怎么评估,模型训练参数怎么调优,是否能用管道来训练模型来比较各种不同组合的参数的效果,即网格搜索法(gridsearch),先设置好待测试的参数,MLLib就会自动完成这些参数的不同组合,管道搭建了一条工作流,一次性完成了整个模型的调优,而不是独立对每个参数进行调优,这个还要再确认一下,查看SPARK-14516好像目前还没有一个聚类效果通用的自动的度量方法

像这种代码(不过现在这个代码有问题):

<span style="font-size:18px">import org.apache.spark.ml.clustering.KMeans

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.ml.tuning.{ ParamGridBuilder, CrossValidator }

import org.apache.spark.ml.{ Pipeline, PipelineStage }

val dataset = sqlContext.createDataFrame(Seq(

(1, Vectors.dense(0.0, 0.0, 0.0)),

(2, Vectors.dense(0.1, 0.1, 0.1)),

(3, Vectors.dense(0.2, 0.2, 0.2)),

(4, Vectors.dense(9.0, 9.0, 9.0)),

(5, Vectors.dense(1.1, 1.1, 0.1)),

(6, Vectors.dense(12, 14, 100)),

(6, Vectors.dense(1.1, 0.1, 0.2)),

(6, Vectors.dense(-2, -3, -4)),

(6, Vectors.dense(1.6, 0.6, 0.2))

)).toDF("id", "features")

val kmeans = new KMeans().setK(2).setMaxIter(20).setFeaturesCol("features").setPredictionCol("prediction")

//主要问题在这里,没有可用的评估器与label列设置

val evaluator = new BinaryClassificationEvaluator().setLabelCol("prediction")

val paramGrid = new ParamGridBuilder().addGrid(kmeans.initMode, Array("random")).addGrid(kmeans.k, Array(3, 4)).addGrid(kmeans.maxIter, Array(20, 60)).addGrid(kmeans.seed, Array(1L, 2L)).build()

val steps: Array[PipelineStage] = Array(kmeans)

val pipeline = new Pipeline().setStages(steps)

val cv = new CrossValidator().setEstimator(pipeline).setEvaluator(evaluator).setEstimatorParamMaps(paramGrid).setNumFolds(10)

// Trains a model

val pipelineFittedModel = cv.fit(dataset)</span>


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9909899.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-03
下一篇 2023-05-03

发表评论

登录后才能评论

评论列表(0条)

保存