Spark的KMeans是否无法处理大数据？_随笔

Spark的KMeans是否无法处理大数据？

我认为“悬空”是因为您的执行者不断死亡。正如我在边聊中提到的那样，此代码在本地和群集中的Pyspark和Scala中对我来说运行良好。但是，它花费的时间比应该花费的时间长得多。几乎所有时间都花在k均值上||
初始化。

我打开了https://issues.apache.org/jira/browse/SPARK-17389，以跟踪两项主要改进，您可以立即使用其中一项。编辑：真的，另请参阅https://issues.apache.org/jira/browse/SPARK-11560

首先，有一些代码优化可以将初始化速度提高约13％。

但是，最大的问题是它默认为5步k-均值||。init，似乎2几乎总是一样好。您可以将初始化步骤设置为2，以查看加速情况，尤其是在目前处于挂起状态的阶段。

在我的笔记本电脑上（较小）测试中，初始化时间从5:54变为1:41，并且两者都有变化，这主要是由于设置了初始化步骤。

欢迎分享，转载请注明来源：内存溢出

Spark的KMeans是否无法处理大数据？