Spark的KMeans是否无法处理大数据?

Spark的KMeans是否无法处理大数据?,第1张

Spark的KMeans是否无法处理大数据?

我认为“悬空”是因为您的执行者不断死亡。正如我在边聊中提到的那样,此代码在本地和群集中的Pyspark和Scala中对我来说运行良好。但是,它花费时间比应该花费的时间长得多。几乎所有时间都花在k均值上||
初始化。

我打开了https://issues.apache.org/jira/browse/SPARK-17389,以跟踪两项主要改进,您可以立即使用其中一项。编辑:真的,另请参阅https://issues.apache.org/jira/browse/SPARK-11560

首先,有一些代码优化可以将初始化速度提高约13%。

但是,最大的问题是它默认为5步k-均值||。init,似乎2几乎总是一样好。您可以将初始化步骤设置为2,以查看加速情况,尤其是在目前处于挂起状态的阶段。

在我的笔记本电脑上(较小)测试中,初始化时间从5:54变为1:41,并且两者都有变化,这主要是由于设置了初始化步骤。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5643894.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存