为什么我的Spark运行速度比纯Python慢​​?性能比较

为什么我的Spark运行速度比纯Python慢​​?性能比较,第1张

为什么我的Spark运行速度比纯Python慢​​?性能比较

在较小的数据集上,与pyspark相比,Python肯定会表现更好。在处理较大的数据集时,您会看到不同之处。

默认情况下,当您在SQL Context或Hive
Context中运行spark时,默认情况下将使用200个分区。您需要使用将其更改为10或任何值

sqlContext.sql("setspark.sql.shuffle.partitions=10");
。它肯定会比默认情况下更快。

1)我的数据集大约有220,000条记录(24 MB),这还不足以显示Spark的扩展优势。

没错,在较低的音量下您不会看到太大的差异。Spark也会变慢。

2)我的spark在本地运行,我应该在Amazon EC之类的环境中运行它。

对于您的音量,可能没有太大帮助。

3)可以在本地运行,但是我的计算能力却不足。这是8 Gig RAM 2015 Macbook。

同样,对于20MB数据集也没有关系。

4)Spark运行缓慢,因为我正在运行Python。如果我使用Scala,那就更好了。(反对派观点:我听说很多人都在使用PySpark很好。)

独立运行会有差异。Python比scala具有更多的运行时开销,但是在具有分布式功能的更大集群上,这没关系



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5587696.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-14
下一篇 2022-12-14

发表评论

登录后才能评论

评论列表(0条)

保存