为什么我的Spark运行速度比纯Python慢？性能比较_随笔

为什么我的Spark运行速度比纯Python慢？性能比较

在较小的数据集上，与pyspark相比，Python肯定会表现更好。在处理较大的数据集时，您会看到不同之处。

默认情况下，当您在SQL Context或Hive
Context中运行spark时，默认情况下将使用200个分区。您需要使用将其更改为10或任何值

sqlContext.sql("setspark.sql.shuffle.partitions=10");

。它肯定会比默认情况下更快。

1）我的数据集大约有220,000条记录（24 MB），这还不足以显示Spark的扩展优势。

没错，在较低的音量下您不会看到太大的差异。Spark也会变慢。

2）我的spark在本地运行，我应该在Amazon EC之类的环境中运行它。

对于您的音量，可能没有太大帮助。

3）可以在本地运行，但是我的计算能力却不足。这是8 Gig RAM 2015 Macbook。

同样，对于20MB数据集也没有关系。

4）Spark运行缓慢，因为我正在运行Python。如果我使用Scala，那就更好了。（反对派观点：我听说很多人都在使用PySpark很好。）

独立运行会有差异。Python比scala具有更多的运行时开销，但是在具有分布式功能的更大集群上，这没关系

欢迎分享，转载请注明来源：内存溢出

为什么我的Spark运行速度比纯Python慢？性能比较