在较小的数据集上,与pyspark相比,Python肯定会表现更好。在处理较大的数据集时,您会看到不同之处。
默认情况下,当您在SQL Context或Hive
Context中运行spark时,默认情况下将使用200个分区。您需要使用将其更改为10或任何值
sqlContext.sql("setspark.sql.shuffle.partitions=10");。它肯定会比默认情况下更快。
1)我的数据集大约有220,000条记录(24 MB),这还不足以显示Spark的扩展优势。
没错,在较低的音量下您不会看到太大的差异。Spark也会变慢。
2)我的spark在本地运行,我应该在Amazon EC之类的环境中运行它。
对于您的音量,可能没有太大帮助。
3)可以在本地运行,但是我的计算能力却不足。这是8 Gig RAM 2015 Macbook。
同样,对于20MB数据集也没有关系。
4)Spark运行缓慢,因为我正在运行Python。如果我使用Scala,那就更好了。(反对派观点:我听说很多人都在使用PySpark很好。)
独立运行会有差异。Python比scala具有更多的运行时开销,但是在具有分布式功能的更大集群上,这没关系
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)