如何在群集上保存文件

election • 2022-12-15 • 随笔 • 阅读 26

如何在群集上保存文件

由于计算是分布式的，因此Spark会将结果保存在多个文件中。因此写：

counts.write.csv("hdfs://home/myDir/text_file.csv")

表示将每个分区上的数据保存为文件夹中的独立文件

text_file.csv

。如果要将数据保存为单个文件，请

coalesce(1)

首先使用：

counts.coalesce(1).write.csv("hdfs://home/myDir/text_file.csv")

这会将所有数据放入一个分区，因此保存的文件数将为1。但是，如果您有很多数据，这可能是个坏主意。如果数据非常小，则使用

collect()

替代方法。这会将所有数据作为数组放置在驱动程序计算机上，然后可以将其保存为单个文件。

欢迎分享，转载请注明来源：内存溢出

文件数据分区坏主意群集

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-15

下一篇 2022-12-15

登录后才能评论