PySpark：写入时吐出单个文件，而不是多个零件文件

shante • 2022-12-16 • 随笔 • 阅读 41

好吧，您的确切问题的答案是

coalesce

函数。但是，正如已经提到的那样，它根本效率不高，因为它将迫使一个工作人员读取所有数据并顺序写入。

df.coalesce(1).write.format('json').save('myfile.json')

顺便说一句，结果文件不是有效的json文件。它是每行带有json对象的文件。

欢迎分享，转载请注明来源：内存溢出

文件吐出写入迫使零件

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇 2022-12-16

登录后才能评论