PySpark:写入时吐出单个文件,而不是多个零件文件

PySpark:写入时吐出单个文件,而不是多个零件文件,第1张

PySpark:写入吐出单个文件,而不是多个零件文件

好吧,您的确切问题的答案是

coalesce
函数。但是,正如已经提到的那样,它根本效率不高,因为它将迫使一个工作人员读取所有数据并顺序写入。

df.coalesce(1).write.format('json').save('myfile.json')

顺便说一句,结果文件不是有效的json文件。它是每行带有json对象的文件。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5631988.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存