python – Google Cloud Dataproc OOM问题

python – Google Cloud Dataproc OOM问题,第1张

概述当在Spark集群(Dataproc)上执行代码时,我遇到了OOM问题. 环境: 2节点集群,每个节点有6G内存. 测试文件大小为20Gb. 这是我的代码: from __future__ import absolute_importimport pysparksc = pyspark.SparkContext()sc._jsc.hadoopConfiguration().set('fs. 当在Spark集群(Dataproc)上执行代码时,我遇到了OOM问题.

环境:
2节点集群,每个节点有6G内存.
测试文件大小为20Gb.

这是我的代码:

from __future__ import absolute_importimport pysparksc = pyspark.SparkContext()sc._Jsc.hadoopConfiguration().set('fs.sftp.impl','org.apache.hadoop.fs.sftp.SFTPfileSystem')data = sc.textfile("sftp://user:pass@54.23.12.100/data/tmp/test_tile.csv.gz")data.saveAsTextfile("gs://data/tmp")

是否可以使用Spark集群将数据流式传输到GCS,并为工作节点设置限制(缓冲区)以避免OOM错误?或者,如果有其他解决方案从外部源(sftp)读取数据并将其持久保存到GCS中?

解决方法 使用Hadoop DistCp而不是Spark将文件从SFTP服务器复制到GCS会更合适.

以下是有关如何在Hadoop中配置SFTP支持的说明:
https://stackoverflow.com/a/33878054/3227693.

总结

以上是内存溢出为你收集整理的python – Google Cloud Dataproc OOM问题全部内容,希望文章能够帮你解决python – Google Cloud Dataproc OOM问题所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1192228.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存