环境:
2节点集群,每个节点有6G内存.
测试文件大小为20Gb.
这是我的代码:
from __future__ import absolute_importimport pysparksc = pyspark.SparkContext()sc._Jsc.hadoopConfiguration().set('fs.sftp.impl','org.apache.hadoop.fs.sftp.SFTPfileSystem')data = sc.textfile("sftp://user:pass@54.23.12.100/data/tmp/test_tile.csv.gz")data.saveAsTextfile("gs://data/tmp")
是否可以使用Spark集群将数据流式传输到GCS,并为工作节点设置限制(缓冲区)以避免OOM错误?或者,如果有其他解决方案从外部源(sftp)读取数据并将其持久保存到GCS中?
解决方法 使用Hadoop DistCp而不是Spark将文件从SFTP服务器复制到GCS会更合适.以下是有关如何在Hadoop中配置SFTP支持的说明:
https://stackoverflow.com/a/33878054/3227693.
以上是内存溢出为你收集整理的python – Google Cloud Dataproc OOM问题全部内容,希望文章能够帮你解决python – Google Cloud Dataproc OOM问题所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)