每一个Spark应用都是一个SparkContext实例,可以理解为一个SparkContext就是一个spark application的生命周期,一旦SparkContext创建之后,就可以用这个SparkContext来创建RDD、累加器、广播变量,并且可以通过SparkContext访问Spark的服务,运行任务。spark context设置内部服务,并建立与spark执行环境的连接。
spark.sparkContext.textFile(path)textFile的参数是一个path,这个path可以是:
- 一个文件路径,这时候只装载指定的文件
- 一个目录路径,这时候只装载指定目录下面的所有文件(不包括子目录下面的文件)
- 通过通配符的形式加载多个文件或者加载多个目录下面的所有文件
https://zhuanlan.zhihu.com/p/129346816
map/flatmaphttps://blog.csdn.net/u010824591/article/details/50732996
reduceByKey和groupByKeyhttps://blog.csdn.net/u010476994/article/details/91406745
Idea打包:scala打成jar包打开maven project,点击项目名称,先后双击clean和package,就会自动进行打包了。
打包完成后,进入项目的target中进行查看,选用对应jar包,即可在spark集群上执行。
--conf spark.yarn.executor.memoryOverhead=10240 --conf spark.shuffle.io.numConnectionsPerPeer=5 --conf spark.driver.maxResultSize=30g --conf spark.kryoserializer.buffer.max=128m --conf spark.port.maxRetries=128breakable
for循环外使用相当于break,循环内使用相当于continue
saveAsTextFile应用时,首先应删除对应的文件夹
hadoop fs -rm -r 文件夹路径
https://blog.csdn.net/power0405hf/article/details/50596233
查看文件hadoop fs -cat 文件路径 |more保存到本地
hadoop fs -cat 文件路径/* >本地路径spark获取hive表字段并保存
var savePath = "hdfs路径" val sc: SparkContext = new SparkContext(new SparkConf()) sc.setLogLevel("WARN") val sqlContext: HiveContext = new HiveContext(sc) //获取实例,从hive表读取数据 var dataSql = s""" sql语句 """.stripMargin val sentences=sqlContext.sql(dataSql).rdd.map(t=>t.getString(0)) // 保存数据 sentences.saveAsTextFile(savePath)注:规范做法是和git相关联
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)