1.架构设计图
2.
用户交互方式1、spark-shell:spark命令行方式来 *** 作spark作业。
-
- 多用于简单的学习、测试、简易作业 *** 作。
2、spark-submit:通过程序脚本,提交相关的代码、依赖等来 *** 作spark作业。
-
- 最多见的提交任务的交互方式,简单易用、参数齐全。
3、spark-sql:通过sql的方式 *** 作spark作业。
-
- sql相关的学习、测试、生产环境研发均可以使用该直接 *** 作交互方式。
4、spark-class:最低层的调用方式,其它调用方式多是最终转化到该方式中去提交。
-
- 直接使用较少
5、sparkR,sparkPython:通过其它非java、非scala语言直接 *** 作spark作业的方式。
-
- R、python语言使用者的交互方式。
1.linux 本地方式
开发环境打包:跟之前的maven打包完全一致
编写Shell运行脚本:
注意修改代码中的setMaster代码,将之前代码设置注释掉
String filePath=“file:C:/Users/USB/Desktop/SpackTest.txt”; 改为动态传参
2.集群方式
注意输入路径,应改为hdfs等分布式文件系统的路径
yarn-client等于–master设置成yarn,deploy-mode设置成client
3.yarn-cluster
注意输入路径,应改为hdfs等分布式文件系统的路径
yarn-cluster等于–master设置成yarn,–deploy-mode设置成cluster
脚本java运行:
#! /bin/sh
# 配置成hadoop配置文件存放目录
export HADOOP_CONF_DIR=/usr/hdp/3.1.0.0-78/hadoop/conf/
spark-submit
--class com.tl.job014.spark.SparkWordCount4Java
--master local[2] 本地
--master yarn-client 集群方式yarn-client运行
--master yarn-cluster 读取hdfs分布式文件系统
--driver-memory 512m
--executor-memory 512m
--num-executors 2
/home/zel/job014/FirstSparkWordCount4Java/FirstSpark4Java-jar-with-dependencies.jar
file:///home/zel/job014/FirstSparkWordCount4Java/input.txt
#hdfs://cluster0.hadoop:8020/tmp/spark/input.txt
1.5 maven构建scala项目
搭建步骤
1)安装对应的maven构建scala的archetype
2)新建maven scala archetype项目
3)修改模板构建完成项目配置参数
4)运行模板自带的scala案例
5)自定义编程实现HelloWorld案例
6)package打包-不带依赖jar的打包
7)package打包-带依赖jar的all-in-one打包
在window运行jar
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)