目录
一.Spark 安装地址
1.官网地址
2.文档查看地址
3.下载地址
二.Spark 运行模式
三.Spark 安装
1.在官网下载spark安装包
2.上传至Linux环境并解压安装
3.修改配置文件
4.JobHistoryServer配置
5.启动
6.测试
7.Spark Shell
下一节
一.Spark 安装地址 1.官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.1.1/ 3.下载地址 https://spark.apache.org/downloads.html 二.Spark 运行模式
1.Local 模式:Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。
2.Standalone 模式:构建一个由 Master+Slave 构成的 Spark 集群,Spark 运行在集群中。
3.Yarn 模式:Spark 客户端直接连接Yarn,不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点。
4.Mesos 模式:Spark 客户端直接连接 Mesos;不需要额外构建 Spark 集群。国内应用比较少,更多的是运用 yarn 调度。
几种模式比较:
三.Spark 安装这里只以 Standalone 模式为例,其他模式大同小异。
1.在官网下载spark安装包https://spark.apache.org/downloads.html
2.上传至Linux环境并解压安装#解压安装到指定目录 tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/ #更改文件夹名方便使用 mv /opt/module/spark-2.1.1-bin-hadoop2.7 /opt/module/spark3.修改配置文件
进入 spark 安装目录下的 conf 文件夹
cd spark/conf/
修改配置文件名称
mv slaves.template slaves
mv spark-env.sh.template spark-env.sh
修改 slave 文件,添加集群中 work 节点:
vim slaves
worker01 #自己集群中worker01节点 worker02 #自己集群中worker02节点 worker03 #自己集群中worker03节点
修改 spark-env.sh 文件,添加如下配置:
vim spark-env.sh
SPARK_MASTER_HOST=Master #自己集群中Master节点 SPARK_MASTER_PORT=7077
分发 spark 包
4.JobHistoryServer配置scp -r spark/ worker01:/opt/moudule/ #分发到自己集群中各节点
scp -r spark/ worker02:/opt/moudule/
scp -r spark/ worker03:/opt/moudule/
cd spark/conf
修改 spark-default.conf.template 名称
mv spark-defaults.conf.template spark-defaults.conf
修改 spark-default.conf 文件,开启 Log:
vi spark-defaults.conf
spark.eventLog.enabled true spark.eventLog.dir hdfs://Master:9000/directory
注意:HDFS 上的目录需要提前存在。
修改 spark-env.sh 文件,添加如下配置:
vi spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://Master:9000/directory"
参数描述:
spark.eventLog.dir:Application 在运行过程中所有的信息均记录在该属性指定的路径下 spark.history.ui.port=18080 WEBUI 访问的端口号为 18080 spark.history.fs.logDirectory=hdfs://Master:9000/directory 配置了该属性后,在 start-history-server.sh 时就无需再显式的指定路径,Spark History Server 页面只展示该指定路径下的信息 spark.history.retainedApplications=30 指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。 分发配置文件scp -r spark-defaults.conf worker01:/opt/moudule/spark/conf/ #分发到自己集群中各节点
scp -r spark-defaults.conf worker02:/opt/moudule/spark/conf/
scp -r spark-defaults.conf worker03:/opt/moudule/spark/conf/ scp -r spark-env.sh worker01:/opt/moudule/spark/conf/ #分发到自己集群中各节点
scp -r spark-env.sh worker02:/opt/moudule/spark/conf/
scp -r spark-env.sh worker03:/opt/moudule/spark/conf/
启动历史服务
cd spark sbin/start-history-server.sh5.启动
cd spark
sbin/start-all.sh
各个节点查看jps,如下为成功启动,或者去网页查看: Master:8080 (自己集群master节点)
3330 Jps 3238 Worker 3163 Master注意: 如果遇到 “JAVA_HOME not set” 异常,可以在 sbin 目录下的 spark-config.sh 文件 中加入如下配置:
export JAVA_HOME=XXXX6.测试 官方求 PI 案例
bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://Master:7077 --executor-memory 1G --total-executor-cores 2 ./examples/jars/spark-examples_2.11-2.1.1.jar 100
查看历史服务
Master:18080
7.Spark Shell/opt/module/spark/bin/spark-shell --master spark://Master:7077 --executor-memory 1g --total-executor-cores 2
参数:--master spark://Master:7077 指定要连接的集群的 master
执行 WordCount 程序
scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3),(hbase,6)) scala>
至此,Standalone模式下 Spark 安装完成。
下一节欢迎分享,转载请注明来源:内存溢出
评论列表(0条)