Spark 基础解析 (二) spark的安装与配置

Spark 基础解析 (二) spark的安装与配置,第1张

Spark 基础解析 (二) spark的安装与配置

目录

一.Spark 安装地址

1.官网地址

2.文档查看地址

3.下载地址

二.Spark 运行模式

 三.Spark 安装

1.在官网下载spark安装包

2.上传至Linux环境并解压安装

3.修改配置文件

4.JobHistoryServer配置

5.启动

6.测试 

7.Spark Shell

下一节


一.Spark 安装地址 1.官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.1.1/ 3.下载地址 https://spark.apache.org/downloads.html 二.Spark 运行模式

1.Local 模式:Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。

2.Standalone 模式:构建一个由 Master+Slave 构成的 Spark 集群,Spark 运行在集群中。

3.Yarn 模式:Spark 客户端直接连接Yarn,不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式,主要区别在于:Driver 程序的运行节点

4.Mesos 模式:Spark 客户端直接连接 Mesos;不需要额外构建 Spark 集群。国内应用比较少,更多的是运用 yarn 调度。

几种模式比较:

 三.Spark 安装

这里只以 Standalone 模式为例,其他模式大同小异。

1.在官网下载spark安装包

https://spark.apache.org/downloads.html

2.上传至Linux环境并解压安装
#解压安装到指定目录
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
#更改文件夹名方便使用
mv /opt/module/spark-2.1.1-bin-hadoop2.7 /opt/module/spark
3.修改配置文件

进入 spark 安装目录下的 conf 文件夹

cd spark/conf/

 修改配置文件名称

mv slaves.template slaves
mv spark-env.sh.template spark-env.sh

 修改 slave 文件,添加集群中 work 节点:

vim slaves

worker01    #自己集群中worker01节点
worker02    #自己集群中worker02节点
worker03    #自己集群中worker03节点

 修改 spark-env.sh 文件,添加如下配置:

vim spark-env.sh

SPARK_MASTER_HOST=Master    #自己集群中Master节点
SPARK_MASTER_PORT=7077

分发 spark 包 

scp -r spark/ worker01:/opt/moudule/    #分发到自己集群中各节点
scp -r spark/ worker02:/opt/moudule/
scp -r spark/ worker03:/opt/moudule/

4.JobHistoryServer配置

cd spark/conf

修改 spark-default.conf.template 名称 

mv spark-defaults.conf.template spark-defaults.conf

修改 spark-default.conf 文件,开启 Log:  

vi spark-defaults.conf 
spark.eventLog.enabled true
spark.eventLog.dir hdfs://Master:9000/directory

注意:HDFS 上的目录需要提前存在。

修改 spark-env.sh 文件,添加如下配置:

vi spark-env.sh 

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://Master:9000/directory"

参数描述:

spark.eventLog.dir:Application 在运行过程中所有的信息均记录在该属性指定的路径下 spark.history.ui.port=18080 WEBUI 访问的端口号为 18080 spark.history.fs.logDirectory=hdfs://Master:9000/directory 配置了该属性后,在 start-history-server.sh 时就无需再显式的指定路径,Spark History Server 页面只展示该指定路径下的信息 spark.history.retainedApplications=30 指定保存 Application 历史记录的个数,如果超过这个值,旧的应用程序信息将被删除,这个是内存中的应用数,而不是页面上显示的应用数。 分发配置文件
scp -r spark-defaults.conf worker01:/opt/moudule/spark/conf/    #分发到自己集群中各节点
scp -r spark-defaults.conf worker02:/opt/moudule/spark/conf/ 
scp -r spark-defaults.conf worker03:/opt/moudule/spark/conf/  scp -r spark-env.sh worker01:/opt/moudule/spark/conf/    #分发到自己集群中各节点
scp -r spark-env.sh worker02:/opt/moudule/spark/conf/ 
scp -r spark-env.sh worker03:/opt/moudule/spark/conf/ 

启动历史服务 

cd spark sbin/start-history-server.sh
5.启动

cd  spark

sbin/start-all.sh

 各个节点查看jps,如下为成功启动,或者去网页查看: Master:8080 (自己集群master节点)

3330 Jps 3238 Worker 3163 Master
注意: 如果遇到 “JAVA_HOME not set” 异常,可以在 sbin 目录下的 spark-config.sh 文件 中加入如下配置:
export JAVA_HOME=XXXX
6.测试  官方求 PI 案例
bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--master spark://Master:7077 
--executor-memory 1G 
--total-executor-cores 2 
./examples/jars/spark-examples_2.11-2.1.1.jar 
100

查看历史服务

Master:18080 

 7.Spark Shell
/opt/module/spark/bin/spark-shell --master spark://Master:7077 --executor-memory 1g --total-executor-cores 2

 参数:--master spark://Master:7077 指定要连接的集群的 master

执行 WordCount 程序

scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3),(hbase,6))
scala>

至此,Standalone模式下 Spark 安装完成。

下一节

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5681476.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存