Spark 基础解析（二） spark的安装与配置_随笔

Spark 基础解析（二） spark的安装与配置

一.Spark 安装地址

1.官网地址

2.文档查看地址

3.下载地址

二.Spark 运行模式

三.Spark 安装

1.在官网下载spark安装包

2.上传至Linux环境并解压安装

3.修改配置文件

4.JobHistoryServer配置

5.启动

6.测试

7.Spark Shell

一.Spark 安装地址 1.官网地址 http://spark.apache.org/ 2.文档查看地址 https://spark.apache.org/docs/2.1.1/ 3.下载地址 https://spark.apache.org/downloads.html 二.Spark 运行模式

1.Local 模式：Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。

2.Standalone 模式：构建一个由 Master+Slave 构成的 Spark 集群，Spark 运行在集群中。

3.Yarn 模式：Spark 客户端直接连接Yarn,不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式，主要区别在于：Driver 程序的运行节点。

4.Mesos 模式：Spark 客户端直接连接 Mesos；不需要额外构建 Spark 集群。国内应用比较少，更多的是运用 yarn 调度。

几种模式比较：

三.Spark 安装

这里只以 Standalone 模式为例，其他模式大同小异。

1.在官网下载spark安装包

https://spark.apache.org/downloads.html

2.上传至Linux环境并解压安装

#解压安装到指定目录
tar -zxvf spark-2.1.1-bin-hadoop2.7.tgz -C /opt/module/
#更改文件夹名方便使用
mv /opt/module/spark-2.1.1-bin-hadoop2.7 /opt/module/spark

3.修改配置文件

进入 spark 安装目录下的 conf 文件夹

cd spark/conf/

修改配置文件名称

mv slaves.template slaves
mv spark-env.sh.template spark-env.sh

修改 slave 文件，添加集群中 work 节点：

vim slaves

worker01    #自己集群中worker01节点
worker02    #自己集群中worker02节点
worker03    #自己集群中worker03节点

修改 spark-env.sh 文件，添加如下配置：

vim spark-env.sh

SPARK_MASTER_HOST=Master    #自己集群中Master节点
SPARK_MASTER_PORT=7077

分发 spark 包

scp -r spark/ worker01:/opt/moudule/ #分发到自己集群中各节点
scp -r spark/ worker02:/opt/moudule/
scp -r spark/ worker03:/opt/moudule/

4.JobHistoryServer配置

cd spark/conf

修改 spark-default.conf.template 名称

mv spark-defaults.conf.template spark-defaults.conf

修改 spark-default.conf 文件，开启 Log：

vi spark-defaults.conf

spark.eventLog.enabled true
spark.eventLog.dir hdfs://Master:9000/directory

注意：HDFS 上的目录需要提前存在。

修改 spark-env.sh 文件，添加如下配置：

vi spark-env.sh

export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=30 -Dspark.history.fs.logDirectory=hdfs://Master:9000/directory"

参数描述：

spark.eventLog.dir：Application 在运行过程中所有的信息均记录在该属性指定的路径下 spark.history.ui.port=18080 WEBUI 访问的端口号为 18080 spark.history.fs.logDirectory=hdfs://Master:9000/directory 配置了该属性后，在 start-history-server.sh 时就无需再显式的指定路径，Spark History Server 页面只展示该指定路径下的信息 spark.history.retainedApplications=30 指定保存 Application 历史记录的个数，如果超过这个值，旧的应用程序信息将被删除，这个是内存中的应用数，而不是页面上显示的应用数。分发配置文件

scp -r spark-defaults.conf worker01:/opt/moudule/spark/conf/ #分发到自己集群中各节点
scp -r spark-defaults.conf worker02:/opt/moudule/spark/conf/
scp -r spark-defaults.conf worker03:/opt/moudule/spark/conf/ scp -r spark-env.sh worker01:/opt/moudule/spark/conf/ #分发到自己集群中各节点
scp -r spark-env.sh worker02:/opt/moudule/spark/conf/
scp -r spark-env.sh worker03:/opt/moudule/spark/conf/

启动历史服务

cd spark sbin/start-history-server.sh

5.启动

cd spark

sbin/start-all.sh

各个节点查看jps，如下为成功启动，或者去网页查看： Master：8080 （自己集群master节点）

3330 Jps 3238 Worker 3163 Master

注意：如果遇到 “JAVA_HOME not set” 异常，可以在 sbin 目录下的 spark-config.sh 文件中加入如下配置：

export JAVA_HOME=XXXX

6.测试官方求 PI 案例

bin/spark-submit 
--class org.apache.spark.examples.SparkPi 
--master spark://Master:7077 
--executor-memory 1G 
--total-executor-cores 2 
./examples/jars/spark-examples_2.11-2.1.1.jar 
100

查看历史服务

Master:18080

7.Spark Shell

/opt/module/spark/bin/spark-shell --master spark://Master:7077 --executor-memory 1g --total-executor-cores 2

参数：--master spark://Master:7077 指定要连接的集群的 master

执行 WordCount 程序

scala>sc.textFile("input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3),(hbase,6))
scala>

至此，Standalone模式下 Spark 安装完成。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5681476.html

Spark 基础解析（二） spark的安装与配置

发表评论

评论列表（0条）

Spark 基础解析 （二） spark的安装与配置

发表评论

评论列表（0条）

Spark 基础解析（二） spark的安装与配置