(1)解压安装包到/usr/local下。
tar -zxf /opt/spark-1.6.3-bin-hadoop2.6.tgz -C /usr/local
(2)进入/usr/local/spark-1.6.3-bin-hadoop2.6/conf。
cd /usr/local/spark-1.6.3-bin-hadoop2.6/conf
3)配置spark-env.sh文件,复制spark-env.sh.template文件,重命名为spark-env.sh。
配置spark-env.sh文件
Java的路径:
JAVA_HOME=/usr/java/jdk1.8.0_151
hadoop的路径:
HADOOP_CONF_DIR=/usr/local/hadoop-2.6.5/etc/hadoop
spark主节点的ip:
SPARK_MASTER_IP=master(或者是ip地址)
spark主节点的端口号:
SPARK_MASTER_PORT=7077
设置每个节点能给予executor的所有内存:
SPARK_WORKER_MEMORY=512m
设置每台机器所用的核数:
SPARK_WORKER_CORES=1
每个executor的内存:
SPARK_EXECUTOR_MEMORY=512m
设置每个executor的核数:
SPARK_EXECUTOR_CORES=1
每个节点的实例(设置每个节点worker能够启动的实例的个数)
SPARK WORKER INSTANCES=1
配置slaves文件,复制slaves.template文件,重命名为slaves。
cp slaves.template slaves
# 在文件中配置如下内容:
slave1
slave2
(5)配置spark-defaults.conf文件,复制spark-defaults.conf.template文件,重命名为spark-defaults.conf
# 在配置文件中添加如下内容:
spark.master spark://master:7077 spark主节点所在机器的端口,spark://默认写法
spark.eventLog.enabled true 是否打开任务日志功能,默认为false
spark.eventLog.dir hdfs://master:8020/spark-logs 任务日志默认存放位置,配置为一个HDFS路径即可
(6)将配置好的Spark目录同步到子节点。
scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave1:/usr/local
scp -r /usr/local/spark-1.6.3-bin-hadoop2.6/ slave2:/usr/local
(7)创建spark-logs目录
hdfs dfs -mkdir /spark-logs
(8)修改环境变量,在各节点的/etc/profile下添加Spark对应路径。
export SPARK_HOME=/usr/local/spark-1.6.3-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin
运行“source /etc/profile”使配置生效。
’‘’
启动spark:
cd到spark的安装路径如:cd /usr/local/spark-2.4.0-bin-hadoop2.6/
start-all.sh
start-history-server.sh hdfs://master:8020/spark-logs
关闭spark:
cd到spark的安装路径如:cd /usr/local/spark-2.4.0-bin-hadoop2.6/
stop-all.sh
stop-history-server.sh hdfs://master:8020/spark-logs
‘’‘
(9)jps检查三个节点是否已开启Hadoop集群,未开启则在master通过命令开启。
$HADOOP_HOME/sbin/start-all.sh
第十步:首先cd $SPARK_HOME进入spark,接着cd进入sbin目录
接着启动 ./start-all.sh
查看jps,成功启动master则表示成功
(11)在浏览器查看,检查能否正常监控,两个子节点状态是否与要求一致。
http://master:8080
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)