Hadoop与spark集群安装

Hadoop与spark集群安装,第1张

jdk:jdk1.8.0

hadoop:hadoop-2.10.1

spark:spark-3.0.1

将jdk解压缩

之后在/etc/profile里面添加环境变量

注意每次都要source /etc/profile

解压Hadoop

并配置环境变量,将Hadoop的路径写入~/.bashrc

需要source ~/.bashrc

修改hostname,

sudo vim  /etc/hostname

修改hosts的名字

sudo vim  /etc/hosts

以下是master的hostname和hosts

slave1和slave2的hostname也需要改。

配置免密登录

ssh-keygen -t rsa      # 一直按回车就可以薯悉

cat ./id_rsa.pub >>./authorized_keys

需要修改Hadoop安装目录下/etc/hadoop中的5个配置文件。slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml

<configuration>

<property>

                <name>fs.defaultFS</name>

                <value>hdfs://master:9000</value>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/home/zkx/hadoop-2.10.1/tmp</value>

                <description>Abase for other temporary directories.</description>

        </property>

</configuration>

这文件记录备份相关。我们有2个 slave 节点,因此可以将 dfs.replication 的值设为 2

<configuration>

<property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>master:50090</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <数拆乎value>2</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/home/zkx/hadoop-2.10.1/tmp/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/home/zkx/hadoop-2.10.1/tmp/dfs/data</value>

        </property>

</configuration>

如果是mapred-site.xml.template ,此时需要重命名

<configuration>

<property>

                <name>mapreduce.framework.name<御让/name>

                <value>yarn</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.address</name>

                <value>master:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>master:19888</value>

        </property>

</configuration>

<configuration>

<!-- Site specific YARN configuration properties -->

<property>

                <name>yarn.resourcemanager.hostname</name>

                <value>master</value>

        </property>

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

</configuration>

先删除logs和tmp里的文件

之后压缩

tar -zcf ~/hadoop.master.tar.gz ./hadoop-2.10.1

使用scp命令发送到slave1和slave2

scp ./hadoop.master.tar.gz zkx@slave1:/home/zkx

之后解压

master节点格式化

hdfs namenode -format # 首次运行需要执行初始化,之后不需要

启动和结束脚本在sbin目录下

start-all.sh

mr-jobhistory-daemon.sh start historyserver #启动历史服务器

jps 查看master和slave

worker是spark的,不用参考

hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.1.jar pi 100 1000

结果如下

http://spark.apache.org/docs/latest/index.html

解压压缩包

目录如下

修改conf下的spark-env.sh

export SPARK_DIST_CLASSPATH=$(/home/zkx/hadoop-2.10.1/bin/hadoop classpath)

export JAVA_HOME=/home/zkx/jdk1.8.0_241

SPARK_MASTER_HOST=master

SPARK_MASTER_PORT=7077

修改slaves

之后将整个目录压缩,scp发送到slave上,解压

启动spark

./sbin/start-all.sh

之后打开浏览器输入maste的spark的URL,节点的端口是8080。

可以看到有三个worker

安装hadoop高可用集群难吗肆或:不难

一、Hadoop系统应裂岩伍用之安装准备(一)(超详细步骤指导 *** 作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)

一、Hadoop系统应用之安装准备(二)(超详细步骤指导 *** 枣锋作,WIN10,VMware Workstation 15.5 PRO,CentOS-6.7)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12393362.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-25
下一篇 2023-05-25

发表评论

登录后才能评论

评论列表(0条)

保存