Hadoop HA 搭建_java

前言环境介绍

虚拟机软件：VirtualBox

Linux 发行版本：Ubuntu 20.04.4

虚拟机核心数：1 core

虚拟机内存：2 GB

JDK 版本：1.8.0_202

Hadoop 版本：3.2.3

ZK 版本：3.8.0

实验机搭建

HA 概述

HA 即高可用，在 Hadoop 中，只有 NN 和 MR 会出现单点故障。所以只需要对 NN 和 MR 做 HA。

DN 和 NM 本身就会起多个，所以不存在单点

2NN 用以整合 Image 和 Edit，做 HA 后，处于 standby 的 NN 也会整合 Image 和 Edit，所以 2NN 就不需要了

HA 原理就是额外起一台机子作冗余备份，当主机挂了，就让备机顶上。按照该想法会存在以下问题：

主备间如何同步 Edit？
如何检测主机下线？
如何做故障转移？

对于问题一：Hadoop 引入 JournalNode 解决。

对于问题二：使用 ZK 来检测机器状态变化。

对于问题三：Hadoop 引入 DFSZKFailoverController 解决。

引入新的部件，为了防止这些也是是单点的，所以也得给他们起多个。

集群规划

按照以上分析，便有以下集群规划

node01	node02	node03
NameNode	NameNode
DFSZKFailoverController	DFSZKFailoverController
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode
ZK	ZK	ZK
ResourceManager		ResourceManager
NodeManager	NodeManager	NodeManager

JDK 环境变量

$ vim /etc/profile
# 拷贝以下内容
export JAVA_HOME=/opt/jdk1.8.0_202
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

# 刷新配置
$ source /etc/profile

$ java -version # 出现以下结果，表示配置成功
java version "1.8.0_202"
Java(TM) SE Runtime Environment (build 1.8.0_202-b08)
Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

# 配置成功后分发
$ xsync /opt/jdk1.8.0_202
$ xsync /etc/profile

分发后，记得给所有机子刷新配置。后续不在做特殊说明。

ZK 集群搭建 ZK 环境变量

$ vim /etc/profile
# 拷贝以下内容
export ZK_HOME=/opt/zookeeper-3.8.0
export PATH=$PATH:$JAVA_HOME/bin:$ZK_HOME/bin

$ xsync /opt/zookeeper-3.8.0
$ xsync /etc/profile

修改 zoo.cfg

$ cd /opt/zookeeper-3.8.0
$ mkdir zkData
$ cd conf
$ mv zoo_sample.cfg zoo.cfg
$ vim zoo.cfg

dataDir=/opt/zookeeper-3.8.0/zkData
server.1=node01:2888:3888
server.2=node02:2888:3888
server.3=node03:2888:3888

$ xsync /opt/zookeeper-3.8.0/conf/zoo.cfg

配置 myid：填写上面 server.x 中对应的数字 x，如：1、2、3。每个机子都不一样

$ vim /opt/zookeeper-3.8.0/zkData/myid

ZK 集群启动

$ zkServer.sh start
$ zkServer.sh status

检查是否启动成功

$ jps # 有以下服务则启动成功
6508 Jps
5647 QuorumPeerMain

HDFS HA 搭建 Hadoop 环境变量

$ vim /etc/profile
# 拷贝以下内容
export HADOOP_HOME=/opt/hadoop-3.2.3
export PATH=$PATH:$JAVA_HOME/bin:$ZK_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

$ xsync /opt/hadoop-3.2.3
$ xsync /etc/profile

修改 core-site.xml

$ vim /opt/hadoop-3.2.3/etc/hadoop/core-site.xml

<configuration>

  <property>
    <name>fs.defaultFSname>
    <value>hdfs://clustervalue>
  property>

  
  <property>
    <name>hadoop.tmp.dirname>
    <value>/opt/hadoop-3.2.3/data/tmpvalue>
  property>
  
  
  <property>
    <name>ha.zookeeper.quorumname>
    <value>node01:2181,node02:2181,node03:2181value>
  property>
configuration>

$ xsync /opt/hadoop-3.2.3/etc/hadoop/core-site.xml

修改 hdfs-site.xml

node01	node02	node03
NameNode	NameNode
JournalNode	JournalNode	JournalNode
DataNode	DataNode	DataNode

$ vim /opt/hadoop-3.2.3/etc/hadoop/hdfs-site.xml

<configuration>

  <property>
    <name>dfs.nameservicesname>
    <value>clustervalue>
  property>

  
  <property>
    <name>dfs.ha.namenodes.clustername>
    <value>nn1,nn2value>
  property>

  
  <property>
    <name>dfs.namenode.rpc-address.cluster.nn1name>
    <value>node01:9000value>
  property>

  
  <property>
    <name>dfs.namenode.rpc-address.cluster.nn2name>
    <value>node02:9000value>
  property>

  
  <property>
    <name>dfs.namenode.http-address.cluster.nn1name>
    <value>node01:50070value>
  property>

  
  <property>
    <name>dfs.namenode.http-address.cluster.nn2name>
    <value>node02:50070value>
  property>

  
  <property>
    <name>dfs.namenode.shared.edits.dirname>
    <value>qjournal://node01:8485;node02:8485;node03:8485/clustervalue>
  property>

  
  <property>
    <name>dfs.ha.fencing.methodsname>
    <value>
      sshfence
      shell(/bin/true)
    value>
  property>

  
  <property>
    <name>dfs.ha.fencing.ssh.private-key-filesname>
    <value>~/.ssh/id_rsavalue>
  property>

  
  <property>
    <name>dfs.journalnode.edits.dirname>
    <value>/opt/hadoop-3.2.3/data/jnvalue>
  property>

  
  <property>
    <name>dfs.permissions.enablename>
    <value>falsevalue>
  property>

  
  <property>
    <name>dfs.client.failover.proxy.provider.clustername>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvidervalue>
  property>

  
  <property>
    <name>dfs.ha.automatic-failover.enabledname>
    <value>truevalue>
  property>
configuration>

$ xsync /opt/hadoop-3.2.3/etc/hadoop/hdfs-site.xml

修改 hdfs-env.sh

$ vim /opt/hadoop-3.2.3/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/opt/jdk1.8.0_202
$ xsync /opt/hadoop-3.2.3/etc/hadoop/hadoop-env.sh

修改 start-dfs.sh 和 stop-dfs.sh

$ vim /opt/hadoop-3.2.3/sbin/start-dfs.sh # stop-dfs.sh 同理
# 开头添加以下内容 
HDFS_DATANODE_USER=root
HDFS_NAMENODE_USER=root
HDFS_JOURNALNODE_USER=root
HDFS_ZKFC_USER=root

$ xsync /opt/hadoop-3.2.3/sbin/start-dfs.sh

HDFS 集群启动

所有节点

$ hadoop-daemon.sh start journalnode
$ hadoop-daemon.sh start datanode

node01

$ hdfs namenode -format
$ hadoop-daemon.sh start namenode

node02

$ hdfs namenode -bootstrapStandby
$ hadoop-daemon.sh start namenode

HA 自动切换

启用自动切换

关闭 hdfs 服务 stop-dfs.sh
保证 ZK 集群已启动，初始化 HA 在 ZK 的状态 hdfs zkfc -formatZK
启动 hdfs 服务 start-dfs.sh
为 NN 所在节点启动 DFSZK Failover Controller， hadoop-daemon.sh start zkfc。先启动的为 active

测试 HA 自动切换

$ hdfs haadmin -getServiceState nn1
standby
$ hdfs haadmin -getServiceState nn2
active
$ jps # 因为nn2是活跃的，所以杀掉nn2，查看是否自动切换为nn1
3684 QuorumPeerMain
19748 DFSZKFailoverController
19334 NameNode
19847 DataNode
19207 JournalNode
19961 Jps
$ kill -9 19334
$ hdfs haadmin -getServiceState nn1
active

YARN HA 搭建修改 yarn-site.xml

node01	node02	node03
ResourceManager		ResourceManagerr
NodeManager	NodeManager	NodeManage

$ vim /opt/hadoop-3.2.3/etc/hadoop/yarn-site.xml

<configuration>
  <property>
    <name>yarn.nodemanager.aux-servicesname>
    <value>mapreduce_shufflevalue>
  property>

  
  <property>
    <name>yarn.resourcemanager.ha.enabledname>
    <value>truevalue>
  property>

  
  <property>
    <name>yarn.resourcemanager.cluster-idname>
    <value>cluster-yarn1value>
  property>

  <property>
    <name>yarn.resourcemanager.ha.rm-idsname>
    <value>rm1,rm2value>
  property>

  <property>
    <name>yarn.resourcemanager.hostname.rm1name>
    <value>node01value>
  property>

  <property>
    <name>yarn.resourcemanager.hostname.rm2name>
    <value>node03value>
  property>

   
  <property>
    <name>yarn.resourcemanager.zk-addressname>
    <value>node01:2181,node02:2181,node03:2181value>
  property>

   
  <property>
    <name>yarn.resourcemanager.recovery.enabledname>
    <value>truevalue>
  property>

   
  <property>
    <name>yarn.resourcemanager.store.classname> 
    <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
  property>
configuration>

$ xsync /opt/hadoop-3.2.3/etc/hadoop/yarn-site.xml

修改 start-yarn.sh 和 stop-yarn.sh

$ vim /opt/hadoop-3.2.3/sbin/start-yarn.sh # stop-yarn.sh 同理
# 开头添加以下内容
YARN_RESOURCEMANAGER_USER=root
YARN_NODEMANAGER_USER=root

$ xsync /opt/hadoop-3.2.3/sbin/start-yarn.sh

YARN 集群启动

$ start-yarn.sh
# 以下为YARN HA自动切换测试
$ yarn rmadmin -getServiceState rm1
standby
$ yarn rmadmin -getServiceState rm2
active
$ jps # 因为rm2是活跃的，所以杀掉rm2，查看是否自动切换为rm1
11264 DataNode
12852 JournalNode
16040 ResourceManager
16281 Jps
3167 QuorumPeerMain
$ kill -9 16040
$ yarn rmadmin -getServiceState rm1
active

配置历史服务器修改 mapred-site.xml

$ vim $HADOOP_HOME/etc/hadoop/mapred-site.xml

添加以下内容

<property>
  <name>mapreduce.jobhistory.addressname>
  <value>node01:10020value>
property>

<property>
  <name>mapreduce.jobhistory.webapp.addressname>
  <value>node01:19888value>
property>

<property>
  <name>mapreduce.jobhistory.done-dirname>
  <value>/history/donevalue>
property>

<property>
  <name>mapreduce.jobhistory.intermediate-done-dirname>
  <value>/history/done_intermediatevalue>
property>

$ xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

修改 yarn-site.xml

$ vim $HADOOP_HOME/etc/hadoop/yarn-site.xml

添加以下内容


<property>
  <name>yarn.log-aggregation-enablename>
  <value>truevalue>
property>


<property>
  <name>yarn.log.server.urlname>
  <value>http://node01:19888/jobhistory/logsvalue>
property>


<property>
  <name>yarn.log-aggregation.retain-secondsname>
  <value>604800value>
property>

$ xsync $HADOOP_HOME/etc/hadoop/yarn-site.xml

启动历史服务器

$ stop-all.sh
$ start-all.sh
$ mr-jobhistory-daemon.sh start historyserver

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/793421.html

Hadoop HA 搭建

发表评论

评论列表（0条）