Hadoop102、Hadoop103、Hadoop104
<2>编写集群分发脚本xsync scp 定义安全拷贝,scp可以实现服务器与服务器之间的数据拷贝。(from server1 to server2)
基本语法scp -r $pdir/$fname $user@$host:$pdir/$fname 命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
*** 作
在Hadoop102服务器,将Hadoop102的文件发送到Hadoop103
远程同步工具,主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别:用rsync做文件的复制要比scp的速度快,rsync只对差异文件做更新。scp是把所有文件都复制过去。
rsync -av $pdir/$fname $user@$host:$pdir/$fname 命令 选项参数 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称
选项参数说明
选项 功能
-a 归档拷贝
-v 显示复制过程
在Hadoop102服务器,将Hadoop102同步到Hadoop103
在root根目录下创建bin目录
新建脚本xsync
#!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do echo ==================== $host ==================== #3. 遍历所有目录,挨个发送 for file in $@ do #4. 判断文件是否存在 if [ -e $file ] then #5. 获取父目录 pdir=$(cd -P $(dirname $file); pwd) #6. 获取当前文件的名称 fname=$(basename $file) ssh $host "mkdir -p $pdir" rsync -av $pdir/$fname $host:$pdir else echo $file does not exists! fi done done<3>配置ssh无密码登录 原理 配置
- 进入目录
cd /root ll -al cd .ssh
- 生成公钥私钥
ssh-keygen -t rsa
3. 将Hadoop102的公钥发送到Hadoop103、Hadoop104
ssh-copy-id hadoop103
4. 测试连接
NameNode和SecondaryNameNode 不要安装在同一台服务器。
ResourceManager也很耗内存,不要和NameNode、SecondaryNameNode配置在同一台服务器上。
Hadoop配置文件分两种,默认配置文件和自定义配置文件,只有用户想修改某一个默认配置时,才需要修改自定义配置文件,更改相应属性值
<1>默认配置文件
core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上
<3>配置集群- 核心配置 core-site.xml
[atguigu@hadoop102 ~]$ cd $HADOOP_HOME/etc/hadoop [atguigu@hadoop102 hadoop]$ vim core-site.xml
fs.defaultFS hdfs://hadoop102:8020 hadoop.tmp.dir /opt/module/hadoop-3.1.3/data hadoop.http.staticuser.user atguigu
- HDFS配置文件 hdfs-site.xml
[atguigu@hadoop102 hadoop]$ vim hdfs-site.xml
dfs.namenode.http-address hadoop102:9870 dfs.namenode.secondary.http-address hadoop104:9868
- YARN配置文件 yarn-site.xml
[atguigu@hadoop102 hadoop]$ vim yarn-site.xml
yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname hadoop103 yarn.nodemanager.env-whitelist JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME
- MapReduce配置文件 mapred-site.xml
[atguigu@hadoop102 hadoop]$ vim mapred-site.xml
4. 在集群上分发配置好的Hadoop配置文件mapreduce.framework.name yarn
[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-3.1.3/etc/hadoop/5. 去103和104上查看文件分发情况
[atguigu@hadoop103 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml [atguigu@hadoop104 ~]$ cat /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml<5>群起集群 1. 配置workers
vim /opt/module/hadoop-3.1.3/etc/Hadoop/workers
hadoop102 hadoop103 hadoop104
执行分发脚本
xsync workers2. 启动集群 #<1> 初始化
如果第一次启动,需要初始化,需要在hadoop102节点格式化NameNode
hdfs namenode -format<2>启动hdfs
在配置hdfs的服务器,即hadoop102,执行启动脚本
sbin/start-dfs.sh
http://hadoop102:9870
在配置yarn的服务器,即hadoop103执行启动脚本
sbin/start-yarn.sh
http://hadoop103:8088
启动hdfs时候
在环境变量中添加以下内容
<6>集群测试 测试hdfs- 新建目录
上传文件
查看文件所在磁盘位置
- 执行命令
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput
- 查看hdfs web 页面结果
查看yarn web页面结果
为了查看程序的历史运行情况,需要配置一下历史服务器。
1.配置mapred-site.xmlvim mapred-site.xml
2. 分发配置mapreduce.jobhistory.address hadoop102:10020 mapreduce.jobhistory.webapp.address hadoop102:19888
xsync mapred-site.xml3. 在hadoop102启动历史服务器
mapred --daemon start historyserver4. 查看效果
应用运行完成之后,将程序运行日志信息上换到HDFS系统上。
方便的查看到程序运行详情,方便开发调试
3. 注意启动日志聚集功能后,需要重新启动NodeManager、ResourceManager和HistoryServer
4. 步骤<1>配置yarn-site.xml
yarn.log-aggregation-enable true yarn.log.server.url http://hadoop102:19888/jobhistory/logs yarn.log-aggregation.retain-seconds 604800
<2>分发配置
xsync mapred-site.xml
<3>重启NodeManager、ResourceManager和HistoryServer
关闭历史服务器:mapred --daemon stop historyserver 关闭yarn :sbin/stop-yarn.sh 启动yarn :sbin/start-yarn.sh 启动 historyserver :mapred --daemon start historyserver
<4>删除HDFS上已经存在的输出文件
5. 执行WordCount程序hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput36. 查看日志 <9>集群启动方式总结 1. 各个模块分开启动/停止(配置ssh是前提) <1>整体启动/停止HDFS系统
start-dfs.sh /stop-dfs.sh<2>整体启动/停止yarn
start-yarn.sh /stop-yarn.sh2. 各个服务组件逐一启动/停止 <1>分别启动/停止HDFS组件
hdfs --daemon start/stop namenode/datanode/secondarynamenode<2>启动/停止YARN
yarn --daemon start/stop resourcemanager/nodemanager<10>两个常用脚本
- Hadoop集群启动/停止脚本
包括HDFS、Yarn、HistoryServer
cd /home/root/bin vim myhadoop.sh
#!/bin/bash if [ $# -lt 1 ] then echo "No Args Input..." exit ; fi case in "start") echo " =================== 启动 hadoop集群 ===================" echo " --------------- 启动 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh" echo " --------------- 启动 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh" echo " --------------- 启动 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver" ;; "stop") echo " =================== 关闭 hadoop集群 ===================" echo " --------------- 关闭 historyserver ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver" echo " --------------- 关闭 yarn ---------------" ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh" echo " --------------- 关闭 hdfs ---------------" ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh" ;; *) echo "Input Args Error..." ;; esac
chmod +x myhadoop.sh
- 查看三台服务器Java程序脚本
cd /home/root/bin vim jpsall.sh
#!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo =============== $host =============== ssh $host jps done
chmod +x jpsall.sh<11>常见端口号说明 <12>集群时间同步设置 1. 说明
如果服务器能连接外网,则不需要时间同步
不能连接外网,则需要时间同步
安装ntpd : yum -y install ntp 查看ntpd状态: systemctl status ntpd 启动ntpd: systemctl start ntpd 开机启动ntpd: systemctl is-enabled ntpd<2>修改hadoop102配置文件
vim /etc/ntp.conf
- 修改授权192.168.10.0-192.168.10.255网段上的所有机器可以从这台机器上查询和同步时间
#restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap 改为restrict 192.168.10.0 mask 255.255.255.0 nomodify notrap
- 修改集群在局域网中,不使用其他互联网上的时间
server 0.centos.pool.ntp.org iburst server 1.centos.pool.ntp.org iburst server 2.centos.pool.ntp.org iburst server 3.centos.pool.ntp.org iburst 改为 #server 0.centos.pool.ntp.org iburst #server 1.centos.pool.ntp.org iburst #server 2.centos.pool.ntp.org iburst #server 3.centos.pool.ntp.org iburst
- 添加当该节点丢失网络连接,依然可以采用本地时间作为时间服务器为集群中的其他节点提供时间同步
server 127.127.1.0 fudge 127.127.1.0 stratum 10
- 修改hadoop102的/etc/sysconfig/ntpd 文件
vim /etc/sysconfig/ntpd
增加内容如下(让硬件时间与系统时间一起同步)
SYNC_HWCLOCK=yes
- 重新启动ntpd服务
systemctl start ntpd
- 设置ntpd服务开机启动
systemctl enable ntpd<3>其他机器配置(必须root用户)
- 关闭所有节点上ntp服务和自启动
[atguigu@hadoop103 ~]$ sudo systemctl stop ntpd [atguigu@hadoop103 ~]$ sudo systemctl disable ntpd [atguigu@hadoop104 ~]$ sudo systemctl stop ntpd [atguigu@hadoop104 ~]$ sudo systemctl disable ntpd
- 在其他机器配置1分钟与时间服务器同步一次
[atguigu@hadoop103 ~]$ sudo crontab -e
编写定时任务如下:
*/1 * * * * /usr/sbin/ntpdate hadoop102
- 修改任意机器时间
[atguigu@hadoop103 ~]$ sudo date -s "2021-9-11 11:11:11"
- 1分钟后查看机器是否与时间服务器同步
[atguigu@hadoop103 ~]$ sudo date
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)