[大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)

[大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建),第1张

[大数据技术与应用省赛学习记录二]——模块一(HADOOP完全分布式集群搭建)

**在 *** 作前,先梳理一下HADOOP完全分布式需要做些什么,不然像无头的苍蝇一样,永远不知道做什么。因为我本人比赛是一台服务器Centos 7,与三台客户端Ubuntu 18.04,所以以物理机的角度来写下之后文章。
**

大数据平台环境搭建——HADOOP完全分布式集群搭建 一、网络配置 1.修改服务器与客户端的静态IP
  • Centos

有两种可更改的方式

1.图形页面更改

Centos图形界面右上角,找到Wired Connected
点击Wired中的齿轮图案,出现下图
修改参数Adress、Netmask、Gateway、DNS;单击Apply,在回到第一个图点Turn off,过一会再单击Turn on 重启网卡。

  • 2.终端文件编辑更改
[hadoop@master ~]$ vim /etc/sysconfig/network-scripts/ifcfg-xxxx
#打开后进入ifcfg-xxxx文件
添加如下参数
BOOTPROTO=dhcp #修改为static
ONBOOT=no #修改为yes
IPADDR=你的IP地址
NETMASK=255.255.255.0
GATEWAY=你的网关地址
DNS1=8.8.8.8                            
                                                                                                                                                                                                       
  • ubuntu
  • 1.图形界面更改同centos原理;
  • 2.终端代码更改

过程中遇到的问题:在修改文件中使用上下键打出ABCD
解决方案:终端中输入以下代码;

[hadoop@master ~]$ sudo cp /etc/vim/vimrc ~/.vimrc
[hadoop@master ~]$ sudo vi /etc/network/interfaces  #打开配置文件
打开后添加以下内容:
# interfaces(5) file used by ifup(8) and ifdown(8)
auto lo
iface lo inet loopback
auto ensxx ##你的网络端口名称
iface ensxx inet static#改为静态
address 192.168.xxx.xxx
netmask 255.255.255.0
gateway 192.168.xxx.x

修改后,重启网卡

[hadoop@master ~]$ systemctl restart network
[hadoop@master ~]$ ifconfig #查看确认是否配置成功
提前关闭防火墙(后面可以省好多事)
  • centos
[hadoop@master ~] systemctl stop firewalld.service #关闭当前
systemctl disable firewalld.service #关闭自启动
systemctl status  firewalld.service #查看当前状态

  • ubuntu 把上述中的firewalld换成ufw即可
二、SSH安装
[hadoop@master ~]$ sudo vim /etc/host 
#把客户端的主机名与IP地址写进去 格式: 主机名 IP地址
[hadoop@master ~]$ ssh localhost
[hadoop@master ~]$ cd ~/.ssh
[hadoop@master .ssh]$ ssh-keygen -t rsa
[hadoop@master .ssh]$ cat id_rsa.pub >> authorized_keys
[hadoop@master .ssh]$ ssh-copy-id 主机名/IP地址 #连接需要与master互通的主机
三、JDK安装及配置

相关安装包链接可以参考上一个帖子,里面都有相关linux版本需要的软件;
【大数据技术与应用省赛学习记录一】——软件准备

1.压缩tar包
[hadoop@master Downloads]$ tar -zxf ./jdk-8u311-linux-x64.tar.gz -C /usr/lib
#-z, - gzip, - gunzip, - ungzip通过gzip过滤存档
#-x, --extract, --get从存档中提取文件
#-f, --file = ARCHIVE 使用存档文件或设备存档
#-C,--directory=DIR 更改到目录DIR
2.配置全局
[hadoop@master Downloads]sudo vim /etc/profile
添加如下内容,添置完后 Esc : wq;
export JAVA_HOME=/usr/lib/jdk1.8.0_162
export jRE_HOME=$JAVA_HOME/jre
export PATH=${JAVA_HOME}/bin

测试是否安装及配置成功

[hadoop@master Downloads] java -version
java version "1.8.0_162"
Java(TM) SE Runtime Environment (build 1.8.0_162-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.162-b12, mixed mode)

[hadoop@master Downloads] echo $JAVA_HOME
/usr/lib/jdk1.8.0_162
四、HADOOP安装及配置 DatanodeNamenodeSecondaryNameNodehadoop1masterhadoop1hadoop2hadoop3 NodeManagerResourceManagerhadoop1masterhadoop2hadoop3 1.下载并安装Hadoop
[hadoop@master Downloads] cd /
[hadoop@master /] sudo mkdir software
[hadoop@master /] sudo chown -R hadoop:hadoop ./software
[hadoop@master /] cd Downloads
[hadoop@master Downloads] tar -zxf ./hadoop-2.7.7.tar.gz -C /software
[hadoop@master Downloads] sudo mv /software/hadoop2.7.7 hadoop
2.配置全局变量
[hadoop@master Downloads] vim /etc/profile
添置以下内容:
export HADOOP_HOME=/software/hadoop
export PATH=export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin

:wq 保存退出后查看是否安装成功

[hadoop@master Downloads] echo $HADOOP_HOME
3.配置hadoop相关文件

在hadoop/etc/hadoop目录下

  1. core-site.xml
#在添置以下内容

	fs.defaultFS
	hdfs://master:9000
	#更换成自己的IP地址或主机名


	hadoop.tmp.dir
	/software/hadoop/tmp/dfs/data
	#更换为自己安装hadoop目录下的相关文件夹,文件夹需自己创建


	ha.zookeeper.quorum
	hadoop1:2181,hadoop2:2181,hadoop3:2181
	#后面配置zookeeper,开启kafka及flume需要。


2.hdfs-site.xml

#在内添置以下内容

	dfs.replication
	#备份数,我的开发端有三个。
	3


	dfs.namenode.name.dir
	/software/hadoop/tmp/dfs/name
#namenode节点name文件存放处


	dfs.datanode.data.dir
	/software/hadoop/tmp/dfs/data
	#datanode节点data文件存放处


	dfs.namenode.http.address
	master:50070
	#web端页面namenode端口指定


	dfs.namenode.secondary.http-address
	hadoop1:50090
		#web端页面secondarynamenode端口指定

3.yarn-site.xml

#在内添置以下内容

yarn.nodemanager.aux-services
mapreduce_shuffle


yarn.resourcemanager.hostname
master
#指定resourcemanager在客户端上


	yarn.resourcemanager.address
	192.168.9.105
	#resoucemanger所在主机IP地址


	yarn.log-aggregation-enable
	true


	yarn.log-aggregation.retain-seconds
	604800


	yarn.nodemanager.vmem-pmem-ratio
	3.0


	yarn.nidemanager.vmem-check-enabled
	false


	mapred.child.java.opts
	-Xmx2056m


	yarn.log.server.url
	http://master:19888/jobhistory/logs
	#指定yarn历史日志端口号


   yarn.resourcemanager.webapp.address
   master:8088
   	#指定RM网页端口号


   yarn.resourcemanager.webapp.https.address
   master:8090


	yarn.nodemanager.resource.memory-mb
  10240


  yarn.scheduler.minimum-allocation-mb
  1024


  yarn.scheduler.maximum-allocation-mb
  10240

4.mapred-site.xml

#在内添置以下内容

mapreduce.framework.name
yarn
#MR的处理框架,一般为yarn;


mapreduce.jobhistory.address
master:10020


mapreduce.jobhistory.webapp.address
master:19888
#MR(hadoop)历史日志端口

5.hadoop-env.sh &&6.yarn-env.sh

export JAVA_HOME=/usr/lib/jdk1.8.0_162

7.slaves(你的集群)

hadoop1
hadoop2
hadoop3

配置完hadoop需要分发至slave上
这里建议用户名统一为hadoop(实在是太省事情了)

[hadoop@master ~] scp -r /software/hadoop 主机名:/所要存放的位置

4.初始化HADOOP(集群所有都要格式化哦)

[hadoop@master ~]hadoop namenode -formot

内容中出现“successfully formatted”即为格式化成功

5.启动与关闭HADOOP(比较懒的做法,嘿嘿)

[hadoop@master ~] start-all.sh
[hadoop@master ~] stop-all.sh
[hadoop@master sbin] mr-jobhistory-daemon.sh start historyserver
#启动历史服务器:在hadoop/sbin目录下启动

如果出现未找到命令,看看你的全局是否配置,或是配置后没有source。

6.启动后查看进程

[hadoop@master ~] jps

7.网页端查看

http://IP地址/主机名(配置了hosts文件可以):端口号
HadoopNamenode:50070
JobHistory:19888
YarnreSourcemanager:8088


这一期的HADOOP完全分布式就先写到这里啦,有什么错误及添加的地方欢迎大家评论或者私信我,我会持续更新的。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5572640.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-14
下一篇 2022-12-14

发表评论

登录后才能评论

评论列表(0条)

保存