大数据课程

大数据课程,第1张

大数据课程 20211102

大数据的部门的分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C9vEkBWp-1638676630849)(source/image-20211102085409187.png)]

分布式和集群的概念

分布式:将不同的服务部署到不同的机器上

集群:将相同的的服务部署到不同的机器上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OQyiW3wR-1638676630850)(source/image-20211102085940162.png)]

Hadoop大数据框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WZzv89Ph-1638676630850)(source/image-20211102090631944.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I9DoiqEe-1638676630851)(source/image-20211102091357188.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ABzq5Jh9-1638676630852)(source/image-20211102101105266.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6qO9v6d8-1638676630853)(source/image-20211102101450304.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aIPlQikn-1638676630853)(source/image-20211102101506401.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EVNvBytL-1638676630854)(source/image-20211102102042799.png)]

安装虚拟机

 

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDcHluMq-1638676630854)(source/image-20211102114520306.png)]

CentOS防火墙 *** 作 1.查看firewall服务状态
systemctl status firewalld
在运行

如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ijJ8d1yJ-1638676630855)(source/QQ20210208231852.png)]

已停止

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NsTRMd68-1638676630855)(source/QQ20210208232604.png)]

2.查看firewall的状态
firewall-cmd --state
在运行

显示如下:

running
已停止

显示如下:

not running
3.关闭防火墙 关闭
systemctl stop firewalld.service
禁止开机启动
systemctl disable firewalld.service
4.开启防火墙
systemctl start firewalld.service
关闭防火墙
systemctl status firewalld
Hadoop 准备工作:克隆一个新的虚拟机,便于有问题的时候回溯。

克隆关键步骤

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-76hAj8N7-1638676630855)(source/image-20211102141920256.png)]

克隆时候修改虚拟机名称,去掉名称中的空格,将虚拟机位置放到指定目录。手动添加"",添加一个文件夹名,和虚拟机名称一致即可。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eu8k3vtu-1638676630856)(source/image-20211102142239488.png)]

安装hadoop 1. 在根目录下创建program文件夹

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVGyBNgW-1638676630856)(source/image-20211102141326276.png)]

2.在命令行中将当前地址调整到与program同一个路径,拖动hadoop的压缩包到program中

利用pwd命令查看当前的工作路径present working directory

利用ll命令查看当前路径下的所有文件,其实是ls -l的简写

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BJ5Tjuog-1638676630856)(source/image-20211102144037098.png)]

3.解压缩hadoop文件

可以敲击一个字母后用tab键来完成提示补全功能

有问题的做法:用解压缩命令解压

tar -zxvf 文件名

完毕后出现

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNu4HamS-1638676630857)(source/image-20211102145515724.png)]

应该在压缩命令后添加

tar -zxvf 文件名 --no-same-owner

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hFlNx0Vu-1638676630857)(source/image-20211102150444540.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S4eFLYRT-1638676630857)(source/image-20211102144301943.png)]

4.安装vim

https://www.malaoshi.top/show_1IX1WKv7YxuL.html

命令

yum install -y vim

修改主机名

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWtdmUEV-1638676630858)(source/image-20211102151342488.png)]

4.将hadoop1映射到ip地址

集群方式安装,服务器之间 是通过 ssh 服务器ip地址 连接 服务器启动的,所以必须配置 ip地址

虽然是 伪分布式 安装,但本质没变,也是通过 ssh 服务器ip地址 连接 服务器启动的,只是 连接的是 本机ip地址 ,所以必须配置 ip地址

如果输入 ip 地址,不好记,而且输入麻烦,所以 将 主机名hadoop1 映射上 本机ip,在配置文件中,只需要配置 hadoop1 即可,相当于 通过 www.bilibili.com 访问 b站

4.1点击命令,编辑hosts文件呢

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aSDRVchp-1638676630858)(source/image-20211102152633605.png)]

4.2点击o光标就会下来

输入图中的ip地址和hadoop1的对应关系,中间一个空格即可。ip地址之前不能有空格!

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zFvf7rIh-1638676630858)(source/image-20211102152820128.png)]

4.3点击esc,下方的"–插入–",会消失,等待用于输入。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yWIknpM9-1638676630859)(source/image-20211102153150343.png)]

4.4输入:wq回车即可 5.解压缩jdk

拷贝jdk到program文件夹,解压缩

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFKc66oV-1638676630859)(source/image-20211102153344613.png)]

6.修改环境变量 6.1进入路径
cd /etc/profile.d
6.2新建一个大数据自己的环境变量文件
vim bigdata_env.sh
6.3点击i键,变成插入模式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eNn1OfQA-1638676630859)(source/image-20211102153712198.png)]

6.4插入信息
# 配置JAVA_HOME
export JAVA_HOME=/program/jdk1.8.0_202
export PATH=${JAVA_HOME}/bin:$PATH
6.5点击esc,输入:wq,退出编辑器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tSMxqWdr-1638676630859)(source/image-20211102154604692.png)]

6.6让环境变量生效

命令:

source /etc/profile

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yz0JBYAT-1638676630860)(source/image-20211102160549434.png)]

6.7修改hadoop的环境变量

进入到文件中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lo0nD8mV-1638676630860)(source/image-20211102162542194.png)]

修改文件,关闭

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNzbiEZl-1638676630860)(source/image-20211102162148447.png)]

6.8.查看hadoop文件夹内容

常用的命令目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4Jqo4cd-1638676630861)(source/image-20211102162736391.png)]

7.伪分布式部署

https://www.malaoshi.top/show_1IXWLGRUC4S.html

编辑文件时都采用notepad++编辑即可,不需要再在centos中使用vim编辑

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fj0nD4jB-1638676630862)(source/image-20211102163832338.png)]

7.1修改 hadoop-env.sh
修改 hadoop-env.sh

hadoop-env.sh 配置了 hadoop 的环境

在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh

设置 JAVA_HOME

必须 指定 java 绝对路径,否则 启动 NameNode 和 DataNode 会报错

使用 vim 编辑该文件:

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

找到 export JAVA_HOME ,如果该行前面有 # ,就去掉 #,改成

export JAVA_HOME=/program/jdk1.8.0_202
设置用户

在 hadoop3.x 需要设置 当前登录用户,才能执行命令,否则会报错

注意: 需要将下面 root 用户改成 当前登录用户

在文件的 最下面 添加下面配置:

export HDFS_DATANODE_USER=rootexport HDFS_NAMENODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root

执行esc -> :wq,保存并退出

7.2 修改 core-site.xml 文件
修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址

增加下面内容:


	fs.defaultFS
	hdfs://hadoop1:8020

解释: NameNode 部署在 hadoop1 上,所以使用 hadoop1 的 8020 端口

配置HDFS网页登录的静态用户

    hadoop.http.staticuser.user
    root

执行esc -> :wq,保存并退出

7.3 修改 core-site.xml 文件
修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址

增加下面内容:


    fs.defaultFS
    hdfs://hadoop1:8020

解释: NameNode 部署在 hadoop1 上,所以使用 hadoop1 的 8020 端口

设置HDFS存储文件的位置:

    hadoop.tmp.dir
    /program/hadoop-3.0.3/data/tmp

当上传文件到 HDFS 后,HDFS 中的文件保存在:

/devtools/hadoop-3.0.3/data/tmp/dfs/data/current/BP-生成的数字/current/finalized/subdir0/subdir0/
配置HDFS网页登录的静态用户

    hadoop.http.staticuser.user
    root

执行esc -> :wq,保存并退出

7.4修改 hdfs-site.xml
修改 hdfs-site.xml
vim /program/hadoop-3.0.3/etc/hadoop/hdfs-site.xml
指定HDFS副本的数量:

    dfs.replication
    1

执行esc -> :wq,保存并退出

7.5配置免密码ssh

测试该命令发现仍然需要输入密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yK8IJY33-1638676630862)(source/image-20211102172415254.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8txhSWez-1638676630862)(source/image-20211102172607524.png)]

配置免密码ssh

必须配置,否则执行 start-dfs.sh 报错

测试是否可以免密码 ssh 登录
ssh hadoop1

如果提示需要输入密码,表示不能免密码登录,需要执行下面命令

设置密码ssh登录

执行下面命令

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

测试是否可以免密码 ssh 登录

ssh hadoop1

不需要输入密码,就能登录,表示成功,执行下面命令退出

exit

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ebqLM1so-1638676630863)(source/image-20211102172632005.png)]

20211103 tip of the day
  1. 虚拟机的ip地址可能会发生变化,原因是我们用虚拟机时ip地址是自动获取的;真实的服务器是静态的ip,不会变化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RCeR939E-1638676630863)(source/image-20211103083851408.png)]

  1. ssh是指在自己链接自己的时候不需要密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1jWmJhGk-1638676630863)(source/image-20211103084425299.png)]

  1. 节点存储的信息
namenode 
	存储文件的元数据 名字 大小 创建时间等信息
datanode
	存储文件本身的数据

上接7.5

一、格式化NameNode
格式化NameNode

第一次启动时格式化,相当于新安装的硬盘,格式化后才能使用

注意: 以后就不要总格式化,相当于硬盘格式化,原有数据丢失

hdfs namenode -format
hdfs namenode -format

成功如下图:

二、启动 NameNode 和 DataNode
启动 NameNode 和 DataNode
start-dfs.sh

执行结果如下:

红框处 hadoop1 就是主机名

可通过 hostname 命令查看主机名

jps查看是否启动成功

jps是jdk命令

jps

显示如下:

24294 NameNode
24472 DataNode
24698 SecondaryNameNode

表示启动成功
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jtvm5WRY-1638676630864)(source/image-20211103085915539.png)]

访问Namenode的网页版,端口9870

http://192.168.245.129:9870/dfshealth.html#tab-overview

访问Datanode的网页版,端口9864

http://192.168.245.129:9864/datanode.html

三、手动修改windows的hosts文件

windows中点击链接是不会识别主机名hadoop1,需要修改hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NO9AucsA-1638676630865)(source/image-20211103091636250.png)]

hosts文件的路径为

C:WindowsSystem32driversetc

添加对应关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MKbxLu73-1638676630865)(source/image-20211103091816177.png)]

如果遇到权限问题,可以先拷贝hosts到别的地方,然后修改完毕再改回去

四、使用hdfs

点击文件系统[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aV52Ump5-1638676630865)(source/image-20211103092424287.png)]

认识界面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZomiC8mQ-1638676630866)(source/image-20211103092524012.png)]

创建文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qWdksJQ6-1638676630866)(source/image-20211103092728572.png)]

字符d表示目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tWf0QQWh-1638676630866)(source/image-20211103092810308.png)]

网页的用户为root

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6t8Y9pB5-1638676630867)(source/image-20211103092830308.png)]

"-"表示文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h3lIs4Y7-1638676630867)(source/image-20211103092915521.png)]

详情信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g24A5q5F-1638676630867)(source/image-20211103093113295.png)]

注意,windows中的记事本需要另存为utf-8格式,不能只是保存。

副本数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cmrZoLov-1638676630868)(source/image-20211103100459622.png)]

修改centos的hosts后才能下载

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x8KlfrI3-1638676630868)(source/image-20211103101243202.png)]

五、hadoop文件系统常用命令

https://www.malaoshi.top/show_1IXYspWBqJN.html

文件上传功能

命令:

hadoop fs -put /program/3.txt  /yiqi/dazhong/data
hadoop fs -put linux系统中的文件路径 hdfs中的路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVntBQxC-1638676630868)(source/image-20211103102913649.png)]

linux目录和hadoop目录的分析

3.txt对应的是linux的目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QS5L66is-1638676630869)(source/image-20211103103308176.png)]

hdfs中上传文件的存储路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ja6rbszo-1638676630870)(source/image-20211103104029959.png)]

下载(get)
hadoop fs -get /top/malaoshi/data/data.txt /tmp

将 HDFS /top/malaoshi/data/data.txt 文件,下载 linux 系统的 /tmp 目录中

综合来看

hadoop fs -put from to ->从哪里上传,上传到哪里
hadoop fs -get from to ->从哪里下载,下载到哪里

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26Of0ATo-1638676630870)(source/image-20211103104924476.png)]

六、YARN 1.yarn简介
介绍

yarn是一个 资源调度平台,负责为 运算程序 提供 服务器运算资源,相当于一个分布式的 *** 作系统平台,而 MapReduce 等运算程序则相当于运行于 *** 作系统之上的应用程序。

架构

YARN是主从架构,有三大组件:

  • ResourceManager(RM)
  • NodeManager(NM)
  • ApplicationMaster(AM)

其他:

  • Container

注意:

  • client 可以有多个
  • 集群可以运行多个 ApplicationMaster
  • 每个 NodeManager 上可以有多个 Container

ResourceManager(RM)

进程,是集群中的主角色。

整个集群资源的管理者,管理内存、CPU等。
接收客户端提交的作业,通过 NM 分配、管理 各个机器 上的计算资源

NodeManager(NM)

进程,是集群中的从角色

每台PC服务器上都要部署一个
计算资源的管理者
根据 RM 指令,启动 Container 容器,监视容器的资源使用情况
向 RM 汇报 资源使用情况

ApplicationMaster(AM)

单个任务运行的管理者,应用程序内的 老大,负责程序内部各阶段的资源申请、监督程序的执行情况

Container

容器,资源的抽象,相当于 VMware 虚拟机,封装了任务运行所需要的资源,如:内存(占用 1G-8G)、CPU、磁盘、网络等。执行结束后,可自动释放资源

关键交互流程
  1. 客户端提交任务给 ResourceManager
  2. ApplicationMaster向 ResourceManager 申请 内存、CPU 资源
  3. mapreduce作业状态汇报:Container(map task、reduce task) 向 Container(ApplicationMaster),汇报进度,是否完成、错误等
  4. 节点状态汇报:NodeManager 向 ResourceManager 汇报进度

https://www.malaoshi.top/show_1IX28n29YLBN.html

yarn是一个资源调度平台。

2.配置yarn 2.1修改 mapred-site.xml
修改 mapred-site.xml
vim etc/hadoop/mapred-site.xml

指定MapReduce程序运行在Yarn上,配置如下:


    mapreduce.framework.name
    yarn

指定mr运行在yarn上

保存

2.2修改yarn-site.xml
修改yarn-site.xml
vim etc/hadoop/yarn-site.xml

配置如下:

    yarn.nodemanager.aux-services    mapreduce_shuffle

指定获取数据的方式

2.3设置classpath
设置classpath

在hadoop3.x中必须设置,否则执行 hadoop-mapreduce-examples-3.0.3.jar 例子报错

执行下面命令,查看classpath:

hadoop classpath

执行结果如下:

/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*

在 yarn-site.xml 添加如下:

    yarn.application.classpath    /program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*

value 部分是 hadoop classpath 执行的结果

保存

启动
start-yarn.sh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UD1B7kmQ-1638676630871)(source/image-20211103112859139.png)]

测试yarn端口

hadoop1:8088

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sDFePaJL-1638676630871)(source/image-20211103113250677.png)]

2.4 hadoop3.x集群:执行 wordcount 测试 yarn 和 MapReduce
执行 wordcount
hadoop jar /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar wordcount /test /result

解释:

  • hadoop jar:执行jar命令
  • /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar:jar包所在位置,可以是相对路径
  • wordcount:统计词频。还有其他功能
  • /test:读取 hdfs 的目录
  • /result:将结果输出到 hdfs 的目录下

如果输出的结果目录已经存在了,则会报错

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eHv8m1xb-1638676630872)(source/image-20211103135233316.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T1BzzoWP-1638676630872)(source/image-20211103135242564.png)]

通过application可以查看每次 *** 作的状态

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B7VSQTuk-1638676630872)(source/image-20211103140012506.png)]

2.5配置历史任务服务
提出问题

通过访问:http://hadoop1:8088/ ,显示界面如下:

点击上图中的 【History】,不能显示历史信息

如果重启 yarn 服务,上图 web服务 中的记录,就会消失,无法保存历史记录

修改 mapred-site.xml 配置历史服务器

增加下面内容:


    mapreduce.jobhistory.address
    hadoop1:10020

配置 web 地址、端口号(可略)

默认端口为:19888

    mapreduce.jobhistory.webapp.address    hadoop1:19888
2.6配置日志聚集
提出问题

访问 http://localhost:19888/

在历史服务web管理页面中,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G2InoBcK-1638676630873)(source/QQ20210211090554.png)]

点击上图的 【logs】 ,显示界面如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzIEMQqW-1638676630873)(source/QQ20210211091059.png)]

因为没有配置日志聚集服务

修改 yarn-site.xml 启用日志聚集
    yarn.log-aggregation-enable    true
日志保留时间
    yarn.log-aggregation.retain-seconds    604800

解释: 时间单位:秒。604800秒/60/60/24=7天

重启yarn,重启历史服务器

3.修改虚拟机为静态ip
修改虚拟机为静态ip

先敲编辑命令,点击tab键,看提示的是什么

注意:此处的ens33可能因电脑不同而不同,需要查看

vim /etc/sysconfig/network-scripts/ifcfg-ens33

找到网卡的配置文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUEF5qRB-1638676630874)(source/image-20211103145701092.png)]

修改前先备份一个文件

cp /etc/sysconfig/network-scripts/ifcfg-ens33 /etc/sysconfig/network-scripts/ifcfg-ens33.bak

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ld6w8TCj-1638676630874)(source/image-20211103145841470.png)]

查看虚拟机的ip,是相应的ip地址、网关、dns自定义即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6KARL5dO-1638676630874)(source/image-20211103150143012.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YGjoJjO0-1638676630874)(source/image-20211103150150420.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ei3PZXKB-1638676630875)(source/image-20211103150159640.png)]

配置完毕后重启服务

stop-yarn.sh
stop-dfs.sh
reboot now

测试是否可以联通外网

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yq5RRT3k-1638676630875)(source/image-20211103151141179.png)]

启动时发现hadoop1无法找到主机

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1UD838fu-1638676630875)(source/image-20211103151454292.png)]

需要重新编辑hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0clvhRj-1638676630876)(source/image-20211103151514469.png)]

使hosts文件中的ip与设定的ip地址相同

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1n7SQp0n-1638676630876)(source/image-20211103151544581.png)]

修改完ip后即可ping通hadoop1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XVnUUSiu-1638676630876)(source/image-20211103151756346.png)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fw0E24V5-1638676630877)(source/image-20211103152419932.png)]

尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/
C:WindowsSystem32driversetchosts

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FlmXQtVv-1638676630877)(source/image-20211103152718892.png)]

如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入 该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件,该文件用于配置大数据相关的环境变量:

vi bigdata_env.sh

在末尾添加行(使用i命令):

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效
source  /etc/profile
测试
java -version

会显示java的版本信息,如下:

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

1638676630876)]

修改完ip后即可ping通hadoop1

[外链图片转存中…(img-XVnUUSiu-1638676630876)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存中…(img-Fw0E24V5-1638676630877)]

尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/
C:WindowsSystem32driversetchosts

[外链图片转存中…(img-FlmXQtVv-1638676630877)]

如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入 该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件,该文件用于配置大数据相关的环境变量:

vi bigdata_env.sh

在末尾添加行(使用i命令):

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效
source  /etc/profile
测试
java -version

会显示java的版本信息,如下:

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5654674.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存