大数据课程_随笔

大数据课程 20211102

大数据的部门的分类

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C9vEkBWp-1638676630849)(source/image-20211102085409187.png)]

分布式和集群的概念

分布式：将不同的服务部署到不同的机器上

集群：将相同的的服务部署到不同的机器上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OQyiW3wR-1638676630850)(source/image-20211102085940162.png)]

Hadoop大数据框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WZzv89Ph-1638676630850)(source/image-20211102090631944.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I9DoiqEe-1638676630851)(source/image-20211102091357188.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ABzq5Jh9-1638676630852)(source/image-20211102101105266.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6qO9v6d8-1638676630853)(source/image-20211102101450304.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aIPlQikn-1638676630853)(source/image-20211102101506401.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EVNvBytL-1638676630854)(source/image-20211102102042799.png)]

安装虚拟机

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDcHluMq-1638676630854)(source/image-20211102114520306.png)]

CentOS防火墙 *** 作 1.查看firewall服务状态

systemctl status firewalld

在运行

如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ijJ8d1yJ-1638676630855)(source/QQ20210208231852.png)]

已停止

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NsTRMd68-1638676630855)(source/QQ20210208232604.png)]

2.查看firewall的状态

firewall-cmd --state

在运行

显示如下：

running

已停止

显示如下：

not running

3.关闭防火墙关闭

systemctl stop firewalld.service

禁止开机启动

systemctl disable firewalld.service

4.开启防火墙

systemctl start firewalld.service

关闭防火墙

systemctl status firewalld

Hadoop 准备工作：克隆一个新的虚拟机，便于有问题的时候回溯。

克隆关键步骤

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-76hAj8N7-1638676630855)(source/image-20211102141920256.png)]

克隆时候修改虚拟机名称，去掉名称中的空格，将虚拟机位置放到指定目录。手动添加""，添加一个文件夹名，和虚拟机名称一致即可。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eu8k3vtu-1638676630856)(source/image-20211102142239488.png)]

安装hadoop 1. 在根目录下创建program文件夹

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVGyBNgW-1638676630856)(source/image-20211102141326276.png)]

2.在命令行中将当前地址调整到与program同一个路径，拖动hadoop的压缩包到program中

利用pwd命令查看当前的工作路径present working directory

利用ll命令查看当前路径下的所有文件，其实是ls -l的简写

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BJ5Tjuog-1638676630856)(source/image-20211102144037098.png)]

3.解压缩hadoop文件

可以敲击一个字母后用tab键来完成提示补全功能

有问题的做法：用解压缩命令解压

tar -zxvf 文件名

完毕后出现

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNu4HamS-1638676630857)(source/image-20211102145515724.png)]

应该在压缩命令后添加

tar -zxvf 文件名 --no-same-owner

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hFlNx0Vu-1638676630857)(source/image-20211102150444540.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S4eFLYRT-1638676630857)(source/image-20211102144301943.png)]

4.安装vim

https://www.malaoshi.top/show_1IX1WKv7YxuL.html

命令

yum install -y vim

修改主机名

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWtdmUEV-1638676630858)(source/image-20211102151342488.png)]

4.将hadoop1映射到ip地址

集群方式安装，服务器之间是通过 ssh 服务器ip地址连接服务器启动的，所以必须配置 ip地址

虽然是伪分布式安装，但本质没变，也是通过 ssh 服务器ip地址连接服务器启动的，只是连接的是本机ip地址，所以必须配置 ip地址

如果输入 ip 地址，不好记，而且输入麻烦，所以将主机名hadoop1 映射上本机ip，在配置文件中，只需要配置 hadoop1 即可，相当于通过 www.bilibili.com 访问 b站

4.1点击命令，编辑hosts文件呢

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aSDRVchp-1638676630858)(source/image-20211102152633605.png)]

4.2点击o光标就会下来

输入图中的ip地址和hadoop1的对应关系，中间一个空格即可。ip地址之前不能有空格！

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zFvf7rIh-1638676630858)(source/image-20211102152820128.png)]

4.3点击esc，下方的"–插入–"，会消失，等待用于输入。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yWIknpM9-1638676630859)(source/image-20211102153150343.png)]

4.4输入:wq回车即可 5.解压缩jdk

拷贝jdk到program文件夹，解压缩

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFKc66oV-1638676630859)(source/image-20211102153344613.png)]

6.修改环境变量 6.1进入路径

cd /etc/profile.d

6.2新建一个大数据自己的环境变量文件

vim bigdata_env.sh

6.3点击i键，变成插入模式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eNn1OfQA-1638676630859)(source/image-20211102153712198.png)]

6.4插入信息

# 配置JAVA_HOME
export JAVA_HOME=/program/jdk1.8.0_202
export PATH=${JAVA_HOME}/bin:$PATH

6.5点击esc，输入:wq，退出编辑器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tSMxqWdr-1638676630859)(source/image-20211102154604692.png)]

6.6让环境变量生效

命令:

source /etc/profile

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yz0JBYAT-1638676630860)(source/image-20211102160549434.png)]

6.7修改hadoop的环境变量

进入到文件中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lo0nD8mV-1638676630860)(source/image-20211102162542194.png)]

修改文件，关闭

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNzbiEZl-1638676630860)(source/image-20211102162148447.png)]

6.8.查看hadoop文件夹内容

常用的命令目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4Jqo4cd-1638676630861)(source/image-20211102162736391.png)]

7.伪分布式部署

https://www.malaoshi.top/show_1IXWLGRUC4S.html

编辑文件时都采用notepad++编辑即可，不需要再在centos中使用vim编辑

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fj0nD4jB-1638676630862)(source/image-20211102163832338.png)]

7.1修改 hadoop-env.sh

修改 hadoop-env.sh
hadoop-env.sh 配置了 hadoop 的环境

在 $HADOOP_HOME/etc/hadoop/hadoop-env.sh
设置 JAVA_HOME
必须指定 java 绝对路径，否则启动 NameNode 和 DataNode 会报错

使用 vim 编辑该文件：
vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
找到 export JAVA_HOME ，如果该行前面有 # ，就去掉 #，改成
export JAVA_HOME=/program/jdk1.8.0_202
设置用户
在 hadoop3.x 需要设置当前登录用户，才能执行命令，否则会报错

注意：需要将下面 root 用户改成当前登录用户

在文件的最下面添加下面配置：
export HDFS_DATANODE_USER=rootexport HDFS_NAMENODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root
执行esc -> :wq，保存并退出

7.2 修改 core-site.xml 文件

修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址
增加下面内容：
	fs.defaultFS
	hdfs://hadoop1:8020
解释： NameNode 部署在 hadoop1 上，所以使用 hadoop1 的 8020 端口
配置HDFS网页登录的静态用户
    hadoop.http.staticuser.user
    root
执行esc -> :wq，保存并退出

7.3 修改 core-site.xml 文件

修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址
增加下面内容：
    fs.defaultFS
    hdfs://hadoop1:8020
解释： NameNode 部署在 hadoop1 上，所以使用 hadoop1 的 8020 端口
设置HDFS存储文件的位置：
    hadoop.tmp.dir
    /program/hadoop-3.0.3/data/tmp
当上传文件到 HDFS 后，HDFS 中的文件保存在：
/devtools/hadoop-3.0.3/data/tmp/dfs/data/current/BP-生成的数字/current/finalized/subdir0/subdir0/
配置HDFS网页登录的静态用户
    hadoop.http.staticuser.user
    root
执行esc -> :wq，保存并退出

7.4修改 hdfs-site.xml

修改 hdfs-site.xml
vim /program/hadoop-3.0.3/etc/hadoop/hdfs-site.xml
指定HDFS副本的数量：
    dfs.replication
    1
执行esc -> :wq，保存并退出

7.5配置免密码ssh

测试该命令发现仍然需要输入密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yK8IJY33-1638676630862)(source/image-20211102172415254.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8txhSWez-1638676630862)(source/image-20211102172607524.png)]

配置免密码ssh
必须配置，否则执行 start-dfs.sh 报错
测试是否可以免密码 ssh 登录
ssh hadoop1
如果提示需要输入密码，表示不能免密码登录，需要执行下面命令
设置密码ssh登录
执行下面命令
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys
测试是否可以免密码 ssh 登录
ssh hadoop1
不需要输入密码，就能登录，表示成功，执行下面命令退出
exit

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ebqLM1so-1638676630863)(source/image-20211102172632005.png)]

20211103 tip of the day

虚拟机的ip地址可能会发生变化，原因是我们用虚拟机时ip地址是自动获取的；真实的服务器是静态的ip，不会变化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RCeR939E-1638676630863)(source/image-20211103083851408.png)]

ssh是指在自己链接自己的时候不需要密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1jWmJhGk-1638676630863)(source/image-20211103084425299.png)]

节点存储的信息

namenode 
	存储文件的元数据 名字 大小 创建时间等信息
datanode
	存储文件本身的数据

上接7.5

一、格式化NameNode

格式化NameNode
第一次启动时格式化，相当于新安装的硬盘，格式化后才能使用

注意：以后就不要总格式化，相当于硬盘格式化，原有数据丢失
hdfs namenode -format
hdfs namenode -format
成功如下图：

二、启动 NameNode 和 DataNode

启动 NameNode 和 DataNode
start-dfs.sh
执行结果如下：

红框处 hadoop1 就是主机名

可通过 hostname 命令查看主机名
jps查看是否启动成功
jps是jdk命令
jps
显示如下：
24294 NameNode
24472 DataNode
24698 SecondaryNameNode
表示启动成功
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jtvm5WRY-1638676630864)(source/image-20211103085915539.png)]

访问Namenode的网页版，端口9870

http://192.168.245.129:9870/dfshealth.html#tab-overview

访问Datanode的网页版，端口9864

http://192.168.245.129:9864/datanode.html

三、手动修改windows的hosts文件

windows中点击链接是不会识别主机名hadoop1，需要修改hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NO9AucsA-1638676630865)(source/image-20211103091636250.png)]

hosts文件的路径为

C:WindowsSystem32driversetc

添加对应关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MKbxLu73-1638676630865)(source/image-20211103091816177.png)]

如果遇到权限问题，可以先拷贝hosts到别的地方，然后修改完毕再改回去

四、使用hdfs

点击文件系统[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aV52Ump5-1638676630865)(source/image-20211103092424287.png)]

认识界面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZomiC8mQ-1638676630866)(source/image-20211103092524012.png)]

创建文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qWdksJQ6-1638676630866)(source/image-20211103092728572.png)]

字符d表示目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tWf0QQWh-1638676630866)(source/image-20211103092810308.png)]

网页的用户为root

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6t8Y9pB5-1638676630867)(source/image-20211103092830308.png)]

"-"表示文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h3lIs4Y7-1638676630867)(source/image-20211103092915521.png)]

详情信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g24A5q5F-1638676630867)(source/image-20211103093113295.png)]

注意，windows中的记事本需要另存为utf-8格式，不能只是保存。

副本数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cmrZoLov-1638676630868)(source/image-20211103100459622.png)]

修改centos的hosts后才能下载

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x8KlfrI3-1638676630868)(source/image-20211103101243202.png)]

五、hadoop文件系统常用命令

https://www.malaoshi.top/show_1IXYspWBqJN.html

文件上传功能

命令：

hadoop fs -put /program/3.txt  /yiqi/dazhong/data
hadoop fs -put linux系统中的文件路径 hdfs中的路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVntBQxC-1638676630868)(source/image-20211103102913649.png)]

3.txt对应的是linux的目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QS5L66is-1638676630869)(source/image-20211103103308176.png)]

hdfs中上传文件的存储路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ja6rbszo-1638676630870)(source/image-20211103104029959.png)]

下载（get）

hadoop fs -get /top/malaoshi/data/data.txt /tmp

将 HDFS /top/malaoshi/data/data.txt 文件，下载 linux 系统的 /tmp 目录中

综合来看

hadoop fs -put from to ->从哪里上传，上传到哪里
hadoop fs -get from to ->从哪里下载，下载到哪里

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26Of0ATo-1638676630870)(source/image-20211103104924476.png)]

六、YARN 1.yarn简介

介绍
yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的 *** 作系统平台，而 MapReduce 等运算程序则相当于运行于 *** 作系统之上的应用程序。
架构
YARN是主从架构，有三大组件：

ResourceManager（RM）
NodeManager（NM）
ApplicationMaster（AM）

其他：

Container

注意：

client 可以有多个
集群可以运行多个 ApplicationMaster
每个 NodeManager 上可以有多个 Container

ResourceManager（RM）
进程，是集群中的主角色。

整个集群资源的管理者，管理内存、CPU等。
接收客户端提交的作业，通过 NM 分配、管理各个机器上的计算资源
NodeManager（NM）
进程，是集群中的从角色

每台PC服务器上都要部署一个
计算资源的管理者
根据 RM 指令，启动 Container 容器，监视容器的资源使用情况
向 RM 汇报资源使用情况
ApplicationMaster（AM）
单个任务运行的管理者，应用程序内的老大，负责程序内部各阶段的资源申请、监督程序的执行情况
Container
容器，资源的抽象，相当于 VMware 虚拟机，封装了任务运行所需要的资源，如：内存（占用 1G-8G）、CPU、磁盘、网络等。执行结束后，可自动释放资源
关键交互流程
客户端提交任务给 ResourceManager
ApplicationMaster向 ResourceManager 申请内存、CPU 资源
mapreduce作业状态汇报：Container（map task、reduce task）向 Container（ApplicationMaster），汇报进度，是否完成、错误等
节点状态汇报：NodeManager 向 ResourceManager 汇报进度

https://www.malaoshi.top/show_1IX28n29YLBN.html

yarn是一个资源调度平台。

2.配置yarn 2.1修改 mapred-site.xml

修改 mapred-site.xml
vim etc/hadoop/mapred-site.xml
指定MapReduce程序运行在Yarn上，配置如下：
    mapreduce.framework.name
    yarn
指定mr运行在yarn上

保存

2.2修改yarn-site.xml

修改yarn-site.xml
vim etc/hadoop/yarn-site.xml
配置如下：
    yarn.nodemanager.aux-services    mapreduce_shuffle
指定获取数据的方式

2.3设置classpath

设置classpath

在hadoop3.x中必须设置，否则执行 hadoop-mapreduce-examples-3.0.3.jar 例子报错

执行下面命令，查看classpath：

hadoop classpath

执行结果如下：

/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*

在 yarn-site.xml 添加如下：

    yarn.application.classpath    /program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*

value 部分是 hadoop classpath 执行的结果

保存

启动

start-yarn.sh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UD1B7kmQ-1638676630871)(source/image-20211103112859139.png)]

测试yarn端口

hadoop1:8088

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sDFePaJL-1638676630871)(source/image-20211103113250677.png)]

2.4 hadoop3.x集群：执行 wordcount 测试 yarn 和 MapReduce

执行 wordcount
hadoop jar /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar wordcount /test /result
解释：

hadoop jar：执行jar命令
/program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar：jar包所在位置，可以是相对路径
wordcount：统计词频。还有其他功能
/test：读取 hdfs 的目录
/result：将结果输出到 hdfs 的目录下

如果输出的结果目录已经存在了，则会报错

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eHv8m1xb-1638676630872)(source/image-20211103135233316.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T1BzzoWP-1638676630872)(source/image-20211103135242564.png)]

通过application可以查看每次 *** 作的状态

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B7VSQTuk-1638676630872)(source/image-20211103140012506.png)]

2.5配置历史任务服务

提出问题
通过访问：http://hadoop1:8088/ ，显示界面如下：

点击上图中的【History】，不能显示历史信息

如果重启 yarn 服务，上图 web服务中的记录，就会消失，无法保存历史记录
修改 mapred-site.xml 配置历史服务器
增加下面内容：
    mapreduce.jobhistory.address
    hadoop1:10020
配置 web 地址、端口号（可略）
默认端口为：19888
    mapreduce.jobhistory.webapp.address    hadoop1:19888

2.6配置日志聚集

提出问题
访问 http://localhost:19888/

在历史服务web管理页面中，如下图：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G2InoBcK-1638676630873)(source/QQ20210211090554.png)]

点击上图的【logs】，显示界面如下：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzIEMQqW-1638676630873)(source/QQ20210211091059.png)]

因为没有配置日志聚集服务

修改 yarn-site.xml 启用日志聚集
    yarn.log-aggregation-enable    true
日志保留时间
    yarn.log-aggregation.retain-seconds    604800
解释：时间单位：秒。604800秒/60/60/24=7天

重启yarn，重启历史服务器

3.修改虚拟机为静态ip

修改虚拟机为静态ip
先敲编辑命令，点击tab键，看提示的是什么

注意：此处的ens33可能因电脑不同而不同，需要查看
vim /etc/sysconfig/network-scripts/ifcfg-ens33
找到网卡的配置文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUEF5qRB-1638676630874)(source/image-20211103145701092.png)]

修改前先备份一个文件
cp /etc/sysconfig/network-scripts/ifcfg-ens33 /etc/sysconfig/network-scripts/ifcfg-ens33.bak
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ld6w8TCj-1638676630874)(source/image-20211103145841470.png)]

查看虚拟机的ip，是相应的ip地址、网关、dns自定义即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6KARL5dO-1638676630874)(source/image-20211103150143012.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YGjoJjO0-1638676630874)(source/image-20211103150150420.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ei3PZXKB-1638676630875)(source/image-20211103150159640.png)]

配置完毕后重启服务
stop-yarn.sh
stop-dfs.sh
reboot now
测试是否可以联通外网

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yq5RRT3k-1638676630875)(source/image-20211103151141179.png)]

启动时发现hadoop1无法找到主机

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1UD838fu-1638676630875)(source/image-20211103151454292.png)]

需要重新编辑hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0clvhRj-1638676630876)(source/image-20211103151514469.png)]

使hosts文件中的ip与设定的ip地址相同

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1n7SQp0n-1638676630876)(source/image-20211103151544581.png)]

修改完ip后即可ping通hadoop1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XVnUUSiu-1638676630876)(source/image-20211103151756346.png)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fw0E24V5-1638676630877)(source/image-20211103152419932.png)]

尝试访问9870，发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/

C:WindowsSystem32driversetchosts

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FlmXQtVv-1638676630877)(source/image-20211103152718892.png)]

如果需要使用分布式计算才执行yarn命令，如果只做为文件的存储hdfs的话，不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件，该文件用于配置大数据相关的环境变量：

vi bigdata_env.sh

在末尾添加行（使用i命令）：

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效

source  /etc/profile

测试

java -version

会显示java的版本信息，如下：

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

1638676630876)]

修改完ip后即可ping通hadoop1

[外链图片转存中…(img-XVnUUSiu-1638676630876)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存中…(img-Fw0E24V5-1638676630877)]

尝试访问9870，发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/

C:WindowsSystem32driversetchosts

[外链图片转存中…(img-FlmXQtVv-1638676630877)]

如果需要使用分布式计算才执行yarn命令，如果只做为文件的存储hdfs的话，不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件，该文件用于配置大数据相关的环境变量：

vi bigdata_env.sh

在末尾添加行（使用i命令）：

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效

source  /etc/profile

测试

java -version

会显示java的版本信息，如下：

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5654674.html

大数据课程

发表评论

评论列表（0条）