该文件是Hadoop的核心配置文件,目的是配置HDFS地址、端口号以及临时文件目录。
该文件MapReduce的核心文件,用于指定MapReduce运行时框架。在etc/hadoop/目录没有该文件,需要将mapred-site.xml.template复制并重命名为mapred-site.xml。
该文件YARN的核心文件,需要指定YARN集群的管理者。
该文件记录Hadoop集群所有从节点(HDFSde DataNode和YARN的NodeManager所在主机)的主机名,用来配合一键启动脚本启动集群从节点(保证关联节点配置了SSH免密登录)。打开slaves文件,先删除里面的内容(默认localhost),配置如下内容
完成Hadoop集群主节点hadoop01的配置后,还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上,具体指令:
scp /etc/profile hadoop02:/etc/profile
scp /etc/profile hadoop03:/etc/profile
scp -r /export/ hadoop02:/
scp -r /export/ hadoop03:/
完成后,在hadoop02和hadoop03节点刷新配置文件:
source /etc/profile
初次启动HDFS集群时,必须对主节点进行格式化处理。注意:格式化指令只需在Hadoop集群初次启动前执行即可。指令:
hdfs namenode –format
或
hadoop namenode -format
出现“successfully formatted"字样表示格式化成功。
针对Hadoop集群的启动,需要启动内部包含的HDFS集群和YARN集群两个集群框架。
启动:
(1)start-dfs.sh #启动所有HDFS服务进程
(2)start-yarn.sh #启动所有YARN服务进程
或者:
start-all.sh直接启动整个Hadoop集群服务
关闭则直接将上述指令中的start换成stop即可。
在整个Hadoop集群服务启动完成后,可以在各自机器上通过jps指令查看各节点的服务进程启动情况。
集群启动成功。
是的,Hadoop搭建过程中设置元数据文件存储路径的配置文件是hdfs-site.xml。在Hadoop集群中,元数据指的是HDFS(Hadoop Distributed File System)存储的文件系统命名空间和其他相关信息,例如文件副本的位置和块的位置等。HDFS将元数据存储在一个称为NameNode的主节点上,而文件数据则分散存储在多个称为DataNode的从节点上。
要在Hadoop集群中指定元数据文件存储路径,需要编辑hdfs-site.xml配置文件并设置适当的属性。具体来说,在hdfs-site.xml文件中,可以使用以下属性配置元数据文件存储路径:
<property>
<name>dfs.namenode.name.dir</name>
<value>/path/to/namenode/dir</value></property>
其中,/path/to/namenode/dir是您希望用于存储元数据文件的本地目录的路径。请注意,这个路径应该是HDFS用户具有写入权限的路径。
因此,hdfs-site.xml配置文件是设置Hadoop集群中元数据文件存储路径的一个重要文件。
从安装Hadoop 单机版的配置说起在这里配置了Hadoop的文件目录
1. 启动Hadoop 并上传文件
上传文件命令:hadoop fs -put hadoop-2.9.2.tar.gz hdfs://hdgroup01:9000/
可以看到已经上传了文件了
2. 删除本地文件
如果删除后你在浏览器刷新页面 然后还能下载 说明 肯定存在其他地方
使用命令下载也可以:hadoop fs -get hdfs://hdgroup01:9000/hadoop-2.9.2.tar.gz
3. hdfs 文件存放的位置
通过查看 安装时配置的hadoop文件目录 上传文件后的结果
这个dfs 应该见过的 就是在格式化namenode的时候 在我们配置的文件中创建了dfs 文件夹
4. 上传一个349.5M 的文件
5. 进到hadoop 本地存储文件中查看 存储格式
上传的文件为349.47M 被切分成了 三块 因为是单机版 所以都存放到了 这台主机的文件系统中
可以看到 hadoop 块大小为128M(默认) 超过128M的文件会被切成不同的块存放
总结
1. hdfs是是通过分布式集群来存储文件,为客户端提供了一个便捷的访问方式 虚拟的目录结构
2. 文件存储到hdfs集群中的时候是被切分成block的 默认为128M
3. 文件的block 存放在若干台datanode节点中
4. hdfs文件系统中的文件与真实的block之间有映射关系,由namenode管理
5. 每个block 在集群中会存储多个副本,好处是可以提高数据的可靠性,还可以提高访问的吞吐量。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)