HDFS组件_随笔_内存溢出

HDFS组件一、 HDFS简介 1.1 HDFS的概述

在Hadoop生态圈中，HDFS属于底层基础，负责存储文件。

1.2 HDFS产生背景

HDFS全称为Hadoop Distributed File System，很简单Hadoop的分布式文件存储系统

**1）**HDFS 产生背景随着数据量越来越大，在一个 *** 作系统存不下所有的数据，那么就分配到更多的 *** 作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS 只是分布式文件管理系统中的一种。

**2）**HDFS 定义 HDFS，它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。

HDFS 的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。

1.3 HDFS的优点

1.高容错性。提供了容错和恢复机制，副本丢失后，自动恢复。
2.高可靠性。数据自动保存多个副本，通过多副本提高可靠性。
3.适合大数据处理。可以处理超大文件，比如 TB级甚至PB级的文件。
4.适合批处理。移动计算而非移动数据；数据位置暴露给计算框架。
5.支持流式数据访问。一次性写入，多次读取（一个数据集一旦生成，就会被复制分发到不同的存储节点，各节点可以进行读取/访问）；保证数据一致性。
6.低成本运行。可以运行在低成本的硬件之上。

HDFS 默认保存 3 份副本。

第一个副本：放置在上传文件的数据节点（第一个副本如果是在集群外提交，则随机挑选一个 CPU 比较空闲、磁盘不太满的节点）；
第二个副本：放置在与第一个副本不同的机架的节点上；
第三个副本：放在与第二个副本相同的机架的其他节点上。

1.4 HDFS的缺点

1.不适合处理低延迟的数据访问。比如用户要求时间比较短的低延迟应用（主要处理高数据吞吐量的应用）。
2.不适合处理大量的小文件。会造成寻址时间超过读取时间；会占用NameNode大量内存，因为3.NameNode把文件系统的元数据存放在内存中（文件系统的容量由NameNode的大小决定），小文件太多会消耗NameNode的内存。
4.不适合并发写入。一个文件只能有一个写入者，HDFS暂不支持多个用户对同一个文件的写 *** 作。
5.不适合任意修改文件。仅支持append(附加)，不支持在文件的任意位置进行修改。

二、HDFS的组成节点

2.1 NameNode节点:

1)：管理HDFS的命名空间

editlog( *** 作日志)：在NameNode启动的情况下，对HDFS进行的各种 *** 作进行记录。（HDFS客户端执行的所有 *** 作都会被记录到editlog文件中，这些文件由edits文件保存） fsimage：包含HDFS中的元信息（比如修改时间、访问时间、数据块信息等）。

2)：配置副本策略

3)：管理数据块映射

4)：处理客户端读写请求

2.2 DataNode节点:

1)：存储实际的数据块

2)：执行

3)：管理数据块映射

4)：处理客户端读写请求

问题：HDFS数据块默认大小为128M（Hadoop2.2之前为64M），将HDFS的数据块设置得很大的目的是什么？（传统数据块只有512个字节）

答：为了减少寻址开销，让HDFS的文件传输时间由传输速率决定（如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间）。

2.3 SecondaryNameNode节点：

并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。

问题：一般情况下，一个集群中的SecondaryNameNode节点也是只有一个的原因是什么？

答：因为如果多的话，会增加NameNode的压力，使其忙于元数据的传输/接收、日志的传输/切换，从而导致性能下降；同时，NameNode节点也不支持做并发检查点。

1): 定期把NameNode的 fsimage 和 edits 下载到本地，再将它们加载到内存并进行合并，最后把合并后新的 fsimage 返回NameNode

2): 做备份

3): 防止edits过大

4): 在紧急情况下，可辅助恢复NameNode。

2.4 Client：就是客户端：

1): 文件切分。文件上传HDFS时，Client将文件切分成一个一个的Block，然后进行上传；

2): 与NameNode交互，获取文件的位置信息；

3): 与DataNode交互，读取或者写入数据；

4): Client提供一些命令来管理HDFS，比如NameNode格式化；

5): Client可以通过一些命令来访问HDFS，比如对HDFS增删查改 *** 作；

三、HDFS的核心概念-Block

HDFS中的文件在物理上是分块存储（Block），块的大小可以通过配置参数 ( dfs.blocksize）来规定，默认大小在Hadoop2.x/3.x版本中是128M，1.x版本中是64M

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DDOkowBN-1635241253840)(C:Users86157AppDataLocalTemp1635231603221.png)]

问题：为什么块的大小不能设置太小，也不能设置太大？

（1）HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置；（2）如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。总结：HDFS块的大小设置主要取决于磁盘传输速率。

Block抽象的好处 block的拆分使得单个文件大小可以大于整个磁盘的容量，构成文件的Block可以分布在整个集群，理论上，单个文件可以占据集群中所有机器的磁盘。 Block的抽象也简化了存储系统，对于Block，无需关注其权限，所有者等内容（这些内容都在文件级别上进行控制）。

Block作为容错和高可用机制中的副本单元，即以Block为单位进行复制。

四、HDFS的Shell *** 作 4.1 准备工作

1）启动集群方便后续的测试

[root@hadoop100 hadoop-3.1.3]# sbin/start-dfs.sh

[root@hadoop100 hadoop-3.1.3]# sbin/start-yarn.sh

2）创建/xiyou文件夹

[root@hadoop100 hadoop-3.1.3]# hadoop fs -mkdir /xiyou

在我们的web页面就看到了新建的文件夹

4.2 上传

1）-moveFromLocal：从本地剪切粘贴到 HDFS

[root@hadoop100 hadoop-3.1.3]# vi huanguoshan.txt 输入：sunwukong

[root@hadoop100 hadoop-3.1.3]# hadoop fs -moveFromLocal ./huaguoshan.txt /xiyou

2）-copyFromLocal：从本地文件系统中拷贝文件到 HDFS 路径去

[root@hadoop100 hadoop-3.1.3]# vi tianting.txt 输入：yudi

[root@hadoop100 hadoop-3.1.3]# hadoop fs -copyFromLocal tianting.txt /xiyou

文件还存在

3）-put：等同于 copyFromLocal，生产环境更习惯用 put

[root@hadoop100 hadoop-3.1.3]# vi tianting.txt 输入：yudi

[root@hadoop100 hadoop-3.1.3]# hadoop fs -put tianting.txt /xiyou

4）-appendToFile：追加一个文件到已经存在的文件末尾

[root@hadoop100 hadoop-3.1.3]# vi tianting2.txt 输入：yudi

[root@hadoop100 hadoop-3.1.3]# hadoop fs -appendToFile tianting2.txt /xiyou/tianting.txt

4.3 下载

1）-copyToLocal：从 HDFS 拷贝到本地

[root@hadoop100 hadoop-3.1.3]# hadoop fs -copyToLocal /xiyou/tianting.txt ./

2）-get：等同于 copyToLocal，生产环境更习惯用 get

[root@hadoop100 hadoop-3.1.3]# hadoop fs -get /xiyou/tianting.txt ./

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gXUAL05k-1635241253847)(C:Users86157AppDataLocalTemp1635233369997.png)]

get下载成功

4.4 HDFS直接 *** 作

1）-ls: 显示目录信息
[root@hadoop100 hadoop-3.1.3]# hadoop fs -ls /sanguo
2）-cat：显示文件内容
[root@hadoop100 hadoop-3.1.3]# hadoop fs -cat /sanguo/shuguo.txt
3）-chgrp、-chmod、-chown：Linux 文件系统中的用法一样，修改文件所属权限
[root@hadoop100 hadoop-3.1.3]# hadoop fs -chmod 666
/sanguo/shuguo.txt
[root@hadoop100 hadoop-3.1.3]# hadoop fs -chown atguigu:atguigu
/sanguo/shuguo.txt
4）-mkdir：创建路径
[root@hadoop100 hadoop-3.1.3]# hadoop fs -mkdir /jinguo
5）-cp：从 HDFS 的一个路径拷贝到 HDFS 的另一个路径
[root@hadoop100 hadoop-3.1.3]# hadoop fs -cp /sanguo/shuguo.txt
/jinguo
6）-mv：在 HDFS 目录中移动文件
[root@hadoop100 hadoop-3.1.3]# hadoop fs -mv /sanguo/wuguo.txt /jinguo
[root@hadoop100 hadoop-3.1.3]# hadoop fs -mv /sanguo/weiguo.txt
/jinguo
7）-tail：显示一个文件的末尾 1kb 的数据
[root@hadoop100 hadoop-3.1.3]# hadoop fs -tail /jinguo/shuguo.txt
8）-rm：删除文件或文件夹
[root@hadoop100 hadoop-3.1.3]# hadoop fs -rm /sanguo/shuguo.txt
9）-rm -r：递归删除目录及目录里面内容
[root@hadoop100 hadoop-3.1.3]# hadoop fs -rm -r /sanguo
10）-du 统计文件夹的大小信息
[root@hadoop100 hadoop-3.1.3]# hadoop fs -du -s -h /jinguo
27 81 /jinguo
[root@hadoop100 hadoop-3.1.3]# hadoop fs -du -h /jinguo
14 42 /jinguo/shuguo.txt
7 21 /jinguo/weiguo.txt
6 18 /jinguo/wuguo.tx
说明：27 表示文件大小；81 表示 27*3 个副本；/jinguo 表示查看的目录
11）-setrep：设置 HDFS 中文件的副本数量
[root@hadoop100 hadoop-3.1.3]# hadoop fs -setrep 10 /jinguo/shuguo.txt

这里设置的副本数只是记录在 NameNode 的元数据中，是否真的会有这么多副本，还得
看 DataNode 的数量。因为目前只有 3 台设备，最多也就 3 个副本，只有节点数的增加到 10
台时，副本数才能达到 10。

四、HDFS的API *** 作 4.1 客户机准备

配置环境变量，又到了我们配置环境变量的时候了

1）将windows依赖文件，拷贝 hadoop-3.1.0 到非中文路径（比如 d:）。

2）配置 HADOOP_HOME 环境变量

3）配置path目录

4）在IDEA中创建一个maven项目并导入要用到的包

这是我们的pom.xml配置文件文件



    4.0.0

    org.example
    demo01
    1.0-SNAPSHOT

    
        15
        15
    
    
        
            org.apache.hadoop
            hadoop-client
            3.1.3
        
        
            junit
            junit
            4.12
        
        
            org.slf4j
            slf4j-log4j12
            1.7.30

4.2 创建

先来创建一个文件

@Test
public void testmkdir() throws Exception {
    //连接集群nn地址
    URI uri = new URI("hdfs://hadoop100:8020");
    //创建一个配置
    Configuration conf = new Configuration();
    //获取客户端对象
    fileSystem = FileSystem.get(uri, conf,"root");
    //创建一个文件夹
    fileSystem.mkdirs(new Path("/xiyou/shuiliandong"));
    //关闭资源
    fileSystem.close();
}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-n1nzYfvz-1635241253850)(C:Users86157AppDataLocalTemp1635234201481.png)]

测试通过来看看有没有我们需要的文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JZ05Qwtx-1635241253851)(C:Users86157AppDataLocalTemp1635234261397.png)]

有，不错

这是我们观察代码发现有很多重复性的工作，我们可以封装两个函数

FileSystem fileSystem = null;
//初始化
@Before
public void init() throws Exception{
    //连接集群nn地址
    URI uri = new URI("hdfs://hadoop100:8020");
    //创建一个配置
    Configuration conf = new Configuration();
    //获取客户端对象
    fileSystem = FileSystem.get(uri, conf,"root");
}
//终结态
@After
public void close() throws IOException {
    //关闭资源
    fileSystem.close();
}

4.3 上传

@Test
public void testPut() throws Exception {
    init();
    //参数一：删除元数据，参数二：表示覆盖，参数三表示原数据路径，参数四：目的路径
    fileSystem.copyFromLocalFile(false,true,new Path("D:\ykk.png"),new Path("/"));
    close();
}

4.4 下载

//下载
@Test
public void testSet() throws Exception {
    // 参数的解读：参数一：原文件是否删除；参数二：原文件路径HDFS； 参数三：目标地址路径Win ; 参数四：
    fileSystem.copyToLocalFile(false,new Path("hdfs://hadoop100/sanguo/shuguo.txt"),new Path("D:\"),false);
}

4.5 删除

@Test
public void testRm() throws Exception {
    // 参数解读：参数1：要删除的路径； 参数2 ： 是否递归删除
    fileSystem.delete(new Path("/jinguo"), true);
    fileSystem.delete(new Path("/xiyou"),true);
}

4.6 文件的更名和移动

@Test
public void testMv() throws Exception {
    // 参数解读：参数1：源文件路径 参数2：目标文件路径
    fileSystem.rename(new Path("/sanguo/shuhuo.txt"),new Path("/sanguo/wuguo.txt"));
}

4.7 获取文件详细信息

@Test
public void testshow() throws Exception {
    //获取所有文件信息
    RemoteIterator listFiles = fileSystem.listFiles(new Path("/"),true);

    //遍历文件
    while (listFiles.hasNext()) {
        LocatedFileStatus fileStatus = listFiles.next();
        System.out.println("===="+fileStatus.getPath()+"=====");
        System.out.println(fileStatus.getPermission());
        System.out.println(fileStatus.getOwner());
        System.out.println(fileStatus.getGroup());
        System.out.println(fileStatus.getLen());
        System.out.println(fileStatus.getPath().getName());
        System.out.println(fileStatus.getBlockSize());
        // 获取块信息
        BlockLocation[] blockLocations = fileStatus.getBlockLocations();

        System.out.println(Arrays.toString(blockLocations));
    }
}

五、HDFS 的读写流程 5.1 HDFS 写数据流程

这是HDFS简化图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zATF7roe-1635241253852)(C:Users86157AppDataLocalTemp1635239822783.png)]

（1）客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode 检查目标文件是否已存在，父目录是否存在。

（2）NameNode 返回是否可以上传。

（3）客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。

（4）NameNode 返回 3 个 DataNode 节点，分别为 dn1、dn2、dn3。

（5）客户端通过 FSDataOutputStream 模块请求 dn1 上传数据，dn1 收到请求会继续调用 dn2，然后 dn2 调用 dn3，将这个通信管道建立完成。

（6）dn1、dn2、dn3 逐级应答客户端。

（7）客户端开始往 dn1 上传第一个 Block（先从磁盘读取数据放到一个本地内存缓存），以 Packet 为单位，dn1 收到一个 Packet 就会传给 dn2，dn2 传给 dn3；dn1 每传一个 packet 会放入一个应答队列等待应答。

（8）当一个 Block 传输完成之后，客户端再次请求 NameNode 上传第二个 Block 的服务器。（重复执行 3-7 步）。

5.2 HDFS 读数据流程

（1）客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。

（2）挑选一台 DataNode（就近原则，然后随机）服务器，请求读取数据。

（3）DataNode 开始传输数据给客户端（从磁盘里面读取数据输入流，以 Packet 为单位来做校验）。

（4）客户端以 Packet 为单位接收，先在本地缓存，然后写入目标文件。

六、工作机制 6.1 NN和2NN的工作机制

这时我们有一个问题NameNode的元数据存储到什么地方

首先，我们做个假设，如果存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问，还有响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但如果只存在内存中，一旦断电，元数据丢失，整个集群就无法工作了。因此产生在磁盘中备份元数据的 FsImage。

这样又会带来新的问题，当在内存中的元数据更新时，如果同时更新 FsImage，就会导致效率过低，但如果不更新，就会发生一致性问题，一旦 NameNode 节点断电，就会产生数据丢失。因此，引入 Edits 文件（只进行追加 *** 作，效率很高）。每当元数据有更新或者添加元数据时，修改内存中的元数据并追加到 Edits 中。这样，一旦 NameNode 节点断电，可以通过 FsImage 和 Edits 的合并，合成元数据。

但是，如果长时间添加数据到 Edits 中，会导致该文件数据过大，效率降低，而且一旦断电，恢复元数据需要的时间过长。因此，需要定期进行 FsImage 和 Edits 的合并，如果这个 *** 作由NameNode节点完成，又会效率过低。因此，引入一个新的节点SecondaryNamenode，专门用于 FsImage 和 Edits 的合并

1）第一阶段：NameNode 启动

（1）第一次启动 NameNode 格式化后，创建 Fsimage 和 Edits 文件。如果不是第一次启动，直接加载编辑日志和镜像文件到内存。

（2）客户端对元数据进行增删改的请求。

（3）NameNode 记录 *** 作日志，更新滚动日志。

（4）NameNode 在内存中对元数据进行增删改。

2）第二阶段：Secondary NameNode 工作

（1）Secondary NameNode 询问 NameNode 是否需要 CheckPoint。直接带回 NameNode 是否检查结果。

（2）Secondary NameNode 请求执行 CheckPoint。

（3）NameNode 滚动正在写的 Edits 日志。

（4）将滚动前的编辑日志和镜像文件拷贝到 Secondary NameNode。

（5）Secondary NameNode 加载编辑日志和镜像文件到内存，并合并。

（6）生成新的镜像文件 fsimage.chkpoint。

（7）拷贝 fsimage.chkpoint 到 NameNode。

（8）NameNode 将 fsimage.chkpoint 重新命名成 fsimage。

6.2 Fsimage 和 Edits

查看一下Fsimage文件

命令如下

cd data/dfs/name/current/

hdfs oiv -p XML -i fsimage_0000000000000000107 -o /opt/module/hadoop-3.1.3/fsimage.xml


-641ba631c436b806728f8ec2f54ab1e289526c90579
1861071271000101401073741837107


1RS-6-3-1024k1048576DISABLED
rs63



2RS-3-2-1024k1048576DISABLED
rs32



3RS-LEGACY-6-3-1024k1048576DISABLED
rs-legacy63



4XOR-2-1-1024k1048576DISABLED
xor21



5RS-10-4-1024k1048576DISABLED
rs104




164021216385DIRECTORY1635164114187root:supergroup:07559223372036854775807-1
16386DIRECTORYinput1634922704773root:supergroup:0755-1-1
16387DIRECTORYtmp1635009731375root:supergroup:0770-1-1
16388DIRECTORYhadoop-yarn1635009731375root:supergroup:0770-1-1
16389DIRECTORYstaging1635009731375root:supergroup:0770-1-1
16390DIRECTORYhistory1635009731428root:supergroup:0770-1-1
16391DIRECTORYdone1635009731376root:supergroup:0770-1-1
16392DIRECTORYdone_intermediate1635009731428root:supergroup:1777-1-1
16393DIRECTORYsanguo1635164417949root:supergroup:0755-1-1
16394FILEshuguo.txt316350173536481635163556412134217728root:supergroup:06441073741827100311

0
16395FILEwuguo.txt316350178080661635017807851134217728root:supergroup:0644107374183010067

0
16402FILEykk.png316351656653981635162050853134217728root:supergroup:06440

00
1638516386163931638716402
1638716388
1638816389
1638916390
163901639116392
163931639416395


0000100

可以看出有很多我们之前进行的 *** 作的数据块信息

查看一个Edits文件

cd data/dfs/name/current/

hdfs oev -p XML -i edits_0000000000000000110-0000000000000000141 -o

里面都是我们执行过 *** 作的

6.3 DataNode工作机制

（1）一个数据块在 DataNode 上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。

（2）DataNode 启动后向 NameNode 注册，通过后，周期性（6 小时）的向 NameNode 上报所有的块信息。

DN 向 NN 汇报当前解读信息的时间间隔，默认 6 小时；

DN 扫描自己节点块信息列表的时间，默认 6 小时

（3）心跳是每 3 秒一次，心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器，或删除某个数据块。如果超过 10 分钟没有收到某个 DataNode 的心跳，则认为该节点不可用。

（4）集群运行中可以安全加入和退出一些机器。

6.4 数据完整性

如下是 DataNode 节点保证数据完整性的方法。

（1）当 DataNode 读取 Block 的时候，它会计算 CheckSum。

（2）如果计算后的 CheckSum，与 Block 创建时值不一样，说明 Block 已经损坏。

（3）Client 读取其他 DataNode 上的 Block。

（4）常见的校验算法 crc（32），md5（128），sha1（160）

]

（2）DataNode 启动后向 NameNode 注册，通过后，周期性（6 小时）的向 NameNode 上报所有的块信息。

DN 向 NN 汇报当前解读信息的时间间隔，默认 6 小时；

DN 扫描自己节点块信息列表的时间，默认 6 小时

（4）集群运行中可以安全加入和退出一些机器。

6.4 数据完整性

如下是 DataNode 节点保证数据完整性的方法。

（1）当 DataNode 读取 Block 的时候，它会计算 CheckSum。

（2）如果计算后的 CheckSum，与 Block 创建时值不一样，说明 Block 已经损坏。

（3）Client 读取其他 DataNode 上的 Block。

（4）常见的校验算法 crc（32），md5（128），sha1（160）

（5）DataNode 在其文件创建后周期验证 CheckSum。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5572643.html

HDFS组件

发表评论

评论列表（0条）