hdfs等分布式文件系统真的会存储数据吗？_教程

HDFS（Hadoop分布式文件系统）是一种分布式文件系统，它主要用于存储大量的数据，并提供高可靠性和高吞吐量的数据访问。因此，HDFS是能够真正存储数据的分布式文件系统。

与传统的文件系统相比，HDFS有如下优点：

容错性：HDFS可以自动修复硬件故障，并保证数据的完整性和安全性。

可配李扩展性：HDFS可以根据数据量的增长而庆卖掘扩展容量，并可以支持数千个节点。

数据并行处理：HDFS可以分割数据块并并行处理，提高数据处理速度。

总之，HDFS是真正的分布式文件系统，可以用于存储大量的数据，誉核并提供高性能的数据访问。

HDFS是拿清一个文件系统，用于存储文件，通过目录树来定位文件。

它是分布式的，有分多服务器联合起来实现其功能。

适合一次写入，多次读出的场景，且不支持文件的修改。

是和数据分析，并不适合用来做网盘应用。

NameNode(nn）：1.存储文件的元数据{1.文件信息（文件名，文件目录结构，文件属性（生成时间，副本数，文件权限）），2.每个文件的块列表和块所在的DataNode（Block映射信息）}，2.处理客户端读写请求。

DataNode(dn):在本地文件系统存储文件块数据，以及块数据的校验。

Secondary NameNode(2nn):是一个辅助后台的程序，用来监控HDFS状态，每隔一段时间获取HDFS元数据的快照。

上面计算的每秒丛敏高传输大小为100MB只是一个近似值，实际为128M。

机械硬盘文件顺序读写的速度为100MB/s

普通固态为500MB/s

pcie固态的速度可以达到2000MB/s

因此块的大小可以分别设为128MB,512MB,2048MB.

CPU,磁盘,网卡之间的协同效率即跨物理机/机架之间文件渗尺传输速率

1. 如果块设置过大，

2. 如果块设置过小，

文件块越大，寻址时间越短，但磁盘传输时间越长；

文件块越小，寻址时间越长，但磁盘传输时间越短。

一、涉及的问题

1. 冗余数据保存

2. 数据保存策略

3. 数据恢复

二、冗余数据保存问题

1. 冗余因子

出于成本考虑（也是HDFS优势），HDFS常架构在廉价机器上——经常出故障。所以必须有冗余机制。一般每个块都保存链或衡3份，即冗余因子默认是3

注意：伪分布式配置，即名称节点和数据节点都放在同一个机器上，则冗余因子显然只能是1，因为只有一个机器

2. 冗余机制的好处

(1) 加快数据传输速度——当多个客户端同时想访问相同数据块时，可以同时并行而不需要排队

(2) 很容易检查数据错误——互相对照发现错误

(3) 保证数据可靠性——HDFS有这样的机制：一旦探测到一个副本故障，会自动复制正确副本，使冗余因子恢复默认值

三、数据保存与读取

1. 第一副本存放策略：

(1) 如果保存请求来自集棚做群内部，第一个副本放在发起者（应用）所在节点。比如一个在DataNode1上的应用发起存数据请求，那就把它第一份副本也存在DataNode1

(2) 如果保存请求来自集群外部，HDFS会随机挑选一台磁盘不太忙且CPU不太忙的节点来放置第一个副本

2. 第二个副本存放策略：

放在和第一副本不同的机架的节点上。如下图中DataNode4，它和团返DataNode1在不同机架上

3. 第三副本放置策略：

放在和第一副本相同的机架的其他节点。如图中的DataNode2或DataNode3

4. 更多副本存放策略：

全部随机放置（依靠随机算法）

5、数据读取

原则：就近读取

——HDFS提供一个API可以告诉数据节点的机架ID，客户端也可以用API诊断自己所在机架ID。ID相同说明在同一机架。而相同机架数据间通信很快，它们就是“相近”的数据。

——而前面也说了，每个数据块都有多个不同的副本，如果找到某个副本和客户端在同一个机架上，就优先选此副本。如果没有就随机找一个副本读取

四、数据的错误与恢复

1. 名称节点出错

只有一个名称节点，而且它保存了核心数据结构FsImage和EditLog。恢复方法：

(1) 在HDFS1.0里只能暂停服务，从第二名称节点（冷备份）恢复

(2) 在HDFS2.0里可以直接用热备份恢复而不用暂停服务

2. 数据节点出错

(1) 如何发现数据节点出问题：

在整个运行期间，DataNode都会定期通过远程调用向NameNode发送心跳信息。一旦隔了一个周期收不到心跳信息，则NameNode就知道这个DataNode发生了故障

(2) 如何恢复数据节点：

NameNode会在状态列表里把出错的DataNode标记为不可用（宕机），然后把它里面的数据块对应的备份（在其他DataNode上）复制到另一个DataNode上去

——HDFS和其他分布式文件系统最大的区别就是可以调整冗余数据位置。这种调整不仅发生在故障时，也可以在在机器负载不均衡时把一个DataNode的数据迁移到另一个上面以平衡负载

3. 数据出错

(1) 如何发现数据出错：

“校验码机制”——客户端每写入一个数据块，都会为其生成一个校验码并保存在同一文件目录下。读取数据块同时会核对其校验码，如果不对说明数据出问题了。

(2) 如何恢复数据：

从备份复制过来

Reference:

https://www.icourse163.org/learn/XMU-1002335004#/learn/content?type=detail&id=1214310117&cid=1217922275&replay=true

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/12223624.html

hdfs等分布式文件系统真的会存储数据吗？

发表评论

评论列表（0条）