hdfs等分布式文件系统真的会存储数据吗?

hdfs等分布式文件系统真的会存储数据吗?,第1张

HDFS(Hadoop分布式文件系统)是一种分布式文件系统,它主要用于存储大量的数据,并提供高可靠性和高吞吐量的数据访问。因此,HDFS是能够真正存储数据的分布式文件系统。

与传统的文件系统相比,HDFS有如下优点:

容错性:HDFS可以自动修复硬件故障,并保证数据的完整性和安全性。

可配李扩展性:HDFS可以根据数据量的增长而庆卖掘扩展容量,并可以支持数千个节点

数据并行处理:HDFS可以分割数据块并并行处理,提高数据处理速度。

总之,HDFS是真正的分布式文件系统,可以用于存储大量的数据,誉核并提供高性能的数据访问。

HDFS是拿清一个文件系统,用于存储文件,通过目录树来定位文件。

它是分布式的,有分多服务器联合起来实现其功能。

适合一次写入,多次读出的场景,且不支持文件的修改。

是和数据分析,并不适合用来做网盘应用。

NameNode(nn):1.存储文件的元数据{1.文件信息(文件名,文件目录结构,文件属性(生成时间,副本数,文件权限)),2.每个文件的块列表和块所在的DataNode(Block映射信息)},2.处理客户端读写请求。

DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验。

Secondary NameNode(2nn):是一个辅助后台的程序,用来监控HDFS状态,每隔一段时间获取HDFS元数据的快照。

上面计算的每秒丛敏高传输大小为100MB只是一个近似值,实际为128M。

机械硬盘文件顺序读写的速度为100MB/s

普通固态为500MB/s

pcie固态的速度可以达到2000MB/s

因此块的大小可以分别设为128MB,512MB,2048MB.

CPU,磁盘,网卡之间的协同效率 即 跨物理机/机架之间文件渗尺传输速率

1. 如果块设置过大,

2. 如果块设置过小,

文件块越大,寻址时间越短,但磁盘传输时间越长;

文件块越小,寻址时间越长,但磁盘传输时间越短。

一、涉及的问题

1. 冗余数据保存

2. 数据保存策略

3. 数据恢复

二、冗余数据保存问题

1. 冗余因子

出于成本考虑(也是HDFS优势),HDFS常架构在廉价机器上——经常出故障。所以必须有冗余机制。一般每个块都保存链或衡3份,即冗余因子默认是3

注意:伪分布式配置,即名称节点和数据节点都放在同一个机器上,则冗余因子显然只能是1,因为只有一个机器

2. 冗余机制的好处

(1) 加快数据传输速度——当多个客户端同时想访问相同数据块时,可以同时并行而不需要排队

(2) 很容易检查数据错误——互相对照发现错误

(3) 保证数据可靠性——HDFS有这样的机制:一旦探测到一个副本故障,会自动复制正确副本,使冗余因子恢复默认值

三、数据保存与读取

1. 第一副本存放策略:

(1) 如果保存请求来自集棚做群内部,第一个副本放在发起者(应用)所在节点。比如一个在DataNode1上的应用发起存数据请求,那就把它第一份副本也存在DataNode1

(2) 如果保存请求来自集群外部,HDFS会随机挑选一台磁盘不太忙且CPU不太忙的节点来放置第一个副本

2. 第二个副本存放策略:

放在和第一副本不同的机架的节点上 。如下图中DataNode4,它和团返DataNode1在不同机架上

3. 第三副本放置策略:

放在和第一副本相同的机架的其他节点。如图中的DataNode2或DataNode3

4. 更多副本存放策略:

全部随机放置(依靠随机算法)

5、数据读取

原则:就近读取

——HDFS提供一个API可以告诉数据节点的机架ID,客户端也可以用API诊断自己所在机架ID。ID相同说明在同一机架。而相同机架数据间通信很快,它们就是“相近”的数据。

——而前面也说了,每个数据块都有多个不同的副本,如果找到某个副本和客户端在同一个机架上,就优先选此副本。如果没有就随机找一个副本读取

四、数据的错误与恢复

1. 名称节点出错

只有一个名称节点,而且它保存了核心数据结构FsImage和EditLog。恢复方法:

(1) 在HDFS1.0里只能暂停服务,从第二名称节点(冷备份)恢复

(2) 在HDFS2.0里可以直接用热备份恢复而不用暂停服务

2. 数据节点出错

(1) 如何发现数据节点出问题:

在整个运行期间,DataNode都会定期通过远程调用向NameNode发送心跳信息。一旦隔了一个周期收不到心跳信息,则NameNode就知道这个DataNode发生了故障

(2) 如何恢复数据节点:

NameNode会在状态列表里把出错的DataNode标记为不可用(宕机),然后把它里面的数据块对应的备份(在其他DataNode上)复制到另一个DataNode上去

——HDFS和其他分布式文件系统最大的区别就是 可以调整冗余数据位置 。这种调整不仅发生在故障时,也可以在在机器负载不均衡时把一个DataNode的数据迁移到另一个上面以平衡负载

3. 数据出错

(1) 如何发现数据出错:

“校验码机制”——客户端每写入一个数据块,都会为其生成一个校验码并保存在同一文件目录下。读取数据块同时会核对其校验码,如果不对说明数据出问题了。

(2) 如何恢复数据:

从备份复制过来

Reference:

https://www.icourse163.org/learn/XMU-1002335004#/learn/content?type=detail&id=1214310117&cid=1217922275&replay=true


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12223624.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-22
下一篇 2023-05-22

发表评论

登录后才能评论

评论列表(0条)

保存