HDFS适用于哪些场景

HDFS适用于哪些场景,第1张

1、适用于流式的数据访问

2、HDFS适用于批量数据的处理,不适用于交互式处理。它设计的目标是通过流式的数据访问保证高吞吐量,不适合对低延迟用户响应的应用。可以选择HBase满足低延迟用户的访问需求。

3、支持简单的一致性模型

4、HDFS中的文件支持一次写入、多次读取,写入 *** 作是以追加的方式添加在文件末尾,不支持多个写入者的 *** 作,也不支持对文件的任意位置进行修改。

5、计算向数据靠拢

6、在Hadoop系统中,对数据进行计算时,采用将计算向数据靠拢的方式,即选择最近的数据进行计算,减少数据在网络中的传输延迟。

HDFS 是hadoop distributed file system的简称,分布式文件系统

在大数据生态系统中,分布式是一个核心概念,大数据大数据,大数据量的数据和大量种类的数据,一台机器存不下,多台机器一起存储

一个对应用数据提供高吞吐访问量的分布式文件系统

适合一次写入,多次读出场景,而且不支持文件的随机修改,但是支持文件的追加 .适合做数据分析

随机修改:把已经写过的内存进行修改

追加:在之前文件写的基础上面后面继续加内容

优点:

缺点:

实际工作中本人自己测试过,一个文件/目录/文件块大概是占用的元数据内存是150B,假如有100W个小文件,每个文件都占用一个文件块,需150B×100W/1024/1024≈143M,要是一个亿的数据量呢

用途:将单机的工作任务进行分拆,变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。

通俗应用解释:

比如计算一个100M的文本文件中的单词的个数,这个文本文件有若干行,每行有若干个单词,每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务,把这个100M的文件拷贝到自己的电脑上,然后写个计算程序就能完成计算。

关键技术:

HDFS(Hadoop Distributed File System):

既可以是Hadoop 集群的一部分,也可以是一个独立的分布式文件系统,是开源免费的大数据处理文件存储系统。

HDFS是Master和Slave的主从结构(是一种概念模型,将设备分为主设备和从设备,主设备负责分配工作并整合结果,或作为指令的来源;从设备负责完成工作,一般只能和主设备通信)。主要由Name-Node、Secondary NameNode、DataNode构成。

Name-Node:分布式文件系统中的管理者,主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等

Secondary NameNode:辅助 NameNode,分担其工作,紧急情况可以辅助恢复

DataNode:Slave节点,实际存储数据、执行数据块的读写并汇报存储信息给NameNode

HDFS客户端的存储流程:当客户需要写数据时,先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ,然后将多个代写 DataNode 组成一个写数据管道,保证写入过程完整统一写入。

读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ,根据与读取客户端距离排序数据块,然后取最近的。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/9517422.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存