HDFS适用于哪些场景_sql

1、适用于流式的数据访问

2、HDFS适用于批量数据的处理，不适用于交互式处理。它设计的目标是通过流式的数据访问保证高吞吐量，不适合对低延迟用户响应的应用。可以选择HBase满足低延迟用户的访问需求。

3、支持简单的一致性模型

4、HDFS中的文件支持一次写入、多次读取，写入 *** 作是以追加的方式添加在文件末尾，不支持多个写入者的 *** 作，也不支持对文件的任意位置进行修改。

5、计算向数据靠拢

6、在Hadoop系统中，对数据进行计算时，采用将计算向数据靠拢的方式，即选择最近的数据进行计算，减少数据在网络中的传输延迟。

HDFS 是hadoop distributed file system的简称,分布式文件系统

在大数据生态系统中,分布式是一个核心概念,大数据大数据,大数据量的数据和大量种类的数据,一台机器存不下,多台机器一起存储

一个对应用数据提供高吞吐访问量的分布式文件系统

适合一次写入,多次读出场景,而且不支持文件的随机修改,但是支持文件的追加 .适合做数据分析

随机修改:把已经写过的内存进行修改

追加:在之前文件写的基础上面后面继续加内容

优点:

缺点:

实际工作中本人自己测试过,一个文件/目录/文件块大概是占用的元数据内存是150B,假如有100W个小文件,每个文件都占用一个文件块,需150B×100W/1024/1024≈143M,要是一个亿的数据量呢

用途：将单机的工作任务进行分拆，变成协同工作的集群。用以解决日益增加的文件存储量和数据量瓶颈。

通俗应用解释：

比如计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，把这个100M的文件拷贝到自己的电脑上，然后写个计算程序就能完成计算。

关键技术：

HDFS（Hadoop Distributed File System）：

既可以是Hadoop 集群的一部分，也可以是一个独立的分布式文件系统，是开源免费的大数据处理文件存储系统。

HDFS是Master和Slave的主从结构（是一种概念模型，将设备分为主设备和从设备，主设备负责分配工作并整合结果，或作为指令的来源；从设备负责完成工作，一般只能和主设备通信）。主要由Name-Node、Secondary NameNode、DataNode构成。

Name-Node：分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等

Secondary NameNode：辅助 NameNode，分担其工作，紧急情况可以辅助恢复

DataNode：Slave节点，实际存储数据、执行数据块的读写并汇报存储信息给NameNode

HDFS客户端的存储流程：当客户需要写数据时，先在NameNode 上创建文件结构并确定数据块副本将要写道哪几个 datanode ，然后将多个代写 DataNode 组成一个写数据管道，保证写入过程完整统一写入。

读取数据时则先通过 NameNode 找到存储数据块副本的所有 DataNode ，根据与读取客户端距离排序数据块，然后取最近的。

欢迎分享，转载请注明来源：内存溢出

HDFS适用于哪些场景