HDFS文件_服务器

最好是两个做成HA。

6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储，(这里我说的是一个月的,你数据保存几个月,就乘几倍)。

如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了。

一般是这样计算硬盘大小：

(原始数据+中间数据+结果数据)副本数量=总硬盘大小

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。

广义的Hadoop，一般称为Hadoop生态系统，如下所示。
Hadoop生态系统中这些软件的作用：

HDFS 采用了主从（Master/Slave）结构模型，一个HDFS集群包括一个名称节点（NameNode）和若干个数据节点（DataNode）。
HDFS采用Java语言开发，因此任何支持JVM的机器都可以部署名称节点和数据节点。

在配置好Hadoop 集群之后，可以通过浏览器访问 >大数据平台包含了采集层、存储层、计算层和应用层，是一个复杂的IT系统，需要学会Hadoop等分布式系统的开发技能。
11采集层：Sqoop可用来采集导入传统关系型数据库的数据、Flume对于日志型数据采集，另外使用Python一类的语言开发网络爬虫获取网络数据；
12储存层：分布式文件系统HDFS最为常用；采用了主从（Master/Slave）结构模型，一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件的访问 *** 作；集群中的DataNode管理存储的数据。
13计算层：有不同的计算框架可以选择，常见的如MapReduce、Spark等，一般来讲，如果能使用计算框架的“原生语言”，运算效率会最高（MapReduce的原生支持Java，而Spark原生支持Scala）；
14应用层：包括结果数据的可视化、交互界面开发以及应用管理工具的开发等，更多的用到Java、Python等通用IT开发前端、后端的能力；

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10776299.html

HDFS文件

发表评论

评论列表（0条）