Hadoop是什么？_投稿

Hadoop是一个用于运行应用程序在大型集群的廉价硬件设备上的框架。Hadoop为应用程序透明的提供了一组稳定/可靠的接口和数据运动。在Hadoop中实现了Google的MapReduce算法，它能够把应用程序分割成许多很小的工作单元，每个单元可以在任何集群节点上执行或重复执行。此外，Hadoop还提供一个分布式文件系统用来在各个计算节点上存储数据，并提供了对数据读写的高吞吐率。由于应用了map/reduce和分布式文件系统使得Hadoop框架具有高容错性，它会自动处理失败节点。已经在具有600个节点的集群测试过Hadoop框架。

hadoop是一款开源软件，主要用于分布式存储和计算，他由HDFS和MapReduce计算框架组成的，他们分别是Google的GFS和MapReduce的开源实现。由于hadoop的易用性和可扩展性，因此成为最近流行的海量数据处理框架。hadoop这个单词来源于其发明者的儿子为一个玩具大象起的名字。

提供海量数据存储和计算的，需要java语言基础。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

特点

1、快照支持在一个特定时间存储一个数据拷贝，快照可以将失效的集群回滚到之前一个正常的时间点上。HDFS已经支持元数据快照。

2、HDFS的设计是用于支持大文件的。运行在HDFS上的程序也是用于处理大数据集的。这些程序仅写一次数据，一次或多次读数据请求，并且这些读 *** 作要求满足流式传输速度。

HDFS支持文件的一次写多次读 *** 作。HDFS中典型的块大小是64MB，一个HDFS文件可以被切分成多个64MB大小的块，如果需要，每一个块可以分布在不同的数据节点上。

3、阶段状态：一个客户端创建一个文件的请求并不会立即转发到名字节点。实际上，一开始HDFS客户端将文件数据缓存在本地的临时文件中。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/6032750.html

Hadoop是什么？

发表评论

评论列表（0条）