负责“hdfs”和“数据存储”的程序是HDFS。
Hadoop分布式文件链野系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。
它和现有的分布式文件系统有很多共同点。但同时,它陪坦和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。
运行在HDFS之上的程序有很大量的数据芦唤桐集。典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。
大部分的HDFS程序对文件 *** 作需要的是一次写多次读取的 *** 作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。
这个假定简单化了数据一致的问题和并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。
HDFS被设计成支持非常大的文件,与HDFS兼容的应用是那些处理大数据集的应用。这些应用程序处理非常大的文件在具有只被创建和知兆樱写入一次,被读猜族取一次或多次的特性,即HDFS中存储的大文件是一次写入多次读取不支持修改的,搭丛同时要求HDFS满足应用程序以流读取速度的要求。
正是因为大数据系统对所需的文件系统有这些要求,就决定了HDFS在存储模型上具有以下特点:
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)