大数据存储技术面向的是海量、异构数据,因此,它需要提供高性能、高可靠的存储和访问能力。本节将介绍大数据存储技术的概率和原理,包括Hadoop分布式文件系统(HDFS)、列式数据库(Hbase)和其他数据存储技术
2.3.1分布式文件系统:HDFS
解决了大规模数据存储问题的有效方案。HDFS是hadoop两大核心组成部分之一
HDFS集群包含一个名称节点(NameNode)和若干数据节点(DataNode)
名称节点作为中心服务器,负责管理文件系统的命名空间,以及客户端对文件的访问
数据节点负责处理文件系统客户端的读写请求,它在名称节点的统一调度下进行数据库的创建、复制和删除等 *** 作。
2.HDFS的存储特点
体现在数据冗余存储、数据存储策略,以及数据错误与恢复等方面
2.1数据冗余存储是指HDFS采用了多副本方式对数据进行冗余存储。通常,一个数据块的多个副本会分布在不同的数据节点,比如数据块1被分别存放在数据节点A和数据节点C,而数据块2被分别存放在数据节点A和数据节点B。这种多副本的方式可以加快数据传输速度,易于检查数据错误,还能保证数据的可靠性
2.2在数据存储策略方面,HDFS针对数据存储,数据读取和数据复制等进行了设计与实现,以此提升系统整体的读写响应性能
2.3在数据错误与恢复方面,HDFS具有较高的容错性,无论是名称节节点或数据节点出错,还是数据出错,HDFS都可以检测到错误并自动恢复
2.3.2海量数据列式存储:Hbase
Hbase是一个建立在HDFS之上、面向列的NoSQL数据库。它可用于快速读写大量数据,是一个高可靠、高并发读写、高性能、面向列、可伸缩和易构建的分布式存储系统
Hbase具有海量数据存储、快速随机访问和大量写 *** 作等特点
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)