Hbase知识点总结_工具

hbase概念:

非结构化的分布式的面向列存储非关系型的开源的数据库，根据谷歌的三大论文之一的bigtable

高宽厚表

作用:

为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

能干什么:

存储大量结果集数据，低延迟的随机查询。

sql:

结构化查询语言

nosql:

非关系型数据库，列存储和文档存储(查询低延迟),hbase是nosql的一个种类，其特点是列式存储。

非关系型数据库--列存储(hbase)

非关系型数据库--文档存储(MongoDB)

非关系型数据库--内存式存储(redis)

非关系型数据库--图形模型(graph)

hive和hbase区别

Hive的定位是数据仓库，虽然也有增删改查，但其删改查对应的是整张表而不是单行数据，查询的延迟较高。其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。

HBase的定位是hadoop的数据库，电脑培训发现是一个典型的Nosql，所以HBase是用来在大量数据中进行低延迟的随机查询的。

hbase运行方式:

standalonedistrubited

单节点和伪分布式

单节点:单独的进程运行在同一台机器上

hbase应用场景:

存储海量数据低延迟查询数据

hbase表由多行组成

hbase行一行在hbase中由行健和一个或多个列的值组成，按行健字母顺序排序的存储。

对于hbase当前noSql数据库的一种，最常见的应用场景就是采集的网页数据的存储，由于是key-value型数据库，可以再扩展到各种key-

value应用场景，如日志信息的存储，对于内容信息不需要完全结构化出来的类CMS应用等。注意hbase针对的仍然是OLTP应用为主。

对于hive主要针对的是OLAP应用，注意其底层不是hbase，而是hdfs分布式文件系统，重点是基于一个统一的查询分析层，支撑OLAP应用中的各种关联，分组，聚合类SQL语句。hive一般只用于查询分析统计，而不能是常见的CUD *** 作，要知道HIVE是需要从已有的数据库或日志进行同步最终入到hdfs文件系统中，当前要做到增量实时同步都相当困难。

和mysql,oracle完全不是相同的应用场景。这个是结构化数据库，针对的更多的是结构化，事务一致性要求高，业务规则逻辑复杂，数据模型复杂的企业信息化类应用等。包括互联网应用中的很多业务系统也需要通过结构化数据库来实现。所以和hbase,hive不是一个层面的东西，不比较。

目前最主流的sql server、oracle、mysql、db2都是关系型数据库。随着社交网站、视频网站等互联网新业务模式的兴起，各种非关系数据库模型也在不断涌现。

以下是copy的：

数据模型概述

1关系模型

关系模型使用记录（由元组组成）进行存储，记录存储在表中，表由架构界定。表中的每个列都有名称和类型，表中的所有记录都要符合表的定义。SQL是专门的查询语言，提供相应的语法查找符合条件的记录，如表联接（Join）。表联接可以基于表之间的关系在多表之间查询记录。

表中的记录可以被创建和删除，记录中的字段也可以单独更新。

关系模型数据库通常提供事务处理机制，这为涉及多条记录的自动化处理提供了解决方案。

对不同的编程语言而言，表可以被看成数组、记录列表或者结构。表可以使用B树和哈希表进行索引，以应对高性能访问。

2键值存储

键值存储提供了基于键对值的访问方式。

键值对可以被创建或删除，与键相关联的值可以被更新。

键值存储一般不提供事务处理机制。

对不同的编程语言而言，键值存储类似于哈希表。对此，不同的编程语言有不同的名字（如，Java称之为“HashMap”，Perl称之为“hash”，Python称之为“dict”，PHP称之为“associative array”），C++则称之为“boost::unordered_map<>”。

键值存储支持键上自有的隐式索引。

键值存储看起来好像不太有用，但却可以在“值”上存储大量信息。“值”可以是一个XML文档，一个JSON对象，或者其它任何序列化形式。

重要的是，键值存储引擎并不在意“值”的内部结构，它依赖客户端对“值”进行解释和管理。

3文档存储

文档存储支持对结构化数据的访问，不同于关系模型的是，文档存储没有强制的架构。

事实上，文档存储以封包键值对的方式进行存储。在这种情况下，应用对要检索的封包采取一些约定，或者利用存储引擎的能力将不同的文档划分成不同的集合，以管理数据。

与关系模型不同的是，文档存储模型支持嵌套结构。例如，文档存储模型支持XML和JSON文档，字段的“值”又可以嵌套存储其它文档。文档存储模型也支持数组和列值键。

与键值存储不同的是，文档存储关心文档的内部结构。这使得存储引擎可以直接支持二级索引，从而允许对任意字段进行高效查询。支持文档嵌套存储的能力，使得查询语言具有搜索嵌套对象的能力，XQuery就是一个例子。MongoDB通过支持在查询中指定JSON字段路径实现类似的功能。

4列式存储

如果翻转数据，列式存储与关系存储将会非常相似。与关系模型存储记录不同，列式存储以流的方式在列中存储所有的数据。对于任何记录，索引都可以快速地获取列上的数据。

Map-reduce的实现Hadoop的流数据处理效率非常高，列式存储的优点体现的淋漓极致。因此，HBase和Hypertable通常作为非关系型数据仓库，为Map-reduce进行数据分析提供支持。

关系类型的列标对数据分析效果不好，因此，用户经常将更复杂的数据存储在列式数据库中。这直接体现在Cassandra中，它引入的“column family”可以被认为是一个“super-column”。

列式存储支持行检索，但这需要从每个列获取匹配的列值，并重新组成行。

5图形数据库

图形数据库存储顶点和边的信息，有的支持添加注释。

图形数据库可用于对事物建模，如社交图谱、真实世界的各种对象。IMDB（Internet Movie Database）站点的内容就组成了一幅复杂的图像，演员与**彼此交织在一起。

图形数据库的查询语言一般用于查找图形中断点的路径，或端点之间路径的属性。Neo4j是一个典型的图形数据库。

选择哪一种数据模型？

数据模型有着各自的优缺点，它们适用于不同的领域。不管是选择关系模型，还是非关系模型，都要根据实际应用的场景做出选择。也许你会发现单一的数据模型不能满足你的解决方案，许多大型应用可能需要集成多种数据模型。

阅读数：9381

Hbase概述

hbase是一个构建在HDFS上的分布式列存储系统。HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储。从逻辑上讲，HBase将数据按照表、行和列进行存储。

如图所示，Hbase构建在HDFS之上，hadoop之下。其内部管理的文件全部存储在HDFS中。与HDFS相比两者都具有良好的容错性和扩展性，都可以扩展到成百上千个节点。但HDFS适合批处理场景，不支持数据随机查找，不适合增量数据处理且不支持数据更新。

Hbase是列存储的非关系数据库。传统数据库MySQL等，数据是按行存储的。其没有索引的查询将消耗大量I/O 并且建立索引和物化视图需要花费大量时间和资源。因此，为了满足面向查询的需求，数据库必须被大量膨胀才能满足性能要求。

Hbase数据是按列存储-每一列单独存放。列存储的优点是数据即是索引。访问查询涉及的列-大量降低系统I/O 。并且每一列由一个线索来处理，可以实现查询的并发处理。基于Hbase数据类型一致性，可以实现数据库的高效压缩。

HBase数据模型

HBase是基于Google BigTable模型开发的，典型的key/value系统。一个Row key对应很多Column Family，Column Family中有很多Column。其中，保存了不同时间戳的数据。

如图所示，Rowkey cutting对应列簇info和roles。其中，info中有key-value对hight-9ft，state-CA。更清晰的结构如下图所：

Hbase的所有 *** 作均是基于rowkey的。支持CRUD（Create、Read、Update和Delete）和 Scan *** 作。包括单行 *** 作Put 、Get、Scan。多行 *** 作包括Scan和MultiPut。但没有内置join *** 作，可使用MapReduce解决。

HBase物理模型

Hbase的Table中的所有行都按照row key的字典序排列。Table 在行的方向上分割为多个Region。、Region按大小分割的，每个表开始只有一个region，随着数据增多，region不断增大，当增大到一个阀值的时候， region就会等分会两个新的region，之后会有越来越多的 region。

Region是HBase中分布式存储和负载均衡的最小单元。不同Region分布到不同RegionServer上。

Region虽然是分布式存储的最小单元，但并不是存储的最小单元。Region由一个或者多个Store组成，每个store保存一个 columns family。每个Strore又由一个memStore和0至多个StoreFile组成。memStore存储在内存中，StoreFile存储在HDFS上。

HBase基本架构

HBase构建在HDFS之上，其组件包括 Client、zookeeper、HDFS、Hmaster以及HRegionServer。Client包含访问HBase的接口，并维护cache来加快对HBase的访问。Zookeeper用来保证任何时候，集群中只有一个master，存贮所有Region的寻址入口以及实时监控Region server的上线和下线信息。并实时通知给Master存储HBase的schema和table元数据。HMaster负责为Region server分配region和Region server的负载均衡。如果发现失效的Region server并重新分配其上的region。同时，管理用户对table的增删改查 *** 作。Region Server 负责维护region，处理对这些region的IO请求并且切分在运行过程中变得过大的region。

HBase 依赖ZooKeeper，默认情况下，HBase 管理ZooKeeper 实例。比如，启动或者停止ZooKeeper。Master与RegionServers 启动时会向ZooKeeper注册。因此，Zookeeper的引入使得 Master不再是单点故障。

Client每次写数据库之前，都会首先血Hlog日志。记录写 *** 作。如果不做日志记录，一旦发生故障， *** 作将不可恢复。HMaster一旦故障，Zookeeper将重新选择一个新的Master 。无Master过程中，数据读取仍照常进行。但是，无master过程中，region切分、负载均衡等无法进行。RegionServer出现故障的处理原理是定时向Zookeeper汇报心跳，如果一旦时间内未出现心跳HMaster将该RegionServer上的Region重新分配到其他RegionServer上。失效服务器上“预写”日志由主服务器进行分割并派送给新的 RegionServer 。Zookeeper是一个可靠地服务，一般配置3或5个Zookeeper实例。

寻找RegionServer定位的顺序是ZooKeeper --ROOT-(单Region) -META -用户表。如上图所示。-ROOT- 表包含META表所在的region列表，该表只会有一个Region。 Zookeeper中记录了-ROOT-表的location。 META 表包含所有的用户空间region列表，以及 RegionServer的服务器地址。

HBase应用举例

Hbase适合需对数据进行随机读 *** 作或者随机写 *** 作、大数据上高并发 *** 作，比如每秒对PB级数据进行上千次 *** 作以及读写访问均是非常简单的 *** 作。

淘宝指数是Hbase在淘宝的一个典型应用。交易历史纪录查询很适合用Hbase作为底层数据库。

以上就是关于Hbase知识点总结全部的内容，包括:Hbase知识点总结、hbase和hive的差别是什么，各自适用在什么场景中、当前主流的数据库系统通常采用哪几种模型等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/10196343.html

Hbase知识点总结

发表评论

评论列表（0条）