hbase的元数据会保存在mysql吗_随笔

大家都知道Hadoop是一个数据库，其实说的的就是Hbase。它和我们平常理解的关系型数据库有什么区别呢？

1.它是NoSQL的，它没有SQL的接口，有自己的一套API。

2.关系型数据库可以做汇总，可以进行常规的分析，但是Hbase不可以，它不能做汇总。那么Hbase *** 作不方便，不能做汇总，不能做分析，有什么作用呢？它的随机读写效率很高，可以存储海量数据，基于某个网点，某个城市，某个机器随机去查询速度快。或者去存储基于时间序列的数据，比如微信、微博、日志的数据，效率很高。

3.它的存储是列式的，平常我们接触的MySQL，Oracle,RDBMS都是行存储。行存储和列存储的区别是：行存储适合在线事务的场景，适合随机的访问，比如去银行修改账户记录，修改个人信息，这个修改就是从数据库中找到你信息所在的行。列存储就是以列为单位进行连续存储，如果以列存储放到银行这个场景中会是怎样的一种效果呢？如果想要修改信息，那么定义到用户所在行信息，就会扫描到整个表，所以行存储主要用于在线事务处理，而列存储适用于数据分析。因为在大数据的数据库场景中，我们会构建很宽的事实表，通过信息模型有个中心，围绕这个中心扩散出很多维度，这个中间表是一个很宽的表，在我们进行特定业务分析的时候，比如分析广告业务推广的情况，可能只需要从很多资料中选取一部分变量进行分析，如果使用行存储，那么就是全表扫描，而使用列存储会选取特定部分，效率很高。

HBase vs RDBMS

通过以上描述，我们分析一下hbase的特点：

（1）存储海量数据：Pb+

（2）高吞吐：每秒每个节点上千次写

（3）适合处理稀疏数据（半结构化数据）：存储一行的空列没有空间浪费。因为半结构化数据有大量的空存在，那么使用结构化数据存储到关系型数据库，就会有大量的空间浪费，而且不适合做分析。

但是hbase访问模式是受到限制的，它对基于行键的查找做了优化，而不是全文查询；没有事务，只支持单行 *** 作。

说了这么多，那么我们为什么使用Hbase呢？这里我们做一个对比：

（1）使用HDFS

你只需要追加到数据集（没有随机写）

通常读取整个数据集（没有随机读）

（2）使用HBase

你需要随机写或读

每秒对TB级的数据执行上千次 *** 作

（3）使用RDBMS

数据放在一个大节点上

需要全部的事务支持

需要实时查询的能力

那是因为： Mysql ，(Mysql 随机插入的代价)主键索引是有序的 B+ 树结构，新增条目的 id 肯定是最大的，新增给 B+ 结构带来的调整最小，主键索引是聚簇的：新增条目，id 是最大的。其 data 追加在上一次插入的后面，磁盘更容易顺序写，辅助索引，插入基本是随机的插入条目，可能会引起 B+ 树结构很大的调整。

HBase 可以随机插入HBase 的所有插入只是写入内存 memstore，只保证内存数据的有序即可 (很快、很容易)。为防止数据丢失写入 memstore 前，先写入 wal (可以关闭，速度更快)

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/8684638.html

hbase的元数据会保存在mysql吗

发表评论

评论列表（0条）