计算机里面Hbase作用是什么

计算机里面Hbase作用是什么,第1张

HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群

模型

主要讨论逻辑模型和物理模型

(1)逻辑模型

Hbase的名字的来源是Hadoop database,即hadoop数据库。

主要是从用户角度来考虑,即如何使用Hbase。

(2)物理模型

主要从实现Hbase的角度来讨论

HBase数据模型

逻辑结构

逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi-dimensional map

1、要在HBase表中实现索引,可以使用Regions建立列族和表,并通过对该列采用IndexTable设置索引参数来获得。

2、原因是HBase是一个分布式数据库,其中的数据都是有序的,可以利用这一有序性来获得更快的查询效果。

给你一个类的代码,你看看就知道怎么连接的了

import javaioIOException;

import javautilMap;

import orgapachehadoopconfConfiguration;

import orgapachehadoophbaseHBaseConfiguration;

import orgapachehadoophbaseHColumnDescriptor;

import orgapachehadoophbaseHTableDescriptor;

import orgapachehadoophbaseclientHBaseAdmin;

import orgapachehadoophbaseclientHTable;

import orgapachehadoophbaseclientPut;

import orgapachehadoophbaseclientResult;

public class Htable {

    public static void main(String[] args) throws IOException {

//        Configuration hbaseConf = HBaseConfigurationcreate();

        

        Configuration HBASE_CONFIG = new Configuration();  

        //与hbase/conf/hbase-sitexml中hbasemaster配置的值相同   

        HBASE_CONFIGset("hbasemaster", "91868927:60000");  

        //与hbase/conf/hbase-sitexml中hbasezookeeperquorum配置的值相同   

        HBASE_CONFIGset("hbasezookeeperquorum", "91868927,91868929,91868931,91868933,91868934");  

        //与hbase/conf/hbase-sitexml中hbasezookeeperpropertyclientPort配置的值相同  

        HBASE_CONFIGset("hbasezookeeperpropertyclientPort", "2181");  

        Configuration hbaseConf = HBaseConfigurationcreate(HBASE_CONFIG);  

        HBaseAdmin admin = new HBaseAdmin(hbaseConf);

        // set the name of table

        HTableDescriptor htableDescriptor = new HTableDescriptor("test11"getBytes());

        // set the name of column clusters

        htableDescriptoraddFamily(new HColumnDescriptor("cf1"));

        if (admintableExists(htableDescriptorgetName())) {

            admindisableTable(htableDescriptorgetName());

            admindeleteTable(htableDescriptorgetName());

        }

        // create a table

        admincreateTable(htableDescriptor);

        // get instance of table

        HTable table = new HTable(hbaseConf, "test11");

        // for is number of rows

        for (int i = 0; i < 3; i++) {

            // the ith row

            Put putRow = new Put(("row" + i)getBytes());

            // set the name of column and value

            putRowadd("cf1"getBytes(), (i+"col1")getBytes(), (i+"vaule1")getBytes());

            putRowadd("cf1"getBytes(), (i+"col2")getBytes(), (i+"vaule2")getBytes());

            putRowadd("cf1"getBytes(), (i+"col3")getBytes(), (i+"vaule3")getBytes());

            tableput(putRow);

        }

        // get data of column clusters

        for (Result result : tablegetScanner("cf1"getBytes())) {

            // get collection of result

            for (MapEntry<byte[], byte[]> entry : resultgetFamilyMap("cf1"getBytes())entrySet()) {

                String column = new String(entrygetKey());

                String value = new String(entrygetValue());

                Systemoutprintln(column + "," + value);

            }

        }

    }

}

1、HBase写入流程

HBase服务端没有提供update,delete接口,HBase中对数据的更新、删除 *** 作都认为是写入 *** 作,更新 *** 作会写入一个最小版本数据,删除 *** 作写写入一条标记为deleted的KV数据

11、写入流程三个阶段概况

1)客户端处理阶段:客户端将用户请求进行预处理,并根据集群元数据定位写入数据所在的RegionServer,将请求发送给RS

2)Region写入阶段:RS收到请求之后解析数据,首先把数据写入WAL,再写入对应Region对应的MemStore

3)MemStore Flush阶段:当Region中MemStore容量达到一定阈值之后,系统异步执行flush *** 作,将内存写入文件,形成HFile

12、用户写入请求在完成写入MemStore之后就会返回成功。MemStore Flush是一个异步执行的过程。

13、客户端处理阶段步骤详解:

1)客户端可以设置批量提交,如果设置了批量提交(autoflush=false)客户端会先将数据写入本地缓冲区等达到一定阈值之后才会提交。否则put请求直接会提交给服务端进行处理。

2)RS寻址,在提交之前HBase会在元数据表hbase:meta中根据rowkey找到她们归属的RS

21)客户端根据写入的表和rowkey在元数据中查找,如果能够查找出该rowkey所在的RS及Region,就直接发送写入请求

22)如果客户端没有找到rowkey信息,需要首先到zk上找到hbase:meta表所在的RS,向那RS发送查询请求获取元数据,然后在元数据中查找rowkey所在的RS,并将元数据缓存在本地,以备下次使用。

3)客户端发送远程RPC请求给RS,将数据写入目标Region的MemStore中

14、Region写入阶段步骤详解:

1)获取行锁,HBase中使用行锁保证对同一行数据的更新是互斥 *** 作,用以保证更新的原子性,要么成功要么失败

2)更新所有待写入keyValue的时间戳为当前系统时间

3)对一次写入同一个Region的一个或多个KeyValue构建一条WALEdit记录,这样做的目的是保证Region级别事务的写入原子性

4)把WALEdit写入HLog,HLog是存储在HDFS上需要sync *** 作把HLog真正落地到HDFS,在这一部暂时不用执行sync,HBase使用了disruptor实现了高效的生产者消费者队列,来异步实现WAL的追加写入 *** 纵

5)写入WAL之后再将数据写入MemStore

6)释放行锁

7)sync WAL:将HLog真正sync到HDFS,如果sync失败,执行回滚 *** 作将MemStore数据移除

8)结束写事务。更新对外可见,更新生效

15、MemStore Flush阶段详解:

151、触发flush条件

1511、MemStore级别限制,当Rgion中任意一个MemStore大小达到阈值(hbasehrgionmemstoreflushsize)默认128M

1512、Region级别限制:当Region所有MemStore的大小达到了上限(hbasehregionmemstoreblockmultiplier hbasehrgionmemstoreflushsize)超过memstore大小的倍数达到该值则阻塞所有写入请求进行flush,自我保护默认是2

1513、RegionServer级别限制:当RS中MemStore的总大小超过低水位阈值hbaseregionserverglobalmemstoresizelowerlimit hbasereagionserverglobalmemstoresize RS则开始强制执行flush,按Region中MemStore大小从大到小进行flush,直到总MemStore大小下降到低水位。

1514、当一个RegionServer中HLog数量达到一定上限(hbaseregionservermaxlogs),系统选择最早的HLog对应的Rgion进行Flush

1515、HBase定期Flush,默认是1小时确保MemStore不会长时间没有持久化。为了避免同一时间所有都进行flush,定期的flush *** 作有一定时间的随机延迟

1516、手动flush,用户可以通过flush 'tablename'或者 flush 'regionname'对一个表或者Region进行flush

152、flush执行步骤

1521、prepare阶段

遍历当前region下的MemStore做一个快照,然后新一个ConcurrentSkipListMap接受新的数据请求。此阶段需要通过锁来阻塞写请求,结束后释放锁,此过程持锁时间很短

1522、flush阶段

对快照数据按照特定格式生成HFile持久化为临时文件放在tmp目录下。这个过程涉及到磁盘IO *** 作,相对比较耗时

1523、commit阶段

把临时文件移动到指定的CF目录下。再清空快照数据。

153、MemStore Flush对业务的影响

1531、大部分MemStore Flush *** 作都不会对业务读写产生太大影响,

1532、Region Server级别呆滞的flush,会对用户请求产生较大影响,会阻塞落在该RS上的写入 *** 作。

16、HLog写入模型

161、HLog持久化级别

SKIP_WAL:只写缓存,不写HLog,不可取

ASYNC_WAL:异步写入HLog

SYNC_WAL:同步写入日志文件,数据只是被写入文件系统缓存中并没有真正落盘。默认是此级别

FSYNC_WAL:同步将数据写入日志文件并强制落盘,这是最严格的写入级别,保证数据不丢失,性能相对较差

USER_DEFAULT:如果用户没有指定持久化级别,默认HBase使用SYN_WAL等级持久化数据putsetDurability(DurabilitySYNC_WAL);

162、HLog写入模型

1、HLog写入需要经过3个阶段:手写将数据写入本地缓存,然后将本地缓存写入文件系统,最后执行syn *** 作同步到磁盘

2、HBase使用LMAX Disruptor框架实现了无锁有界队列 *** 作,写入模型如下图

2、BulkLoad 流程

21、BulkLoad使用场景:用户数据位于HDFS中,业务需要定期将这部分海量数据导入HBase系统

22、核心流程分两步

221、HFile生成阶段:运行一个MapReduce任务,map需要自己实现,将HDFS文件中的数据读取出来组装一个复合KV,其中Key是rowkey,Value可以是KeyValue对象、Put对象甚至Delete对象;reduce由HBase负责,他会根据表信息配置一个全局有序的partitioner,将partitioner文件上传到HDFS集群,设置reduce task个数为目标表的Region个数。为每个Region生成一个对应的HFile文件

222、HFile导入阶段:HFile主备就绪后,将HFile加载到在线集群。

23、Bulkload遇到的一些常见问题

231、设置正确的权限

231、BulkLoad *** 作过程涉及到的用户:

第一步,通过MapReduce任务生成HFile。假设这个过程使用的HDFS账号为:u_mapreduce

第二步,将HFile加载到HBase集群,假设这个步骤使用的账号为:u_load。

一般地:HBase集群由一个专门的账号用来管理HBase数据,该账号拥有HBase集群的所有表的最高权限,

同时可以读写HBase root目录下的所有文件,假设这个账号为:hbase_srv

232、权限设置

2321、通过MapReduce任务生成HFile,HFile文件的owner为u_mapreduce。

2322、u_load需要HFile文件以及目录的读、写权限。写的权限是因为在HFile跨越多个Region时,需要对HFile进行split *** 作。

另外u_load账号需要HBase表的Create权限

2323、hbase_srv账号把HFile文件从用户的数据目录rename到HBase的数据目录,所以hbase_sHrv需要有用户数据目录及HFile的读取

权限,但事实上仅读取权限还不够,应为加载到HBase数据目录的HFile目录的owner仍为u_mapreduce。一旦执行完compaction *** 作

之后,这些文件无法挪动到archive目录,导致文件越来越多。这个问题在HBase 2x 上修复。

232、影响Locality

如果生成HFile都在的HDFS集群和HBase所在HDFS集群时同一个,则MapReduce生成HFile,能够保证HFile与目标Region落在同一个机器上。这样就保证了Locality。由hbasebulkloadlocalitysensitiveenabled的参数控制整个逻辑,默认是true所以默认保证locality的。

如果用户MapReduce在A集群上生成HFile,通过distcp拷贝到集群B这样BulkLoad到HBase集群数据是没法保证Locality的。需要跑完BulkLoad之后再手动执行major compact,来提升loaclity。

233、BulkLoad数据复制

在13之前版本中,BulkLoad到HBase集群的数据并不会复制到备集群,这样可能无意识的导致备集群比主集群少了很多数据。在HBase13版本之后开始支持BulkLoad数据复制。需要开启开关:hbasereplicatitionbulkloadenabled=true。

hbase13

HTable 是我们对数据读取, *** 作的入口, implements HTableInterface, RegionLocator

内部构造

有一个检查 的动作待详细查看

关于BufferedMutator, 是用来缓存客户端的 *** 作的, hbase 将客户端的DML抽象成了 Mutation , 子类有: Append, Delete, Increment, Put *** 作

put方法将Put对象包装成Mutation,交给BufferedMutator, 到达设置的大小限制,或者主动调用flush *** 作, 会触发 backgroundFlushCommits(boolean synchronous) *** 作, 然后Mutation由 AsyncProcess 提交,详细查看 BufferedMutatorImpl 类

由 AscncProcess 提交后, (注释:Action类是将行与对应 *** 作结合的类), 由connection去寻找每一行对应的region位置, 包装action, server, region等信息添加到 MutiAction 中去, 这个类持有按照region分组的actions,

然后会对每个action都创建 SingleServerRequestRunnable (rpc caller 和rpc callable, caller call callable), 交给线程池去运行

删除 *** 作很简单: 创建 RegionServerCallable , 然后rpc工厂类创建rpc caller来调用它

get和scan都是继承了Query

get很简单:首先检查,这个get是否只是检查数据存在否, 并且检查是否指定了一致性等级(默认 (ConsistencySTRONG) ), 之后创建rpc请求Request, 如果 不是强一致性ConsistencyTIMELINE , 则调用 RpcRetryingCallerWithReadReplicas , 它可以从replica上读取, 返回的数据被标记为stale(读 *** 作是通过 ConsistencyTIMELINE ,然后读RPC将会首先发送到主region服务器上,在短时间内(hbaseclientprimaryCallTimeoutget默认为10ms),如果主region没有响应RPC会被发送到从region。 之后结果会从第一个完成RPC的返回。如果响应是来自主region副本,我们就会知道数据是最新的,ResultisStale() API是检查过期数据,如果结果是 从region返回,那么ResultisStale()为true,然后用户就可以检查关于过期数据可能的原因。)

当replica_id=0的regin不可以时候, 给所有的replica region发送请求,获取第一个从这些replica返回的数据, 客户端可以 ResultisStale()检查是否是来自副本的数据

Scan 类可以设置一系列的属性, startkey,endkey, 过滤器, 版本,缓存,最大取回大小等等, 但是获取数据是由 getScanner(Scan)返回的 ResultScanner *** 作的

返回的 ResultScanner 有small, Reversed,big和纯client 的不同,

什么是small scan

见 >

1、首先你有没有那么多台服务器的集群,如果只是几台,你要想够不够,你的hbase 有几百亿,那么你hdfs上的数据可能要有两个备份,你这几百亿条是如何生成的,肯定是mapreduce跑出来导入到hbase中把,那么原始数据你要不要留,如果留,加上备份就要三份,所以节点的多少要确定。

2、几百亿其实挺多的,hbase 的设计一定要跟你的业务相关,hbase他不能完全像关系型数据库那样去随意查询,到达一定量级,如果设计的不好也是非常之慢的,甚至将hbase搞到崩溃。所以你先去网上看看rowkey的设计原则,比如长度原则等等,然后根据自己业务,哪些查询经常用到,哪些不会用到,想要用hbase实现那种非常灵活的类似关系数据库的查询是不理智的。

3、楼上的兄弟说得对,还有region热点的问题,如果你的hbase数据不是那种每天增量的数据,建议跑个mapreduce对你的数据进行各评判,看看如何能将数据尽可能均匀的分配到每个region中,当然这需要预先分配region

4、几百亿条数据,如果对rowkey进行模糊过滤一定非常非常之慢,所以可以考虑二级索引或者协处理器

以上就是关于计算机里面Hbase作用是什么全部的内容,包括:计算机里面Hbase作用是什么、请描述怎样才能获得hbase表中哪些列能实现索引为什么、HBase数据库是通过(oracle jdbc连接)啥被应用程序连接的通过(关系型是statement和sql增删)啥增删的等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/sjk/10217564.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-06
下一篇 2023-05-06

发表评论

登录后才能评论

评论列表(0条)

保存