六、HBase写入流程

六、HBase写入流程,第1张

1、HBase写入流程

HBase服务端没有提供update,delete接口,HBase中对数据的更新、删除 *** 作都认为是写入 *** 作,更新 *** 作会写入一个最小版本数据,删除 *** 作写写入一条标记为deleted的KV数据

1.1、写入流程三个阶段概况

1)客户端处理阶段:客户端将用户请求进行预处理,并根据集群元数据定位写入数据所在的RegionServer,将请求发送给RS

2)Region写入阶段:RS收到请求之后解析数据,首先把数据写入WAL,再写入对应Region对应的MemStore

3)MemStore Flush阶段:当Region中MemStore容量达到一定阈值之后,系统异步执行flush *** 作,将内存写入文件,形成HFile

1.2、用户写入请求在完成写入MemStore之后就会返回成功。MemStore Flush是一个异步执行的过程。

1.3、客户端处理阶段步骤详解:

1)客户端可以设置批量提交,如果设置了批量提交(autoflush=false)客户端会先将数据写入本地缓冲区等达到一定阈值之后才会提交。否则put请求直接会提交给服务端进行处理。

2)RS寻址,在提交之前HBase会在元数据表hbase:meta中根据rowkey找到她们归属的RS

2.1)客户端根据写入的表和rowkey在元数据中查找,如果能够查找出该rowkey所在的RS及Region,就直接发送写入请求

2.2)如果客户端没有找到rowkey信息,需要首先到zk上找到hbase:meta表所在的RS,向那RS发送查询请求获取元数据,然后在元数据中查找rowkey所在的RS,并将元数据缓存在本地,以备下次使用。

3)客户端发送远程RPC请求给RS,将数据写入目标Region的MemStore中

1.4、Region写入阶段步骤详解:

1)获取行锁,HBase中使用行锁保证对同一行数据的更新是互斥 *** 作,用以保证更新的原子性,要么成功要么失败

2)更新所有待写入keyValue的时间戳为当前系统时间

3)对一次写入同一个Region的一个或多个KeyValue构建一条WALEdit记录,这样做的目的是保证Region级别事务的写入原子性

4)把WALEdit写入HLog,HLog是存储在HDFS上需要sync *** 作把HLog真正落地到HDFS,在这一部暂时不用执行sync,HBase使用了disruptor实现了高效的生产者消费者队列,来异步实现WAL的追加写入 *** 纵

5)写入WAL之后再将数据写入MemStore

6)释放行锁

7)sync WAL:将HLog真正sync到HDFS,如果sync失败,执行回滚 *** 作将MemStore数据移除

8)结束写事务。更新对外可见,更新生效

1.5、MemStore Flush阶段详解:

1.5.1、触发flush条件

1.5.1.1、MemStore级别限制,当Rgion中任意一个MemStore大小达到阈值(hbase.hrgion.memstore.flush.size)默认128M

1.5.1.2、Region级别限制:当Region所有MemStore的大小达到了上限(hbase.hregion.memstore.block.multiplier * hbase.hrgion.memstore.flush.size)超过memstore大小的倍数达到该值则阻塞所有写入请求进行flush,自我保护默认是2.

1.5.1.3、RegionServer级别限制:当RS中MemStore的总大小超过低水位阈值hbase.regionserver.global.memstore.size.lower.limit * hbase.reagionserver.global.memstore.size RS则开始强制执行flush,按Region中MemStore大小从大到小进行flush,直到总MemStore大小下降到低水位。

1.5.1.4、当一个RegionServer中HLog数量达到一定上限(hbase.regionserver.maxlogs),系统选择最早的HLog对应的Rgion进行Flush

1.5.1.5、HBase定期Flush,默认是1小时确保MemStore不会长时间没有持久化。为了避免同一时间所有都进行flush,定期的flush *** 作有一定时间的随机延迟

1.5.1.6、手动flush,用户可以通过flush 'tablename'或者 flush 'regionname'对一个表或者Region进行flush

1.5.2、flush执行步骤

1.5.2.1、prepare阶段

遍历当前region下的MemStore做一个快照,然后新一个ConcurrentSkipListMap接受新的数据请求。此阶段需要通过锁来阻塞写请求,结束后释放锁,此过程持锁时间很短

1.5.2.2、flush阶段

对快照数据按照特定格式生成HFile持久化为临时文件放在.tmp目录下。这个过程涉及到磁盘IO *** 作,相对比较耗时

1.5.2.3、commit阶段

把临时文件移动到指定的CF目录下。再清空快照数据。

1.5.3、MemStore Flush对业务的影响

1.5.3.1、大部分MemStore Flush *** 作都不会对业务读写产生太大影响,

1.5.3.2、Region Server级别呆滞的flush,会对用户请求产生较大影响,会阻塞落在该RS上的写入 *** 作。

1.6、HLog写入模型

1.6.1、HLog持久化级别

SKIP_WAL:只写缓存,不写HLog,不可取

ASYNC_WAL:异步写入HLog

SYNC_WAL:同步写入日志文件,数据只是被写入文件系统缓存中并没有真正落盘。默认是此级别

FSYNC_WAL:同步将数据写入日志文件并强制落盘,这是最严格的写入级别,保证数据不丢失,性能相对较差

USER_DEFAULT:如果用户没有指定持久化级别,默认HBase使用SYN_WAL等级持久化数据put.setDurability(Durability.SYNC_WAL)

1.6.2、HLog写入模型

1、HLog写入需要经过3个阶段:手写将数据写入本地缓存,然后将本地缓存写入文件系统,最后执行syn *** 作同步到磁盘

2、HBase使用LMAX Disruptor框架实现了无锁有界队列 *** 作,写入模型如下图

2、BulkLoad 流程

2.1、BulkLoad使用场景:用户数据位于HDFS中,业务需要定期将这部分海量数据导入HBase系统.

2.2、核心流程分两步

2.2.1、HFile生成阶段:运行一个MapReduce任务,map需要自己实现,将HDFS文件中的数据读取出来组装一个复合KV,其中Key是rowkey,Value可以是KeyValue对象、Put对象甚至Delete对象;reduce由HBase负责,他会根据表信息配置一个全局有序的partitioner,将partitioner文件上传到HDFS集群,设置reduce task个数为目标表的Region个数。为每个Region生成一个对应的HFile文件

2.2.2、HFile导入阶段:HFile主备就绪后,将HFile加载到在线集群。

2.3、Bulkload遇到的一些常见问题

2.3.1、设置正确的权限

2.3.1、BulkLoad *** 作过程涉及到的用户:

第一步,通过MapReduce任务生成HFile。假设这个过程使用的HDFS账号为:u_mapreduce.

第二步,将HFile加载到HBase集群,假设这个步骤使用的账号为:u_load。

一般地:HBase集群由一个专门的账号用来管理HBase数据,该账号拥有HBase集群的所有表的最高权限,

同时可以读写HBase root目录下的所有文件,假设这个账号为:hbase_srv

2.3.2、权限设置

2.3.2.1、通过MapReduce任务生成HFile,HFile文件的owner为u_mapreduce。

2.3.2.2、u_load需要HFile文件以及目录的读、写权限。写的权限是因为在HFile跨越多个Region时,需要对HFile进行split *** 作。

另外u_load账号需要HBase表的Create权限

2.3.2.3、hbase_srv账号把HFile文件从用户的数据目录rename到HBase的数据目录,所以hbase_sHrv需要有用户数据目录及HFile的读取

权限,但事实上仅读取权限还不够,应为加载到HBase数据目录的HFile目录的owner仍为u_mapreduce。一旦执行完compaction *** 作

之后,这些文件无法挪动到archive目录,导致文件越来越多。这个问题在HBase 2.x 上修复。

2.3.2、影响Locality

如果生成HFile都在的HDFS集群和HBase所在HDFS集群时同一个,则MapReduce生成HFile,能够保证HFile与目标Region落在同一个机器上。这样就保证了Locality。由hbase.bulkload.locality.sensitive.enabled的参数控制整个逻辑,默认是true.所以默认保证locality的。

如果用户MapReduce在A集群上生成HFile,通过distcp拷贝到集群B.这样BulkLoad到HBase集群数据是没法保证Locality的。需要跑完BulkLoad之后再手动执行major compact,来提升loaclity。

2.3.3、BulkLoad数据复制

在1.3之前版本中,BulkLoad到HBase集群的数据并不会复制到备集群,这样可能无意识的导致备集群比主集群少了很多数据。在HBase1.3版本之后开始支持BulkLoad数据复制。需要开启开关:hbase.replicatition.bulkload.enabled=true。

HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组:

sudo addgroup Hadoop#添加一个hadoop组

sudo usermod -a -G hadoop larry#将当前用户加入到hadoop组

sudo gedit etc/sudoers#将hadoop组加入到sudoer

在root ALL=(ALL) ALL后 hadoop ALL=(ALL) ALL

修改hadoop目录的权限

sudo chown -R larry:hadoop /home/larry/hadoop<所有者:组 文件>

sudo chmod -R 755 /home/larry/hadoop

修改hdfs的权限

sudo bin/hadoop dfs -chmod -R 755 /

sudo bin/hadoop dfs -ls /

修改hdfs文件的所有者

sudo bin/hadoop fs -chown -R larry /

sudo bin/hadoop dfsadmin -safemode leave #解除hadoop的安全模式

hadoop fs -copyFromLocal <localsrc>URI#拷贝本地文件到hdfs

hadoop fs -cat file:///file3 /user/hadoop/file4#将路径指定文件的内容输出到stdout

hadoop fs -chgrp [-R] GROUP URI#改变文件的所属组

hadoop fs -chmod [-R] 755 URI#改变用户访问权限

hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]#修改文件的所有者

hadoop fs -copyToLocal URI localdst#拷贝hdfs文件到本地

hadoop fs -cp URI [URI …] <dest>#拷贝hdfs文件到其它目录

hadoop fs -du URI [URI …]#显示目录中所有文件的大小

hadoop fs -getmerge <src><localdst>[addnl]#合并文件到本地目录

如:

root@cdh3:~# hdfs dfs -ls /

Found 8 items

drwxr-xr-x   - hbase hbase               0 2017-06-24 10:05 /hbase

drwxrwxr-x   - solr  solr                0 2016-12-01 22:43 /solr

drwxr-xr-x   - root  supergroup          0 2017-04-24 22:58 /sparklib

drwxr-xr-x   - root  supergroup          0 2017-07-19 17:44 /sparklib-2.1.0

drwxr-xr-x   - hdfs  supergroup          0 2016-12-05 09:08 /system

drwxrwxrwt   - hdfs  supergroup          0 2017-07-13 09:40 /tmp

drwxr-xrwx   - hdfs  supergroup          0 2017-06-23 10:54 /user

drwxr-xr-x   - root  supergroup          0 2017-04-13 11:12 /file

root@cdh3:~# hdfs dfs -chown Administrator /file

chown: changing ownership of '/file': Non-super user cannot change owner

root@cdh3:~# hdfs dfs -chown -R Administrator /file

chown: changing ownership of '/file': Non-super user cannot change owner

root@cdh3:~# su hdfs

hdfs@cdh3:/root$ hdfs dfs -chown -R Administrator /file

hdfs@cdh3:/root$ hdfs dfs -chgrp -R Administrator /file

hdfs@cdh3:/root$ hdfs dfs -ls /file

Found 9 items

-rw-r--r--   2 Administrator Administrator       3302 2017-04-13 11:11 /file/data-transfer.properties

-rw-r--r--   2 Administrator Administrator     313898 2017-04-13 11:00 /file/dom4j-1.6.1.jar

drwxr-xr-x   - Administrator Administrator          0 2017-04-12 10:03 /file/hangxin

-rw-r--r--   2 Administrator Administrator      24212 2017-03-17 12:06 /file/hx.jar

-rw-r--r--   2 Administrator Administrator     802721 2017-03-17 11:50 /file/mysql-connector-java-5.1.20-bin.jar

drwxr-xr-x   - Administrator Administrator          0 2017-03-22 09:46 /file/notregex

drwxr-xr-x   - Administrator Administrator          0 2017-04-25 00:01 /file/regex

-rw-r--r--   2 Administrator Administrator     106006 2017-04-13 11:12 /file/sihconfig.xml

-rw-r--r--   2 Administrator Administrator        123 2017-03-16 14:31 /file/spark-config.properties

#

hbase snapshot数据迁移问题

不需要提前建表,分区也会自动同步

HBase自身也提供了ExportSnapshot的方法可以从HDFS文件层基于某个快照快速的导出HBase的数据,并不会对RegionServer造成影响,但该源生的方法不支持增量

1、在源集群执行

snapshot 'src_table', 'snapshot_src_table'

snapshot的流程主要有三个步骤

加锁: 加锁对象是regionserver的memstore,目的是禁止在创建snapshot过程中对数据进行insert,update,delete *** 作

刷盘:刷盘是针对当前还在memstore中的数据刷到HDFS上,保证快照数据相对完整,此步也不是强制的,如果不刷会,快照中数据有不一致风险

创建指针: snapshot过程不拷贝数据,但会创建对HDFS文件的指针,snapshot中存储的就是这些指针元数据

2、在源集群执行,属于推送方式,在目标集群执行数据拉取方式

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snap -copy-from hdfs://HDFS80386/hbase -copy-to hdfs://shyt-hadoop-4031.xx.com.cn:8020/apps/hbase/data -mappers 20 -bandwidth 5

3、在目标集群执行使用hbase用户

disable 'dalishen:bbs_member'

restore_snapshot 'bbs_member_snap'

使用restore命令在目标集群自动新建表,以及与archive里的HFile建立link

执行该步骤的时候,可能会遇到权限问题,需要赋权限

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/archive/data/dalishen/bbs_member/f9406f2ff1fe4d542a5cc36b850c2689/f/.links-91a554a73b1e41a7a0b33208331d62df":hadoop:hdfs:drwxr-xr-x

源集群

groups hadoop hdfs 可以发现导入的是源集群的权限

所以需要赋权限

hdfs dfs -chmod -R 777 /apps/hbase/data/archive/data/dalishen/bbs_member/

enable 'dalishen:bbs_member'

不需要提前建表,分区也会自动同步,支持增量备份,需要指定要备份的时间范围

copyTable也是属于HBase数据迁移的工具之一,以表级别进行数据迁移。copyTable的本质也是利用MapReduce进行同步的,与DistCp不同的时,它是利用MR去scan 原表的数据,然后把scan出来的数据写入到目标集群的表。这种方式也有很多局限,如一个表数据量达到T级,同时又在读写的情况下,全量scan表无疑会对集群性能造成影响。

1.3->1.1 高到低版本 不需要提前建表,分区也会自动同步

检查是否开启同步

echo "list_replicated_tables" | hbase shell -n |grep dalishen:app_deviceid

没有的话执行

enable_table_replication 'tname'

1.源集群hadoop查询数据量,如太大先别迁移超过5000w

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'dalishen:app_deviceid'

2.源集群上执行 替换表名

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D mapreduce.task.timeout=6000000 --families=f:f --peer.adr=10.52.24.42:2181:/hbase-unsecure --new.name=dalishen:app_deviceid dalishen:app_deviceid

3.目标集群上执行数据量对比下

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'dalishen:app_deviceid'

4.指定时间戳进行增量同步

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D mapreduce.task.timeout=6000000 --starttime=1600792683760 --endtime=1600792684760 --families=f:f --peer.adr=172.18.12.7:2181:/hbase --new.name=testwang testwang

在源集群进入hbase shell

1、 add_peer '1', 'shyt-hadoop-4032.xxx.com.cn,shyt-hadoop-4031.xxx.com.cn,shyt-hadoop-4030.xxx.com.cn:2181:/hbase-unsecure'

2、修改REPLICATION_SCOPE属性=1,全局模式,此数据会被复制给所有peer

alter 'testwang',{NAME =>'f' ,REPLICATION_SCOPE =>'1'}

3、hbase(main):006:0> enable_table_replication 'testwang'

0 row(s) in 0.0860 seconds

The replication swith of table 'testwang' successfully enabled

验证在源集群 put 'testwang','1005','f:name','1005'

在目标集群 get 'testwang','1005'

校验数据量:通count

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'testwang'

查看同步状态: status 'replication'

建议大表先进行snapshot方式同步,然后再利用copy进行增量数据同步,小表直接copy table数据迁移,最后配置hbase replication peer实时同步


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/11300019.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-15
下一篇 2023-05-15

发表评论

登录后才能评论

评论列表(0条)

保存