hbase 数据迁移_sql

hbase snapshot数据迁移问题

不需要提前建表，分区也会自动同步

HBase自身也提供了ExportSnapshot的方法可以从HDFS文件层基于某个快照快速的导出HBase的数据，并不会对RegionServer造成影响，但该源生的方法不支持增量

1、在源集群执行

snapshot 'src_table', 'snapshot_src_table'

snapshot的流程主要有三个步骤

加锁: 加锁对象是regionserver的memstore，目的是禁止在创建snapshot过程中对数据进行insert,update,delete *** 作

刷盘：刷盘是针对当前还在memstore中的数据刷到HDFS上，保证快照数据相对完整，此步也不是强制的，如果不刷会，快照中数据有不一致风险

创建指针: snapshot过程不拷贝数据，但会创建对HDFS文件的指针，snapshot中存储的就是这些指针元数据

2、在源集群执行，属于推送方式，在目标集群执行数据拉取方式

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot test_snap -copy-from hdfs://HDFS80386/hbase -copy-to hdfs://shyt-hadoop-4031.xx.com.cn:8020/apps/hbase/data -mappers 20 -bandwidth 5

3、在目标集群执行使用hbase用户

disable 'dalishen:bbs_member'

restore_snapshot 'bbs_member_snap'

使用restore命令在目标集群自动新建表，以及与archive里的HFile建立link

执行该步骤的时候，可能会遇到权限问题，需要赋权限

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=hbase, access=WRITE, inode="/apps/hbase/data/archive/data/dalishen/bbs_member/f9406f2ff1fe4d542a5cc36b850c2689/f/.links-91a554a73b1e41a7a0b33208331d62df":hadoop:hdfs:drwxr-xr-x

源集群

groups hadoop hdfs 可以发现导入的是源集群的权限

所以需要赋权限

hdfs dfs -chmod -R 777 /apps/hbase/data/archive/data/dalishen/bbs_member/

enable 'dalishen:bbs_member'

不需要提前建表，分区也会自动同步，支持增量备份，需要指定要备份的时间范围

copyTable也是属于HBase数据迁移的工具之一，以表级别进行数据迁移。copyTable的本质也是利用MapReduce进行同步的，与DistCp不同的时，它是利用MR去scan 原表的数据，然后把scan出来的数据写入到目标集群的表。这种方式也有很多局限，如一个表数据量达到T级，同时又在读写的情况下，全量scan表无疑会对集群性能造成影响。

1.3->1.1 高到低版本不需要提前建表，分区也会自动同步

检查是否开启同步

echo "list_replicated_tables" | hbase shell -n |grep dalishen:app_deviceid

没有的话执行

enable_table_replication 'tname'

1.源集群hadoop查询数据量，如太大先别迁移超过5000w

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'dalishen:app_deviceid'

2.源集群上执行替换表名

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D mapreduce.task.timeout=6000000 --families=f:f --peer.adr=10.52.24.42:2181:/hbase-unsecure --new.name=dalishen:app_deviceid dalishen:app_deviceid

3.目标集群上执行数据量对比下

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'dalishen:app_deviceid'

4.指定时间戳进行增量同步

hbase org.apache.hadoop.hbase.mapreduce.CopyTable -Dhbase.client.scanner.caching=1000 -Dmapred.map.tasks.speculative.execution=false -D mapreduce.task.timeout=6000000 --starttime=1600792683760 --endtime=1600792684760 --families=f:f --peer.adr=172.18.12.7:2181:/hbase --new.name=testwang testwang

在源集群进入hbase shell

1、 add_peer '1', 'shyt-hadoop-4032.xxx.com.cn,shyt-hadoop-4031.xxx.com.cn,shyt-hadoop-4030.xxx.com.cn:2181:/hbase-unsecure'

2、修改REPLICATION_SCOPE属性=1，全局模式，此数据会被复制给所有peer

alter 'testwang',{NAME =>'f' ,REPLICATION_SCOPE =>'1'}

3、hbase(main):006:0> enable_table_replication 'testwang'

0 row(s) in 0.0860 seconds

The replication swith of table 'testwang' successfully enabled

验证在源集群 put 'testwang','1005','f:name','1005'

在目标集群 get 'testwang','1005'

校验数据量：通count

hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'testwang'

查看同步状态： status 'replication'

建议大表先进行snapshot方式同步，然后再利用copy进行增量数据同步，小表直接copy table数据迁移，最后配置hbase replication peer实时同步

主要有三种方法：

1、Put API

Put API可能是将数据快速导入HBase表的最直接的方法。但是在导入【大量数据】时不建议使用！但是可以作为简单数据迁移的选择，直接写个代码批量处理，开发简单、方便、可控强。

2、MapReduce Job

推荐使用sqoop，它的底层实现是mapreduce，数据并行导入的，这样无须自己开发代码，过滤条件通过query参数可以实现。

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将MySQL中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到Mysql中。

参考Index of /docs。

采用如下命令：sqoop import

--connect jdbc:mysql://localhost/db

--username root -P

--table mysql_order

--columns "id,name"

--hbase-table hbase_order

--column-family f

--hbase-row-key id

--query "select id,name from mysql_order where..."

-m 1

3、采用Bulk load装载数据

bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中，对于海量数据装载入hbase非常有用。

需要将MySQL的表数据导出为TSV格式（因为后面使用Import TSV工具），还需要确保有一个字段可以表示HBase表行的row key。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/6781792.html

hbase 数据迁移

发表评论

评论列表（0条）