mysql数据增量同步到hive_随笔

同步业务库的数据到ODS层，之前一直是全量同步数据，主要考虑IO太大，耗时太长，重复拉取同样的数据，现在考虑增量同步的方式实现，同时对库表数据做分区。

增量同步主要分为两步，第一步，存量数据一次性同步；第二步，在存量数据的基础之上，做增量；后期的每一次同步都是增量同步。以下是具体同步方案：

用Sqoop同步表中全部数据到Hive表中；

a．根据hive中最大更新时间，用Sqoop提取更新时间为这个时间之后的增量数据；

1）获取表的所有列，把datetime和timestamp类型，统一在java中映射成TIMESTAMP类型，脚本如下：

2）用sqoop import拉取数据，脚本如下：

1）创建增量同步的sqoop job，脚本如下：

a、从hive中获取表的最大更新时间

b、以上面获取的最大更新时间，作为起点，创建sqoop job，脚本如下：

c、创建sqoop job之后，就是执行job了，脚本如下：

具体参数详解，参考： https://www.cnblogs.com/Alcesttt/p/11432547.html

您好，MySQL按照租户同步是指在多个租户之间同步MySQL数据库的过程。这种同步可以帮助组织实现数据的一致性和可靠性，以及实现数据的安全性和可用性。MySQL按租户同步可以通过多种方式实现，其中包括使用MySQL复制、使用MySQL备份和恢复、使用MySQL数据库连接器、使用MySQL数据库触发器等。此外，还可以使用第三方工具来实现MySQL按租户同步，这些工具可以更快地实现同步，并且可以更轻松地管理数据库。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/6139053.html

mysql数据增量同步到hive

发表评论

评论列表（0条）