使用Kettle工具进行增量数据同步

使用Kettle工具进行增量数据同步,第1张

增量同步的方式有很多种,我使用的是: 快照表 + 触发器

需求:

当主库库表发生增删改时,从库库表与主库库表数据保持一致。

环境:

1、Mysql

2、kettle 7.1

思路:

1、在主库中,将需要同步的库表新建快照表,表结构一致。

2、在主库中,分别新增库表的增、删、改的触发器。

2、新建一个转换,该转换只针对一张表的增删改。

3、新建‘表输入’控件,查询主库的快照表

4、新建‘插入/更新’控件,插入数据到从库的库表,查询的关键字要求唯一。

5、新建‘删除’控件,将主库的快照表中的数据删除。

注意: 主库的库表,要新增针对增、删、改的三张表快照,三张表的步骤同上面的1 - 5 一致。

6、新建作业控件

7、配置发送邮件服务

8、完成

使用工具: 

kettle

首先需要考虑的问题是不可能是全量进行数据的拷贝,数据量如此庞大! 

那么就得考虑增量,何为增量去百度。。哈哈哈

至于如何增量抽取数据,有很多种办法,我这里示范的是通过时间去增量抽取(因为刚好别人的库中每条记录的时间记录的都相当详细,所以我认为这个比较好)。

首先创建好实例库:

SQL>desc timejobName Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

SQL>desc timejob_bakName Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

1

2

3

4

5

kettle中有自动生成UUID的功能,所以直接拿过来耍,为了简洁方便,字段使用比较少。 

首先利用kettle自动生成测试数据: 

主要生成UUID和当前系统时间到timejob表中(每隔2s执行一次),我们后续的 *** 作都是对这张表中的数据进行一个备份。

下面第二步就是抽取该表中的数据到一个备份表中,timejob_bak。 

这里由于是我第一次 *** 作,比较简单,就直接上图了。。

获得上次 *** 作时间和系统时间存到变量中: 

 

这里的开始时间是通过表数据选项获得上一次 *** 作的最终结束时间,以作为我此次增量抽取的开始时间。第二个变量是获得系统的当前时间。

根据时间抽取timejob表中的数据: 

获取变量的写法: 

此处获取的变量就是上一步存入的变量,下面的抽取增量数据就是一个sql,从timejob表中抽取数据,存数据就是一个表输出。 

抽取数据sq


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6924837.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-30
下一篇 2023-03-30

发表评论

登录后才能评论

评论列表(0条)

保存