使用Kettle工具进行增量数据同步

使用Kettle工具进行增量数据同步,第1张

增量同步的方式有很多种,我使用的是: 快照表 + 触发器

需求:

当主库库表发生增删改时,从库库表与主库库表数据保持一致。

环境:

1、Mysql

2、kettle 7.1

思路:

1、在主库中,将需要同步的库表新建快照表,表结构一致。

2、在主库中,分别新增库表的增、删、改的触发器。

2、新建一个转换,该转换只针对一张表的增删改。

3、新建‘表输入’控件,查询主库的快照表

4、新建‘插入/更新’控件,插入数据到从库的库表,查询的关键字要求唯一。

5、新建‘删除’控件,将主库的快照表中的数据删除。

注意: 主库的库表,要新增针对增、删、改的三张表快照,三张表的步骤同上面的1 - 5 一致。

6、新建作业控件

7、配置发送邮件服务

8、完成

下载pdi-ce-4.4.0-stable.zip,解压到文件夹,打开data-integration中的Spoon.bat

2

出现欢迎界面后来到Repository Connection窗口,选择建立一个新的repository,随后出现“资源库信息”窗口:

在“资源库信息”窗口中选择新建一个数据库连接,d出“Database Connection”窗口:

在其中输入Connection Name, Host Name, Database Name, Port Number, User Name,Password信息即可建立连接,完成之后在Repository Connection窗口以admin用户名登陆。

新建一个名为cscgTransTest的Transformation,从“核心对象”中将两个“表输入”和一个“插入/更新”拖入到cscgTransTest中,并建立它们之间的连接,如下图所示:

在cscgTransTest中建立一个新的数据库连接ttt,通过表输入“max_createtime”从目标数据库ttt中获取某个表中最新数据的建立时间:

SELECT max(trunc(createtime)) FROMumdata.toeventmedia

在cscgTransTest中建立一个新的数据库连接testdb,以表输入“max_createtime”的查询结果替代表输入“umdata.toeventmedia”中的变量,执行SQL语句从数据库testdb中获取需要插入或者更新到ttt数据库的数据

SELECT * FROMumdata.toeventmedia where trunc(createtime) >= trunc(?)

在“插入/更新”中选择“数据库连接”、“目标模式”、“目标表”等信息,“用来查询的关键字”中的字段用来查询某条记录是否在目标表中存在,不存在则插入记录;如果存在,则继续比较其他字段是否与流里的字段值相同,如果相同则不执行任何 *** 作,如果不同则更新“更新字段”中所列字段。

“用来查询的关键字”所列字段是该表的primarykey,从而可以唯一标识一条记录。

分别为每一个表建立一个如上模式的转换步骤。

新建一个名为“cscgJobTest”的Job,在核心对象中将“START”和“Transformation”拖入cscgJobTest中,并建立两者之间的连接。

选中START中的“重复执行”,类型为“不需要定时”;在Transformation中将转换名设置为之前建立的“cscgTransTest”.

点击“Run this Job”运行。Job和Transformation的执行结果如如下:

假设你的表里有唯一标示ID或者是时间戳,以下以唯一标示ID为例(时间戳同理) 总体结构 表输入 表输入从目标表中取出最大ID 表输入2 取出源表中ID大于目标表最大ID的所有记录,注意勾选替换SQL中的变量,如图 表输出 输出到目标表


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9409678.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-28
下一篇 2023-04-28

发表评论

登录后才能评论

评论列表(0条)

保存