kettle
首先需要考虑的问题是不可能是全量进行数据的拷贝,数据量如此庞大!
那么就得考虑增量,何为增量去百度。。哈哈哈
至于如何增量抽取数据,有很多种办法,我这里示范的是通过时间去增量抽取(因为刚好别人的库中每条记录的时间记录的都相当详细,所以我认为这个比较好)。
首先创建好实例库:
SQL>desc timejobName Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y
1
2
3
4
5
SQL>desc timejob_bakName Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y
1
2
3
4
5
kettle中有自动生成UUID的功能,所以直接拿过来耍,为了简洁方便,字段使用比较少。
首先利用kettle自动生成测试数据:
主要生成UUID和当前系统时间到timejob表中(每隔2s执行一次),我们后续的 *** 作都是对这张表中的数据进行一个备份。
下面第二步就是抽取该表中的数据到一个备份表中,timejob_bak。
这里由于是我第一次 *** 作,比较简单,就直接上图了。。
获得上次 *** 作时间和系统时间存到变量中:
这里的开始时间是通过表数据选项获得上一次 *** 作的最终结束时间,以作为我此次增量抽取的开始时间。第二个变量是获得系统的当前时间。
根据时间抽取timejob表中的数据:
获取变量的写法:
此处获取的变量就是上一步存入的变量,下面的抽取增量数据就是一个sql,从timejob表中抽取数据,存数据就是一个表输出。
抽取数据sq
假设你的表里有唯一标示ID或者是时间戳,以下以唯一标示ID为例(时间戳同理) 总体结构 表输入 表输入从目标表中取出最大ID 表输入2 取出源表中ID大于目标表最大ID的所有记录,注意勾选替换SQL中的变量,如图 表输出 输出到目标表
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)