怎么使用kettle进行增量数据的抽取_工具

使用工具：

kettle

首先需要考虑的问题是不可能是全量进行数据的拷贝，数据量如此庞大！

那么就得考虑增量，何为增量去百度。。哈哈哈

至于如何增量抽取数据，有很多种办法，我这里示范的是通过时间去增量抽取（因为刚好别人的库中每条记录的时间记录的都相当详细，所以我认为这个比较好）。

首先创建好实例库：

SQL> desc timejob; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

SQL> desc timejob_bak; Name Type Nullable Default Comments --------- ------------ -------- ------- -------- UUID VARCHAR2(36) Y BEGINTIME DATE Y

kettle中有自动生成UUID的功能，所以直接拿过来耍，为了简洁方便，字段使用比较少。

首先利用kettle自动生成测试数据：

主要生成UUID和当前系统时间到timejob表中（每隔2s执行一次），我们后续的 *** 作都是对这张表中的数据进行一个备份。

下面第二步就是抽取该表中的数据到一个备份表中，timejob_bak。

这里由于是我第一次 *** 作，比较简单，就直接上图了。。

获得上次 *** 作时间和系统时间存到变量中：

这里的开始时间是通过表数据选项获得上一次 *** 作的最终结束时间，以作为我此次增量抽取的开始时间。第二个变量是获得系统的当前时间。

根据时间抽取timejob表中的数据：

获取变量的写法：

此处获取的变量就是上一步存入的变量，下面的抽取增量数据就是一个sql，从timejob表中抽取数据，存数据就是一个表输出。

抽取数据sq

我的logstash input 配置文件如下 input { jdbc { type => "testdb" jdbc_driver_library => "/app/sqljdbc_60/enu/sqljdbc42jar" jdbc_driver_class

以上就是关于怎么使用kettle进行增量数据的抽取全部的内容，包括:怎么使用kettle进行增量数据的抽取、如何实现logstash-input-jdbc 增量读取SQLserver数据库、等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

怎么使用kettle进行增量数据的抽取