大数据常用同步工具

大数据常用同步工具,第1张

一、离线数据同步

DataX

阿里的Datax是比较优秀的产品,基于python,提供各种数据村塾的读写插件,多线程执行,使用起来也很简单, *** 作简单通常只需要两步;

创建作业的配置文件(json格式配置reader,writer);

启动执行配置作业。

非常适合离线数据,增量数据可以使用一些编码的方式实现,

缺点:仅仅针对insert数据比较有效,update数据就不适合。缺乏对增量更新的内置支持,因为DataX的灵活架构,可以通过shell脚本等方式方便实现增量同步。

参考资料:

github地址:>

两种办法,一种在source system端实现,也就是在oracle用pl/sql或其他办法做到增量,然后bw只抽取增量即可,另一种办法在bw端实现,在 传输规则中采用abap编码实现增量抽取,因为oracle数据库每个表都有时间戳的,利用这个字段就可判断是否是增量数据。

具体 *** 作:

1、在分析型数据库上创建目标表,数据更新类型为实时写入,字段名称和MySQL中的建议均相同;

2、在阿里云数据传输的控制台上创建数据订阅通道,并记录这个通道的ID;

3、 配置dts-ads-writer/appconf文件,配置方式如下:所有配置均保存在appconf中,运行前请保证配置正确;修改配置后,请重启writer,基本配置:

注意事项:

1、RDS for MySQL表和分析型数据库中表的主键定义必须完全一致;如果不一致会出现数据不一致问题。如果需要调整RDS/分析型数据库表的主键,建议先停止writer进程;

2、一个插件进程中分析型数据库db只能是一个,由adsJdbcUrl指定;

3、一个插件进程只能对应一个数据订阅通道;如果更新通道中的订阅对象时,需要重启进程。

1、首先,你要有一个业务层和一个数据访问接口层和数据层(后两层可以合并),业务层中有数据 *** 作时同时 *** 作其它两层的数据,只有同时成功了才提交事务。这样可以确保数据一致。

2、设计和实现一个数据同步工具,我实现了一个SQL Server和Oracle之间数据同步的工具,利用一个定义表(主键,字段,表名,同步标识等)和DataSet做中转,能够将两个数据库中需要同步的表同步成相同的内容,你可以根据要求指定同步周期。

以上就是关于大数据常用同步工具全部的内容,包括:大数据常用同步工具、sqlserver 利用什么实现增量同步、用BW 抽取 oracle 数据后 以后的增量同步如何实现等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/10048215.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-04
下一篇 2023-05-04

发表评论

登录后才能评论

评论列表(0条)

保存