「开源」数据同步ETL工具,支持多数据源间的增、删、改数据同步

「开源」数据同步ETL工具,支持多数据源间的增、删、改数据同步,第1张

bboss数据同步可以方便地实现多种数据源之间的数据同步功能,支持增、删、改数据同步,本文为大家程序各种数据同步案例。

使用Apache-2.0开源协议

通过bboss,可以非常方便地采集database/mongodb/Elasticsearch/kafka/hbase/本地或者Ftp日志文件源数据,经过数据转换处理后,再推送到目标库elasticsearch/database/file/ftp/kafka/dummy/logger。

数据导入的方式

支持各种主流数据库、各种es版本以及本地/Ftp日志文件数据采集和同步、加工处理

支持从kafka接收数据;经过加工处理的数据亦可以发送到kafka;

支持将单条记录切割为多条记录;

可以将加工后的数据写入File并上传到ftp/sftp服务器;

支持备份采集完毕日志文件功能,可以指定备份文件保存时长,定期清理超过时长文件;

支持自动清理下载完毕后ftp服务器上的文件

支持excel、csv文件采集(本地和ftp/sftp)

支持导出数据到excel和csv文件,并支持上传到ftp/sftp服务器

提供自定义处理采集数据功能,可以自行将采集的数据按照自己的要求进行处理到目的地,支持数据来源包括:database,elasticsearch,kafka,mongodb,hbase,file,ftp等,想把采集的数据保存到什么地方,有自己实现CustomOutPut接口处理即可。

支持的数据库: mysql,maridb,postgress,oracle ,sqlserver,db2,tidb,hive,mongodb、HBase等

支持的Elasticsearch版本: 1.x,2.x,5.x,6.x,7.x,8.x,+

支持海量PB级数据同步导入功能

支持将ip转换为对应的运营商和城市地理坐标位置信息

支持设置数据bulk导入任务结果处理回调函数,对每次bulk任务的结果进行成功和失败反馈,然后针对失败的bulk任务通过error和exception方法进行相应处理

支持以下三种作业调度机制:

bboss另一个显著的特色就是直接基于java语言来编写数据同步作业程序,基于强大的java语言和第三方工具包,能够非常方便地加工和处理需要同步的源数据,然后将最终的数据保存到目标库(Elasticsearch或者数据库);同时也可以非常方便地在idea或者eclipse中调试和运行同步作业程序,调试无误后,通过bboss提供的gradle脚本,即可构建和发布出可部署到生产环境的同步作业包。因此,对广大的java程序员来说,bboss无疑是一个轻易快速上手的数据同步利器。

如果需要增量导入,还需要导入sqlite驱动:

如果需要使用xxjob来调度作业任务,还需要导入坐标:

本文从mysql数据库表td_cms_document导入数据到es中,除了导入上述maven坐标,还需要额外导入mysql驱动坐标(其他数据库驱动程序自行导入): mysql 5.x驱动依赖包

mysql 8.x驱动依赖包(mysql 8必须采用相应版本的驱动,否则不能正确运行)

私信回复:数据同步ETL工具

或访问一飞开源:https://code.exmay.com/

1、MySQL

MySQL是一个开源的关系型数据库管理系统,为甲骨文公司产品。支持多种存储引擎、集群、全文索引、支持多线程、充分利用CPU资源、支持多用户等其它许多非常专业的功能。

MySQL由于性能高、成本低、可靠性好已经成为最流行的开源数据库,并且被广泛应用在Web应用程序以及其它中小型项目上。从WordPress到Movable

Type都把MySQL作为默认的数据库。此外,自甲骨文收购MySQL以后,又将MySQL闭源的潜在风险,因此社区采用分支的方式避开这种风险,开发并运营着完全兼容MySQL的MariaDB数据库。

2、MongoDB

MongoDB是一款开源、面向文档并且也是当下人气最旺的Nosql数据库,它也是一款介于关系数据库和非关系数据库之间的产品。Mongo最大特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。还具有高性能、易部署、易使用,存储数据非常方便等特点。

3、Hadoop

Hadoop是一个开源的、基于列存储模型的分布式数据库,它是Apache Hadoop项目的一部分,开发语言为Java。

Hadoop不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hadoop基于列的而不是基于行的模式。且具有高可靠性、高性能、可伸缩、并建立在关系模型基础上的分布式数据库。

4、Redis

Redis是一个开源、支持网络、基于内存、键值对存储数据库。开发者无需存储数字和字符串即可dump整个哈希值、列表、集合以及其它复杂的结果存储,此外,Redis还提供复制/同步和持久化等功能。

Redis是一个高性能的键值对数据库。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。

5、MariaDB

MariaDB数据库管理系统是MySQL的一个分支,完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB来代替MySQL的InnoDB。另外又添加了一些功能,以支持本地的非阻塞 *** 作和进度报告。这意味着,所有使用MySQL的连接器、库和应用程序也将会在MariaDB下工作。

TiDB 是国内 PingCAP 团队开发的一个分布式 SQL 数据库,支持包括传统 RDBMS 和 NoSQL 的特性。现已将 DM(data migration platform,该数据迁移工具)开源。

该数据迁移工具遵循 Apache-2.0 开源协议,允许用户自由地使用及修改。

据介绍,DM (Data Migration) 是一体化数据同步任务管理平台,支持从 MySQL/MariaDB 到 TiDB 的数据迁移、全量备份和 MariaDB/MySQL binlog 增量同步,有助于减少 *** 作成本和简化错误处理流程。架构图如下所示:

从架构图可以看到,DM 包括三大组件:DM-master、DM-worker 和 dmctl。其中,DM-master 管理和调度数据同步任务的 *** 作、DM-worker 执行特定的数据同步任务、dmctl 则是控制 DM 集群的命令行工具。更详细的组件功能介绍,可以查阅官方文档。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/6642667.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-03-26
下一篇 2023-03-26

发表评论

登录后才能评论

评论列表(0条)

保存