以下是关于不同方法的一些基本总结
flexcdc
Flexviews中包含的CDC工具称为FlexCDC,FlexCDC是用PHP编写的。FlexCDC读取二进制日志 Binary Log以确定哪些行已经更改。因此,FlexCDC使用基于行的二进制日志(RBR)。如果没有MySQL 5.1或者没有使用RBR,那么可以设置一个专用的MySQL从站,它有log_slave_updates = 1和binlog_format = row来处理来自MySQL主站的SBR更改。
FlexCDC不实现完整的二进制日志解析器。而是调用“mysqlbinlog”实用程序,并处理该程序的可预测输出。
databus
从数据源中读取变化的数据,并且将这些数据序列化保存在内存中;
Maxwell是一个守护程序,一个应用程序,能够读取MySQL Binlogs然后作为JSON写入Kafka,Kinesis,RabbitMQ,Google Cloud Pub / Sub或Redis的应用程序,支持表和库过滤。
进制日志,java读取binlog
mysql-binlog-connector-java
( http://www.phpabc.cn/yi-gou-shu-ju-ku-biao-zai-xian-tong-bu.html )
主要有以下几个概念:
BinaryLogClient,使用binlog的客户端
Event,数据增删改查等都被抽象为一个事件
EventListener,事件监听者,当事件发生时得到通知
EventFilter,事件过滤器,这样EventListener就可以只监听符合条件的事件
使用mysql-binlog-connector-java的方法
Doris官网定义 mysql原始表结构 1.doris中关联mysql外表 结果如下: 2.doris中关联kafka导入数据 查看作业 State为RUNNING,表示已经成功。 停止作业 3.通过flink导入mysql数据到doris 方法1:通过mysql-cdc写入kafka,kafka关联doris表。 方法2:通过阿里云DTS->datahub,然后通过Flink写入kafka,再关联到doris外表 如何处理delete数据?对于方法1,需要手动的删除doris中的数据;对于方法2,可以通过dts_operation_flag字段来标示,dts_operation_flag可以为I/U/D,分别表示添加、更新和删除。那我们就只需要在doris表中添加一个dts_operation_flag字段来标示就可以了,查询数据的时候就不再查询等于D的值。 如何处理脏数据?delete doris中的数据,然后insert正确的值;还有个方法是将关联一个外表(这个是正确的值),然后再将doris中的表和外表中的值diff,将diff的值insert到doris中。可以用脚本来实现;思路:
1.创建一个ceshi.txt文件,内容是数据库内数据数量;
2.脚本内容查询数据库数量,读取并更新ceshi.txt内的数量,判断查询出的数量大于ceshi.txt内的数量就是新增,小于就是删除,并执行php程序;
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)