datax datax-web 同步 mysql 数据(单机部署)_随笔

其中, /usr/lib/jdk/jdk/ 是 jdk 的安装位置

如果使用 python3, 把要使用的 python 放到 PATH 的前面(注意 PATH 里要能找到 python 命令, python3不行,尽管在datax里#! 指定了 python3)

vim modules/datax-executor/bin/datax-executor.sh

修改了环境变量需要重启服务

执行一次数据同步

python3 bin/datax.py job/stream2stream.json

查看 job 配置模板

python3 bin/datax.py -r mysqlreader -w mysqlwriter

其中, -r 参数指定使用的 reader, -w 参数指定使用的 writer. 有哪些 reader writer 可以查看 plugin 目录.

job 配置示例(json里不支持注释,这里的注释只做说明用)

在datax 中导数据使用过程中往往会因为，目标数据过大导致datax oom，那么可以调大datax的jvm参数来防止oom,在python命令后，使用 -jvm=”-Xms5G -Xmx 5G”来调大

当datax 导入mysql数据时，可能会因为有有数据报错，导致datax导数据会异常慢，那么可以修改mysqlwriter的writeMode模式修改为Insert ignore 忽略报错，速度会显著提升。

如果报java.io.IOException: Maximum column length of 100,000 exceeded in column...异常信息，说明数据源column字段长度超过了100000字符。

需要在json的reader里增加如下配置

链接： https://pan.baidu.com/s/1YthL24An_972MRAEPewH9A

提取码：hxan

安装过程自行百度

链接： https://pan.baidu.com/s/1rUEkE3xcFQH3uZUoOgKTDg

提取码：gwhx

解压即可

"column": ["sgiid id","sgiid","ggoodsCode","goodsCode","barNo","salePrice"]，指定列，mysql与es需要对应，目前暂时成功单表同步。

4.执行命令 python datax.py transform.json

欢迎分享，转载请注明来源：内存溢出

datax datax-web 同步 mysql 数据(单机部署)