如果使用 python3, 把要使用的 python 放到 PATH 的前面(注意 PATH 里要能找到 python 命令, python3不行,尽管在datax里#! 指定了 python3)
vim modules/datax-executor/bin/datax-executor.sh
修改了环境变量需要重启服务
执行一次数据同步
python3 bin/datax.py job/stream2stream.json
查看 job 配置模板
python3 bin/datax.py -r mysqlreader -w mysqlwriter
其中, -r 参数指定使用的 reader, -w 参数指定使用的 writer. 有哪些 reader writer 可以查看 plugin 目录.
job 配置示例(json里不支持注释,这里的注释只做说明用)
在datax 中导数据使用过程中往往会因为,目标数据过大导致datax oom,那么可以调大datax的jvm参数来防止oom,在python命令后,使用 -jvm=”-Xms5G -Xmx 5G”来调大
当datax 导入mysql数据时,可能会因为有有数据报错,导致datax导数据会异常慢,那么可以修改mysqlwriter的writeMode模式 修改为Insert ignore 忽略报错,速度会显著提升。
如果报java.io.IOException: Maximum column length of 100,000 exceeded in column...异常信息,说明数据源column字段长度超过了100000字符。
需要在json的reader里增加如下配置
链接: https://pan.baidu.com/s/1YthL24An_972MRAEPewH9A提取码:hxan
安装过程自行百度
链接: https://pan.baidu.com/s/1rUEkE3xcFQH3uZUoOgKTDg
提取码:gwhx
解压即可
"column": ["sgiid id","sgiid","ggoodsCode","goodsCode","barNo","salePrice"],指定列,mysql与es需要对应,目前暂时成功单表同步。
4.执行命令 python datax.py transform.json
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)