如果使用 python3, 把要使用的 python 放到 PATH 的前面(注意 PATH 里要能找到 python 命令, python3不行,尽管在datax里#! 指定了 python3)
vim modules/datax-executor/bin/datax-executor.sh
修改了环境变量需要重启服务
执行一次数据同步
python3 bin/datax.py job/stream2stream.json
查看 job 配置模板
python3 bin/datax.py -r mysqlreader -w mysqlwriter
其中, -r 参数指定使用的 reader, -w 参数指定使用的 writer. 有哪些 reader writer 可以查看 plugin 目录.
job 配置示例(json里不支持注释,这里的注释只做说明用)
链接: https://pan.baidu.com/s/1YthL24An_972MRAEPewH9A提取码:hxan
安装过程自行百度
链接: https://pan.baidu.com/s/1rUEkE3xcFQH3uZUoOgKTDg
提取码:gwhx
解压即可
"column": ["sgiid id","sgiid","ggoodsCode","goodsCode","barNo","salePrice"],指定列,mysql与es需要对应,目前暂时成功单表同步。
4.执行命令 python datax.py transform.json
datax字段名不一样dx_substr:从字符串的指定位置(包含)截取指定长度的字符串。如果开始位置非法抛出异常。如果字段为空值,直接返回(即不参与本transformer)
dx_pad:如果源字符串长度小于目标字段长度,按照位置添加pad字符后返回。如果长于,直接截断(都截右边)。如果字段为空值,转换为空字符串进行pad,即最后的字符串全是需要pad的字符
dx_replace:从字符串的指定位置(包含)替换指定长度的字符串。如果开始位置非法抛出异常。如果字段为空值,直接返回(即不参与本transformer)
dx_filter :如果匹配正则表达式,返回Null,表示过滤该行。不匹配表达式时,表示保留该行。
dx_groovy:groovy表达式处理
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)