1、在文件->新建装换。新建转换后在左边的主对象树中建立DB连接用以连接数据库。建立数据库连接的过程与其他数据库管理软件连接数据库类似。
2、简单的数据表插入,更新在面板中选择“核心对象”,在核心对象里面选择输入到表输入,用鼠标拖动到右边面板。
3、双击拖过来的表,可以编辑表输入。选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。
在kettle常常有处理从一个源数据中做转换做转换的时候, 需要去查另一个数据库
这种问题遇到数据小时候还好办 但是数据魇 时候就麻烦来了
下面针对三种情况做具体情况的选择办法
先上一个图
[img]
[/img]
1 当需要转换的数据特别大的时候, 例如: 10W条以上或者100W条以上时
上图中,hadoop数据导入,导入的数据如果够多,例如100W条以上,其中一个字段需要查询数据库中查询,而这个字段的类型并不多,例如只有10个类型或者数据库中就只有这10个类型那么,可以走线路2, 并且线路2中的 "使用缓存" 可以打勾,也可以不打当然你这个源里的数据太多,打上当然最好了因为省得再去你的数据库里再查
但是当源里的数据类型还是只有10个类型,但是你的数据库里面存了有10000条记录时,怎么办
有两种解决办法:
1)线路2:并且查询节点中的 "使用缓存" 不能打勾
2)线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来这样在流里的比对时也很快很多必竟是在内存里做运算了
2 查另一个数据库的数据量大时,而你的源数据不大
最好的选择是
线路1,并在"带条件的结果查询供流查询使用" 这个结点中,用一个SQL,过滤一下数据,然后尽可能地把那里包括的这些记录查出来这样在流里的比对时也很快很多必竟是在内存里做运算了
3 当两个数据源都非常大时(最不想遇到的)
这种情况是最不想遇到的办法
一种选择:
1)线路2中的 "使用缓存" 打勾
当然还有别的更复杂但是会更快的办法适用场景比较少,不再详细写了
当然可以
*** 作步骤:
准备工作:1dataxlsx表;
2testuser用户下要有一个与dataxlsx表结构(列数与字段类型)相同的表。
开始!!!
1新建一个"转换",将"Excel输入"、"表输出"拖拽到新建的转换工作空间里
"文件">"新建">"转换",展开左侧面板中的"输入"与"输出",将"Excel输入"与"表输出"拖拽到"转换1"工作区中。
2设置"Excel输入"相关参数
填写"表类型"与"文件或目录"两行的内容
点击增加后,目录就会在"选中的文件"中出现了
我的数据在sheet1中,那就把sheet1选进列表中
就好了
以上就是关于kettle 的mysql数据库中表输入中如何编辑sql语句全部的内容,包括:kettle 的mysql数据库中表输入中如何编辑sql语句、kettle可以在同一个数据库里进行数据转换吗、kettle可以实现多个表导入数据库么等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)