开源ETL工具比较,Kettle和Talend,都有什么优势和劣势

开源ETL工具比较,Kettle和Talend,都有什么优势和劣势,第1张

Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。

Talend Open Studio是 Talend 开发的ETL工具——Talend 是一家主营数据集成和数据管理解决方案的企业。Talend 采用用户友好型,综合性很强的IDE(类似于Pentaho Kettle 的 Spoon)来设计不同的流程。这些流程可以在IDE内部测试并编译成Java 代码。您可以随时查看并编辑生成的Java代码,同时实现强大的控制力和灵活性。

两者都非常优秀,都属于用户友好型的交叉平台(基于Java的)工具。它们的主要差异在于Kettle 将 ELT 流程编译为 XML 格式,然而Talend Open Studio 则生成 Java 代码。

易用性:

Talend:有 GUI 图形界面但是以 Eclipse 的插件方式提供。

Kettle:有非常容易使用的 GUI,出现问题可以到社区咨询。

技术支持:

Talend:主要在美国

Kettle:在美国,欧洲(比利时,德国,法国,英国),亚洲(中国,日本,韩国)都可以找到相关技术支持人员。

部署:

Talend:创建 java 或perl 文件,并通过 *** 作系统调度工具来运行

Kettle:可以使用 job 作业方式或 *** 作系统调度,来执行一个转换文件或作业文件,也可以通过集群的方式在多台机器上部署。

速度:

Talend:需要手工调整,对特定数据源有优化知识。

Kettle:比 Talend 快,不过也需要手工调整,对 Oracle 和 PostGre 等数据源做了优化,同时也取决于转换任务的设计。

数据质量:

Talend:在 GUI 里有数据质量特性,可以手工写 SQL 语句。

Kettle:在 GUI 里有数据质量特性,可以手工写 SQL 语句、java脚本、正则表达式来完成数据清洗。

监控:

Talend:有监控和日志工具

Kettle:有监控和日志工具

连接性:

Talend:各种常用数据库,文件,web service。

Kettle:非常广泛的数据库,文件,另外可以通过插件扩展

 建立文件资源库:点击工具->资源库->连接资源库菜单

使用文件资源库不需要用户名和密码,如果没有资源库可以点击右上角的"+"新建资源库,如下图:

第一种方式为建立数据库的资源库,本例选择使用文件资源库,选择确定后会要求选择文件资源库的路径,并给文件资源库设置一个ID和名称

1、下载最新的kettle版本

2、把达梦对应JDK版本的jdbc驱动放在D:\kettle\pdi-ce-440-stable\data-integration\libext\JDBC安装目录下面

3、在connection type中选择generic database右侧填好url和Driver

Java程序连接oracle数据库时,用oci驱动要比用thin驱动性能好些。主要的区别是使用thin驱动时,不需要安装oracle的客户端,而使用oci时则要安装oracle的客户端。

从使用thin驱动切换到oci驱动在配置来说很简单,只需把连接字符串java:oracle:thin:@hostip:1521:实例名换为java:oracle:oci@本地服务名即可。如:

jdbc:oracle:thin:@10112:1521:shdb

改成:

jdbc:oracle:oci8:@shdb

但这里这台机器需安装oracle数据库的客户端并配置本地服务名,同时还需指定NLS_LANG环境变量,NLS_LANG环境变量是用来控制客户端在显示oracle数据库的数据时所用的字符集和本地化习惯。通常把NLS_LANG的字符集部分指定为数据库所用的字符集,就不会存在java显示的乱码问题了。

对于oracle数据库客户端的安装,有二种选择,一是老实的用oracle数据库的安装光盘,安装对应版本的oracle客户端。二是下载oracle提取的即时客户端,即时客户端是不用安装的,把下载包解压即可。

要使java web正常的通过oci驱动访问oracle,还需要客户端正确的配置一下相关变量。主要如下:

对于windows系统并使用oracle客户端时:

1、把%ORACLE_HOME%\lib加到PATH环境变量。

2、把%ORACLE_HOME%\jdbc\lib\classes12jar加到CLASSPATH环境变量里,也可以把classes12jar拷贝到tomcat的comman\lib目录下。

对于windows系统并使用oracle的即时客户端时(假定即时客户端解压在d盘):

1、把d:\instantclient_10_2加到PATH环境变量;

2、把d:\instantclient_10_2\classes12jar加到CLASSPATH环境变量里,也可以把classes12jar拷贝到tomcat的comman\lib目录下。

对于linux系统并使用oracle客户端时:

1、在使用tomcat的用户主目录下的bash_profile文件中加入:

exprot ORACLE_HOME=/u01/app/oracle/product/9204

export LD_LIBRARY_PATH=$ORACLE_HOME/lib

2、把classes12jar拷贝到tomcat的comman\lib目录下。

对于linux系统并使用oracle即时客户端时:

1、在使用tomcat的用户主目录下的bash_profile文件中加入:

exprot ORACLE_HOME=/instantclient_10_2

export LD_LIBRARY_PATH=$ORACLE_HOME/lib

2、把instantclient_10_2目录下的classes12jar拷贝到tomcat的comman\lib目录下。

如果一个tomcat下带了几个应用,且几个应用都要连接oracle数据库时,则要注意的是,不要在每个应用的WEB-INF/lib目录下放入oracle的classes12jar/zip文件。而应该把classes12jar/zip文件放到tomcat的common/lib目录下。否则会出来ojdbclib9/10库重复加载的错误。

使用oracle即时客户端时,本地服务名的建立可以在目录instantclient_10_2下建立tnsnamesora下添加连接串,如:

SHDB =(DESCRIPTION =(ADDRESS_LIST =(ADDRESS =

(PROTOCOL = TCP)(HOST = 1011236)(PORT = 1521)))

(CONNECT_DATA =(SERVICE_NAME = shdb)))

当然可以

*** 作步骤:

准备工作:1dataxlsx表;

 2testuser用户下要有一个与dataxlsx表结构(列数与字段类型)相同的表。

开始!!!

1新建一个"转换",将"Excel输入"、"表输出"拖拽到新建的转换工作空间里

 "文件">"新建">"转换",展开左侧面板中的"输入"与"输出",将"Excel输入"与"表输出"拖拽到"转换1"工作区中。

2设置"Excel输入"相关参数

填写"表类型"与"文件或目录"两行的内容

点击增加后,目录就会在"选中的文件"中出现了

我的数据在sheet1中,那就把sheet1选进列表中

就好了

以上就是关于开源ETL工具比较,Kettle和Talend,都有什么优势和劣势全部的内容,包括:开源ETL工具比较,Kettle和Talend,都有什么优势和劣势、kettle如何添加新的数据库连接类型、关于ETL工具kettle连接国产达梦数据库问题,用过的请进等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9496758.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-29
下一篇 2023-04-29

发表评论

登录后才能评论

评论列表(0条)

保存