开源ETL工具(Kettle) V5.1.0 免费Spoon版 http://www.cr173.com/soft/30051.html ETL工具大全,你了解多少 http://bbs.csdn.net/topics/390349305 Kettle_抽取数据举例 http://blog.csdn.net/huangyanlong/article/details/42264543
文件列表
kettle入门(三) 之kettle连接hadoop&hdfs图文详解 http://blog.csdn.net/xiaohai798/article/details/39558939
ETL2004ETL和数据集成工具:ETL和数据集成的工作量占BI项目的40%,但是ETL工具约占BI市场的9%,其中很多应用是采用手工编码方式,ETL工具仍有待普及
资源库用来保存连接信息和转换信息。用户通过图形界面创建的的数据库连接和数据转换任务可以保存在资源库中。 资源库可以是各种常见的数据库,用户通过用户名/密码来访问资源库中的资源,默认的用户名/密码是admin/admin。资源库并不是必须的,如果没有资源库,用户还可以把转换任务保存在 xml 文件中。 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件夹名称。有了资源库,就可以将 transformation/job 保存在数据库里,这样方便共享。
Kettle以任务的方式存在,每个任务就是一个转换流程,以流程图的方式表现,支持各种流程处理模式,包括条件跳转、分支、循环等等,每一个节点就是业务处理单元。业务处理单元可以是SQL语句,也可以是存储过程,还可以是Java程序等等。 Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。主要描述了从各个数据源中抽取数据、转换数据并加载到数据仓库的各个环节及流程。主要功能有数据校验、数据转换规则、数据质量检查、Bug调试错误处理,定时功能、日志跟踪等。
Kettle的下载可以在 http://kettle.pentaho.org/ 网站下载。要求jdk.5以上版本,设置JAVA_HOME 环境变量,.kettle不需要安装,直接解压。运行spoon.bat即能看到kettle的欢迎界面,选择没有资源库,打开kettle主界面,在左边的Main tree,双击transaction,配置DB Connection,点击test,提示成功则表示DB已经配置好了。 注:
因为kettle7.0是基于jdk1.8的,所以你用1.7的时候会报错,你可以运行SpoonDebug.bat,把完整的报错输出出来。 然后1.8 已经不支持MaxPermSize,所以你要在Spoon.bat中把XX:MaxPermSize修改为MaxMetaspaceSize。