前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用Kettle连接动态分库

使用Kettle连接动态分库

作者头像
用户1148526
发布2019-05-25 19:46:13
1.6K0
发布2019-05-25 19:46:13
举报
文章被收录于专栏:Hadoop数据仓库Hadoop数据仓库

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://cloud.tencent.com/developer/article/1433221

一、问题提出

在一个数据仓库应用中,每天新建一个MySQL数据库,以当天日期命名,如d_p20161201、d_p20161202等,并使用Kettle连接这些数据库做数据清洗和ETL工作。由于数据库是用脚本每天动态生成的,Kettle如何连接动态分库呢?

二、解决方案

  1. 建立数据库连接,在数据库名称中引入变量。此时是无法连接到数据库的。
  2. 建立转换,用JavaScript步骤设置上一步引用的变量,作为数据库名称中的日期部分。
  3. 建立作业,在开始后首先调用上一步建立的转换,后续的转换或作业即可正常使用第1步建立的数据库连接。

三、验证步骤

  1. 建立测试数据库表。
代码语言:javascript
复制
create database if not exists d_20161225;
use d_20161225;
drop table if exists t1;
create table t1 (a int);
insert into t1 values (101),(102);
commit;
  1. 新建一个转换,保存为set_dbname.ktr
  2. 建立数据库连接如下:

如图所示,在“数据库名称”中引用了一个变量${current_date},此时该变量还没有定义。如果测试数据库连接会报以下错误:

  1. 将mydb设为共享。
  1. 编辑set_dbname转换如下:

该转换由三个步骤组成,分别如下面三张图所示:

“生成记录”生成一条记录,在数据流中存储变量值。

“JavaScript”用来生成符合日期格式的字符串。

“设置变量”给变量赋值。

  1. 新建一个转换如下,保存为table_output.ktr。

此转换只有两个步骤,用来测试数据库输出,分别如下面两张图所示:

“表输入”查询t1表的数据。

“文本文件输出”将表数据存储到一个txt文件中。

  1. 新建一个作业,调用前面的建立的两个转换,保存为connect_db.kjb。
  1. 执行作业
  2. 查看输出文件的内容,如下图所示:

正确查询出表数据。

  1. 此时再测试mydb数据库连接,可以成功。

四、总结

本实验在以下两点进行了尝试:

  1. 使用JavaScript步骤给变量赋值,这种在Kettle中编程的方式,能够实现非常复杂的应用逻辑。
  2. 数据库连接可以在运行时动态引用变量,这给实现统一的ETL调度提供了一种可能性。 先设置变量并赋值,然后在后面的步骤或作业项中使用变量,这是一种通用的方法。通过在Kettle中进行程序设计,大大增强了Kettle的功能。

参考:http://stackoverflow.com/questions/23491072/pass-db-connection-parameters-to-a-kettle-a-k-a-pdi-table-input-step-dynamically

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2016年12月26日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档