Kettle 7.1 连接HBase数据表

设置Hadoop环境

在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。

复制 hbase-site.xml 文件

从hbase集群中复制 hbase-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25” 目录下。

准备数据表

这里准备测试从一个hbase表导数据到另一个hbase表,其实往别存储介质也都是类似,比如文件,数据库。这里主要是为了说明怎样连hbase。

这里使用两个表,user和user2,测试从user表导数据到user2表。

# 启动shell
$ bin/hbase shell

################################################################################
# 创建 user 表

# 创建 user 表,其中包括两个列族 base 和 address。
# base列族用来保存用户基本信息,username和password
# address列族用来保存家庭和办公地址 
> create 'user', 'base', 'address'

# 向 user 表写入数据
> put 'user', 'row1', 'base:username', 'user1'
> put 'user', 'row1', 'base:password', 'user1'
> put 'user', 'row1', 'address:home', 'user1 home'
> put 'user', 'row1', 'address:office', 'user1 office'

> put 'user', 'row2', 'base:username', 'user2'
> put 'user', 'row2', 'base:password', 'user2'
> put 'user', 'row2', 'address:home', 'user2 home'
> put 'user', 'row2', 'address:office', 'user2 office'

################################################################################
# 创建 user2 表
> create 'user', 'base', 'address'

测试导入

  • 添加一个Transformations。
  • 在 View -> Transformations -> Hadoop clusters 添加一个新的 Hadoop 集群。配置大致如下:(修改后可以测试一下) Cluster Name: myhdfs Storage: HDFS HDFS: (可以参考core-site.xml文件) Hostname: <ip> Port: 8020 Username: <user> Password: <password> JobTracker: Hostname: <ip> Port: 8032 Zookeeper: Hostname: <ip> Port: 2181
  • 在工作区,拖拽一个 “HBase Input” 和 “HBase Output”,并建立关联。
  • 设置 “HBase Input”
    • 首先在 “Configure query” 中设置 “Hadoop Cluster”。
    • 在 “Create/Edit mappings” 中 “HBase table name” 选择 user。
    • 在 “Create/Edit mappings” 中 “Mapping name” 输入 user_mapping。
    • 在 “Create/Edit mappings” 中 表格中定义下面几项,然后 “Save mapping”

    Alias Key Column family Column Type ROW Y String username N base username String password N base password String home N address home String office N address office String

    • 回到 “Configure query”,HBase table name” 选择 user, “Mapping name” 选择 user_mapping。
  • 设置 “HBase Output
    • 首先在 “Configure query” 中设置 “Hadoop Cluster”。
    • 在 “Create/Edit mappings” 中 “HBase table name” 选择 user2。
    • 在 “Create/Edit mappings” 中 “Mapping name” 输入 user2_mapping。
    • 在 “Create/Edit mappings” 中 表格中定义下面几项,然后 “Save mapping”

    Alias Key Column family Column Type ROW Y String username N base username String password N base password String home N address home String office N address office String

    • 回到 “Configure query”,HBase table name” 选择 user2, “Mapping name” 选择 user2_mapping。
  • 运行Transformations,然后检查结果。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 锤子手机推“无限屏”新机:让我们为老罗的创新点赞

    人们对于锤子手机的发布会的期待其实更多的是在看罗永浩的“单口相声”。无论锤子手机如何,观众依然能够在锤子手机发布会上过一回嘴瘾。罗永浩对于自己,对于友商,对于行...

    孟永辉
  • 马云退休,一个全新的互联网时代或将开始

    今天,马云退休的消息无疑是一个焦点。对于马云退休的原因,外界依然有很多的猜测。几乎可以确定的是,未来马云将会从事自己心仪的教育事业,并将会持续发挥自己在教育事业...

    孟永辉
  • 恒大入主法拉第,FF91真的要来了吗?

    自恒大入主法拉第之后,FF91落地的步伐似乎开始逐步加快。在许家印到法拉第公司考察之后,FF91在落地到中国的步伐更加快速。就在上周,恒大法拉第未来智能汽车集团...

    孟永辉
  • 或许,9月12日的苹果新品发布会依然会让人失望!

    正如每一次的苹果邀请函都带给我们不一样的感受一样,今年9月12日的苹果发布会的邀请函依然让我们浮想联翩。这或许是苹果以往营销套路的延续——通过给人一个极具想象力...

    孟永辉
  • 饿了么并入口碑,一场“非典型”新零售大战的开始

    如果你了解互联网巨头的套路,你就会发现他们会不断用资本的力量去拓展自己的势力范围,并且建构一个能够将人们所有的生活场景全部都囊括其中的生态体系。饿了么并入口碑仅...

    孟永辉
  • 拼多多、趣头条上市,反驳消费升级的无效样本

    最近,有关消费升级与消费降级的讨论一直都没有停止过。作为一个新的风口和方向,人们对于消费升级和消费降级的谈论无可厚非,因为只有深入讨论才能找到合适的发展方向。但...

    孟永辉
  • 共享单车落幕:上海凤凰诉ofo或在情理之中

    共享单车浩浩荡荡的发展历程伴随着资本的退却而最终落幕。尽管共享单车市场上摩拜投身美团总算是有了一个好归宿,哈罗单车对于三四线的深度布局实现了逆袭,ofo依然在仗...

    孟永辉
  • 1万步21天钉钉运动大神赛

      目前所在的企业,从入职开始到现在,内部沟通协作的主要软件也就是钉钉。三月初的时候,偶然在钉钉运动一栏中发现了这个活动,当时也没怎么犹豫,果断支付了2元契约金...

    happyJared
  • BAT、TMD加持新技术背景下,互联网家装如何蝶变新生?

    几乎所有的“互联网+”模式都存在同样的问题,那就是对于行业内在运行逻辑改造的无力与浅层。互联网家装同样如此。我们看到,尽管互联网家装改变了人们获取用户的方式和手...

    孟永辉
  • 任性的苹果,任性的库克

    或许在人类历史上还没有哪一个科技公司会像苹果般任性,任性到可以不顾及用户的感受。随着苹果发布会的新鲜“上线”,我们再次见识到了苹果的任性。价格再度刷新史上最高、...

    孟永辉

扫码关注云+社区

领取腾讯云代金券