Kettle 添加对应hadoop版本的支持

  在hdp的官网上有一个ETL工具叫做Talend Open Studio,然后我就下了,并且在群里询问了一下,突然间冒出来一群ETL高手,经高人指点认识了一款叫做Kettle的软件,经过这两天的试用,从直观感受上,Kettle更容易使用和上手,资料更多,界面更友好。。。 优点很多,这里不一一列举了,关键是它对hadoop的支持我觉得是很全面的。

  但是这里面有一个问题出现了,它不支持我现在用的版本,我用的是Hortonworks的HDP1.3,好吧,经过不懈的努力,终于被我搜索到了,哈哈,原来它可以支持的,并且官方已经提供了相应的包提供使用,只是不太好找罢了!下面把更新的过程和大家分享一下。

  先提供文中所需内容的下载地址:

  1.插件升级包

https://support.pentaho.com/entries/24445558-Big-Data-Plugin-Version-1-3-3-for-Pentaho-BA-Server-4-8-1-x-and-PDI-4-4-1-x

  2.hdp1.3的支持包

https://pentaho.app.box.com/s/0wqy2qty3szv7j3qt2za

  我使用的是4.4版本的kettle,大数据插件升级到了1.3.3.1了,所以要更新一下

  1.删除plugins下的pentaho-big-data-plugin

  2.删除libext/JDBC/pentaho-hadoop-hive-jdbc-shim-1.3.0.jar

  3.把pentaho-big-data-shimtastic-1.3.3.1.zip解压到plugins目录下,可以删掉pentaho-big-data-plugin\hadoop-configurations 中不要的版本

  4. 复制pentaho-hadoop-hive-jdbc-shim-1.3.3.jar 到libext/JDBC下

  5.解压pentaho-instaview-templates-shimtastic-1.3.3.zip 到这个目录下,实际上没有这个目录,自己创建一下吧

  plugins/spoon/agile-bi/platform/pentaho-solutions/system/instaview/templates/Big Data

  更新完插件之后,我们要添加hdp1.3的支持,使用CDH4的童鞋比较幸福,不需要下载这个包,因为插件默认就带有cdh42的版本,支持最新的4.2-4.3

  1.解压pentaho-hadoop-shims-hdp13-package-1.3.4.zip放到 plugins\pentaho-big-data-plugin\hadoop-configurations下面

  2.编辑plugins/pentaho-big-data-plugin/plugin.properties文件,设置active.hadoop.configuration为该目录的名称

  初始值是active.hadoop.configuration=hadoop-20,我的目录名称为hdp13,所以修改为active.hadoop.configuratio=hdp13

  经过测试,目前Hadoop Copy Files和Oozie Job Executor能正常使用,Hadoop Job Executor不能使用,并且只支持旧的mapred的api,不支持最新的mapreduce的api,它自带的demo也运行不起来,报错了。

  详细报错如下:

 Error executing class org.pentaho.hadoop.sample.wordcount.WordCount.
 java.lang.RuntimeException: java.lang.reflect.InvocationTargetException
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:377)
     at java.lang.Thread.run(Thread.java:722)
 Caused by: java.lang.reflect.InvocationTargetException
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
     at java.lang.reflect.Method.invoke(Method.java:601)
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor.executeMainMethod(JobEntryHadoopJobExecutor.java:660)
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:360)
     ... 1 more
 Caused by: java.lang.RuntimeException: Error in configuring object
     at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
     at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
     at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
     at org.apache.hadoop.mapred.JobConf.getInputFormat(JobConf.java:596)
     at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:1081)
     at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1073)
     at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
     at java.security.AccessController.doPrivileged(Native Method)
     at javax.security.auth.Subject.doAs(Subject.java:415)
     at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
     at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
     at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910)
     at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)
     at org.pentaho.hadoop.sample.wordcount.WordCount.main(WordCount.java:79)
     ... 7 more
 Caused by: java.lang.reflect.InvocationTargetException
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
     at java.lang.reflect.Method.invoke(Method.java:601)
     at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)
     ... 22 more
 Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:116)
     at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:156)
     at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:38)
     ... 27 more
 Caused by: java.lang.ClassNotFoundException: com.hadoop.compression.lzo.LzoCodec
     at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
     at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
     at java.security.AccessController.doPrivileged(Native Method)
     at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:423)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:356)
     at java.lang.Class.forName0(Native Method)
     at java.lang.Class.forName(Class.java:264)
     at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:810)
     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:109)
     ... 29 more

  这个问题可能是运行旧的mapred的api导致的,kettle自身的大数据插件上本身就支持hadoop-0.20版本以及CHD4(也是基于0.20版本的),可能是为了兼容的问题,运行hdp的程序的时候也是使用的旧的api,然后就引发了这个错误,这个错误也是报得莫名其妙,源码里面里面都没有使用压缩,我的集群本身也是配置了lzo的,例子运行的时候都能看到加载lzo的类库成功的提示信息。。。 我在hadoop里面运行新版的wordcount例子也是没问题,但是在kettle上就不行,看来只能走改源码的方法了,正好oozie的插件也有不尽如人意的地方,顺便把oozie的插件也修改一下,加上重新启动流程的功能。

  不过比较安慰的是Hadoop Copy Files和Oozie Job Executor都可以用,MapReduce我可以配置到oozie里面执行,不要它那个破玩意儿了,太让人闹心了。

  如果有用CDH4的童鞋,帮忙试一下你们的能不能用,如果有知道怎么解决这个问题的更好,感激涕零!

  最后发一下原始的地址,E文好的童鞋可以自己去看看,找到适合自己的版本!

http://wiki.pentaho.com/display/BAD/4.4+Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏hotqin888的专栏

engineercms利用pdf.js制作连续看图功能

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

19910
来自专栏DOTNET

ASP.NET MVC编程——单元测试

1自动化测试基本概念 自动化测试分为:单元测试,集成测试,验收测试。 单元测试 检验被测单元的功能,被测单元一般为低级别的组件,如一个类或类方法。 单元测试要满...

56050
来自专栏C/C++基础

计算机基础知识

攻击过程如下: 1. 攻击者通过MIM(比如arp欺骗等)劫持server与客户端浏览器之间的http包; 2. 攻击者生成一对伪造的RSA密钥: fa...

8610
来自专栏我杨某人的青春满是悔恨

如何将第三方库与业务代码解耦

日常开发中我们经常会用到各种第三方库,而如何使用别人的代码其实也有一点讲究。如果直接在业务代码中使用第三方库,导致项目对某个第三方库的依赖过重,那一旦因为各种原...

19230
来自专栏MasiMaro 的技术博文

hook键盘驱动中的分发函数实现键盘输入数据的拦截

我自己在看《寒江独钓》这本书的时候,书中除了给出了利用过滤的方式来拦截键盘数据之外,也提到了另外一种方法,就是hook键盘分发函数,将它替换成我们自己的,然后再...

11620
来自专栏XAI

微信二次开发Java自定义菜单事件实现

微信二次开发--java http://blog.csdn.net/lyq8479/ 这个是柳峰的CSDN博客。大家可以看大神的教程。里面有所有的代码。 项目整...

83460
来自专栏JackieZheng

学习Spark——那些让你精疲力尽的坑

这一个月我都干了些什么…… 工作上,还是一如既往的写bug并不亦乐乎的修bug。学习上,最近看了一些非专业书籍,时常在公众号(JackieZheng)上写点小...

89270
来自专栏草根专栏

使用xUnit为.net core程序进行单元测试(3)

请使用这个项目作为练习的开始: https://pan.baidu.com/s/1ggcGkGb 测试的分组 打开Game.Tests里面的BossEnemyS...

46250
来自专栏ChaMd5安全团队

HCTF2018 WriteUp

不断fuzz,发现\u0075nion在json_decode后,会变成union,从而达到bypass的目的。 脚本:

28340
来自专栏后台开发+音视频+ffmpeg

dpvs源码分析(续)

在上一篇https://cloud.tencent.com/developer/article/1180256?s=original-sharing,我们已经介...

56010

扫码关注云+社区

领取腾讯云代金券