CDH-Hadoop2.6+ Apache Pig0.15安装记录

1,使用CDH的hadoop里面有对应的组件Pig,但版本较低,所以放弃使用了,直接下载 Apache Pig0.15最新的版本(支持Tez,比Hive更容易集成) 下载地址:http://archive.apache.org/dist/pig/pig-0.15.0/pig-0.15.0.tar.gz 直接下载二进制包即可 2,配置Pig的环境变量如下: #Pig export PIG_HOME=/ROOT/server/pig export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop export PATH=/ROOT/server/pig/bin:$PATH 3,直接执行pig命令,启动程序,会报如下异常 [main]ERROR org.apache.pig.Main -ERROR 2998:Unhandled internal error.Found interface jline.Terminal,but class was expected 原因是由于jline这个包和hadoop的yarn/lib下面的jline的包不一致造成的。 可参考:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started里面的解释 解决方法: 删掉hadoop的yarn/lib下的那个jline版本较高的包,将pig/lib下的jline-1.0.jar包拷贝到yarn/lib下,然后 重新执行pig命令,可正常启动。

然后执行一个pig脚本写的MapReduce作业,发现会报如下异常,但是MR作业是跑成功的:

原因是,Hadoop的jobhistroy进程没有启动。 解决办法: 执行sbin/mr-jobhistory-daemon.sh start historyserver 命令,启动日志守护进程 然后再次跑pig作业,一切正常 !

原文发布于微信公众号 - 我是攻城师(woshigcs)

原文发表时间:2015-06-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏有困难要上,没有困难创造困难也要上!

使用docker-compose创建hadoop集群

72040
来自专栏Hadoop实操

如何在CDH中使用LZO压缩

CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码。

62280
来自专栏Hadoop实操

如何查看集成Sentry后Hive作业的真实用户

在CDH集群启用Sentry服务后,需要关闭Hive的启用模拟功能,hive.server2.enable.impersonation设为false,这会导致任...

62250
来自专栏Hadoop实操

Sqoop抽数到Hive表异常分析(之二)

使用Sqoop抽取MySQL数据到Hive表时,抽取语句正常执行在数据Load到Hive表时报“Operation category READ is not s...

17130
来自专栏祝威廉

StreamingPro 支持Spark Structured Streaming

Structured Streaming 的文章参考这里: Spark 2.0 Structured Streaming 分析。2.0的时候只是把架子搭建起来了...

13330
来自专栏Hadoop实操

如何通过Cloudera Manager配置Spark1和Spark2的运行环境

大部分用户在使用CDH集群做Spark开发的时候,由于开发环境的JDK版本比CDH集群默认使用的JDK1.7.0_67-cloudera版本新,可能会出现Spa...

89870
来自专栏Hadoop实操

如何使用Cloudera Manager在线为集群减容

在Hadoop集群资源紧张的情况下可以在线扩容来提升集群的计算能力,具体参考Fayson前面的文章《如何在非Kerberos环境下对CDH进行扩容》,那么在集群...

1.5K70
来自专栏Hadoop实操

如何获取Hive正在执行或者已结束的的MapReduce作业的SQL语句

当我们提交Hive SQL语句到YARN后,有时如果我们想监控某个SQL的执行情况,需要查看具体SQL语句,如果这个SQL语句比较长,无论是通过YARN的808...

1.1K50
来自专栏Hadoop实操

如何在Kerberos环境下的CDH集群部署Spark1.6 Thrift及spark-sql客户端

26030
来自专栏云计算

在Hadoop YARN群集之上安装,配置和运行Spark

Spark是一种通用的集群计算系统。它可以在从单个节点到数千个分布式节点的集群上部署和运行并行应用程序。Spark最初设计用于运行Scala应用程序,但也支持J...

71110

扫码关注云+社区

领取腾讯云代金券