我已经建立了一个基本的hadoop主从集群设置,并且能够在集群上运行mapreduce程序(包括python)。现在,我正在尝试运行一个python代码,它访问一个C二进制文件,所以我使用了子进程模块。22:31:32 INFO streaming.StreamJob: /usr/local/hadoop/bin/..我的命令是:
hadoop jar contrib/<em
简短版本:在所有集群节点上运行带有ruby脚本的hadoop流作为mapper和rvm是行不通的。因为hadoop启动的shell不知道ruby (而且rvm没有正确加载)。为什么?org.apache.hadoop.streaming.PipeMapper.close(PipeMapper.java:136)
at org.apache.hadoop.mapred.MapRunner.run(UserGroupInformation.java:110
我有一个运行CDH4的集群,该集群最近从CDH3升级。蜂巢目前运行得很好。然而,我似乎无法让它运行甚至简单的MR流作业(版本1)。纱线已安装,但未使用。下面是命令行的输入和输出
$ /usr/lib/hadoop/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming</em