如何在Hadoop集群上运行Hadoop Streaming？_Hadoop Streaming无法运行python_如何在Hadoop Streaming中运行Python mapreduce - 腾讯云开发者社区

、、、

我有Hortonworks Sandbox并运行命令： ssh root@127.0.0.1 -p 2222; 登录后，我想对位于Documents下的两个HDFS文件RatinsBreakdown.py和u.data运行MapReduce，如下所示： python RatingsBreakdown.py -r hadoop hdfs:///user/[username]/u.data --hadoop-streaming-jar /usr/hdp/2.6.2.0-205/hadoop-mapreduce/hadoop-streaming.jar 如何调整上述命令，使其在Hadoop集群中运

浏览 31提问于2021-09-13得票数 0

1回答

用于hadoop的Dumbo mapreduce

、

我尝试在hadoop集群上运行Dumbo MapReduce命令，但得到以下错误。 15/03/02 17:55:28错误streaming.StreamJob:作业未成功。错误: NA 15/03/02 17:55:28信息streaming.StreamJob: killJob...流命令失败！似乎我需要提供Hadoop streaming jar的路径。我如何才能找到它，什么是Hadoop streaming jar？我的dumbo命令如下：转储启动应用程序-hadoop /hadoop/ -input / test_dumbo6.py /user/jj/json.log ipco

浏览 0提问于2015-03-03得票数 0

3回答

空闲的hadoop master -如何让它做一些工作？

、

我启动了一个包含两个节点的小型集群，并注意到主节点完全空闲，而从节点完成所有工作。我想知道让master运行一些任务的方法是什么。我知道对于一个较大的集群来说，可能需要一个专用的主节点，但在一个2节点的集群上，这似乎有点过分了。谢谢你的建议，瓦茨拉夫更多细节：这两个盒子各有2个CPU。集群已经在Amazon Elastic MapReduce上设置好了，但我是从命令行运行hadoop的。我刚刚尝试的集群有： Hadoop 0.18 java version "1.6.0_12" Java(TM) SE Runtime Environment (build 1.6.0_

浏览 0提问于2010-09-14得票数 1

3回答

使用Python和python子进程的Hadoop流

、

我已经建立了一个基本的hadoop主从集群设置，并且能够在集群上运行mapreduce程序(包括python)。现在，我正在尝试运行一个python代码，它访问一个C二进制文件，所以我使用了子进程模块。对于普通的python代码，我可以使用hadoop流，但是当我包括子进程模块来访问二进制文件时，作业就失败了。正如您在下面的日志中所看到的，hello可执行文件被识别为用于打包，但仍然无法运行代码。 . . packageJobJar: [**/tmp/hello/hello**, /app/hadoop/tmp/hadoop-unjar503008006772199888

浏览 5提问于2012-03-07得票数 1

1回答

AWS无法从S3桶中找到Mapper文件--没有这样的文件或目录

、、

我正在尝试运行以下命令 hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar -files s3://foobar/hadoop-samples/wordSplitter.py -input s3://foobar/hadoop-samples/input -output s3://foobar/wordcount/output/ -mapper wordSplitter.py -reducer aggregate -verbose 但是Hadoop无法找到wordSplitter.py文件。我得到了以下错误： Caused by:

浏览 1提问于2018-05-22得票数 1

1回答

Hadoop Streaming、C#和带有外部库的Azure

、、

我在Azure的Linux集群上使用Hadoop Streaming在C#中运行mapreduce作业。但是，我需要使用MathNet.Numerics库。我使用NuGet包管理器获取dll，然后将dll作为参考文件包含在lib文件夹中，并确保构建操作设置为: Embedded Resource。每当我尝试运行以下命令时： hadoop jar ./hadoop-streaming-2.6.0.jar -input wasb:///CSV/ -output wasb:///Output/reducer1.txt -file ./Mapper.exe -mapper Mapper.exe

浏览 1提问于2016-02-26得票数 1

1回答

在已安装的Hadoop集群上使用R

、、

我是一个R用户。我对Linux命令，PuTTY或Hadoop/Hive知之甚少。所以，如果我错了，请纠正我。我现在和一个团队一起工作。他们有一个运行在集群上的Ubuntu系统。我可以使用PuTTY访问这个Ubuntu系统，并使用代码访问数据文件： user$hadoop fs -ls /datafolder/ 或者使用蜂箱： user$hive hive>use datafolder; hive>show tables; 相反，和我一起工作的团队对R知之甚少，所以他们想让我做R部分。我已经在集群上安装了R，并在R中安装了rJava HRive和其他软件包(我不确定我这样

浏览 3提问于2014-07-14得票数 1

回答已采纳

1回答

使用shell脚本的Hadoop流:还原程序失败，错误:没有这样的文件或目录

、、、

我使用的是一个10节点的HDP集群，在该集群中，我试图使用Bash.Below上的shell脚本运行一个简单的Bash.Below作业，这是我使用的逗号行参数。 yarn jar /usr/hdp/2.6.5.0-292/hadoop-mapreduce/hadoop-streaming-2.7.3.2.6.5.0-292.jar \ -mapper 'wc -l' \ -reducer './reducer_wordcount.sh' \ -file /home/pathirippilly/map_reduce_jobs/she

浏览 0提问于2018-09-09得票数 0

1回答

在hadoop 2.7.3中将mapper更改为每个worker上的核心数量

、、、

默认情况下，hadoop 2.7.3中的一个作业可以有两个映射器。我有一个由2个系统组成的集群，每个系统上都有4个可用内核。一个是master，一个是worker。现在我想运行3个map任务worker节点。我能做到吗？我正在使用hadoop流来运行作业。那么，为了这个目的，我应该设置什么参数。另外，我只想将一个输入(行)设置为一个映射器。参数的格式应该是什么。我当前没有完成作业的命令是 hadoop jar $HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.7.3.jar\ -D mapred.output.compress

浏览 18提问于2017-01-09得票数 1

1回答

使用MapReduce CDH4运行简单的MR1流作业失败

、

我有一个运行CDH4的集群，该集群最近从CDH3升级。蜂巢目前运行得很好。然而，我似乎无法让它运行甚至简单的MR流作业(版本1)。纱线已安装，但未使用。下面是命令行的输入和输出 $ /usr/lib/hadoop/bin/hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop- streaming-2.0.0-mr1-cdh4.0.0.jar grep -input /input -output /output/ 'dfs[a-z.]+' 查看日志显示如下： packageJobJar: [/tmp

浏览 3提问于2012-07-12得票数 2

1回答

Python Hadoop流错误"ERROR streaming.StreamJob: Job not Successful!“和堆栈跟踪: ExitCodeException exitCode=134

、、、、

我正在尝试使用Hadoop Streaming在Hadoop集群上运行python脚本进行情感分析。与我在本地机器上运行的脚本相同，该脚本运行正常并给出输出。要在本地机器上运行，我使用以下命令。 $ cat /home/MB/analytics/Data/input/* | ./new_mapper.py 为了在hadoop集群上运行，我使用以下命令 $ hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.5.0-mr1-cdh5.2.0.jar -mapper "python

浏览 89提问于2015-04-22得票数 4

1回答

我是否可以像在本地群集上一样在EMR上运行作业

、、、

我已经在我的笔记本电脑上构建了一个本地集群(伪模式)。在那里我运行不同的mapreduce命令，比如 hadoop-streaming -D mapred.output.compress=true \ -D mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \ -files my_mapper.py,my_reducer.py \ -mapper my_mapper.py \ -reducer my_reducer.py \ -input /aws/input/input_w

浏览 0提问于2017-01-12得票数 0

1回答

如何在Hadoop流中停用输出？

、、、

我正在我的集群上编写程序。我的映射器解析数据并将它们存储在HBase中。没有减速器，没有输出。下面是参考代码，如果需要的话。 class Mapper: ... def __init__(...) ... def start(self, file): generator = self.read_input(file) connection = happybase.Connection(Mapper.IP) self.table = connection.table(Mapper.table_name) for line in gener

浏览 0提问于2015-03-29得票数 1

回答已采纳

3回答

使用RVM的Hadoop流找不到Gem

、、、、

原始问题(下文长文)。简短版本:在所有集群节点上运行带有ruby脚本的hadoop流作为mapper和rvm是行不通的。因为hadoop启动的shell不知道ruby (而且rvm没有正确加载)。为什么？我希望使用wukong作为一个gem，为hadoop创建映射/减少作业。问题是hadoop无法加载wukong gem (即找不到它)。Hadoop作业显示了以下错误： /usr/local/rvm/rubies/ruby-1.9.3-p194/lib/ruby/site_ruby/1.9.1/rubygems/custom_require.rb:36:in `require':

浏览 2提问于2012-08-08得票数 0

回答已采纳

1回答

在hadoop集群上，子进程失败，代码1

、、

我有一个Hadoop3.2.2集群，其中包含1个namenode/resourceManager和3个datanodes/NodeManager。这是我的纱线网站配置 <property> <name>yarn.resourcemanager.hostname</name> <value>bd-1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <

浏览 10提问于2021-02-25得票数 0

回答已采纳

1回答

EC2上的Hadoop流作业仍处于“待定”状态

、

尝试在Ubuntu上使用cloudera发行版CDH3对Hadoop和流进行实验。在hdfs://准备好处理的有效数据。用python写的小流映射器。当我启动一个只有映射器的作业时，请使用： hadoop jar /usr/lib/hadoop/contrib/streaming/hadoop-streaming*.jar -file /usr/src/mystuff/mapper.py -mapper /usr/src/mystuff/mapper.py -input /incoming/STBFlow/* -output testOP hadoop适当地决定它将使用集群上的66

浏览 0提问于2011-06-27得票数 0

回答已采纳

1回答

将hive中"select“的输出作为Hadoop jar输入文件的输入

、、、

我正在试验一个名为vowpal wabbit的机器学习包。要在hadoop集群上运行vowpal wabbit，建议执行以下操作： hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.3.0.jar \ -Dmapred.job.name="vw allreduce $in_directory" \ -Dmapred.map.tasks.speculative.execution=true \ -Dmapred.reduce

浏览 0提问于2013-08-06得票数 0

2回答

Hadoop如何在DataNode的

、、、

对于hadoop集群中的Datanode是如何为作业的约简函数运行java代码，我感到困惑。例如，hadoop如何将java代码发送到另一台计算机执行？ Hadoop是否向节点注入java代码？如果是的话，java代码在hadoop中的位置在哪里？或者减少函数是在主节点上运行，而不是在数据节点上运行？帮助我跟踪这段代码，其中主节点将用于还原函数的java代码发送到datanode。

浏览 12提问于2016-01-18得票数 0

回答已采纳

4回答

使用RHadoop的R+ Hadoop作业在单机群集上失败

、、

提前道歉，因为我是个新手，可能会问一些愚蠢的问题。我已经在单机集群(Ubuntu 14.04)上安装了Hadoop，并成功地测试了Apache安装指南中指定的非常基本的程序。随后，我安装了R、RStudio以及包rhdfs、rmr2和所有依赖项。然后，我尝试运行以下程序： Sys.setenv(HADOOP_CMD="/usr/local/hadoop/bin/hadoop") Sys.setenv(HADOOP_STREAMING="/usr/local/hadoop/contrib/streaming/hadoop-streaming-1.2.1.jar"

浏览 7提问于2014-05-05得票数 2

1回答

DCOS火花无法访问外部HDFS

、、

我已经安装了DCOS集群，在安装spark时，我提供了hdfs-site.xml和core-site.xml外部集群的详细信息，我试图使用spark访问这些集群。配置了/etc/host文件的DCOS集群的HDFS详细信息，我正在尝试运行我的火花作业在帮助下DCOS命令 dcos火花运行-提交-args=‘-dspak.mesos.粗=真-驱动程序-核心1-驱动程序-内存1024M -文件 -类SparkAvroConsumer ’ 火花作业执行遇到异常。此外，spark运行的代理正在尝试访问本地主机，而不是HDFS集群。是否有任何其他配置，我需要访问外部HDFS？ java.net.Conn

浏览 0提问于2018-02-22得票数 0

2回答

为什么Google Dataproc HDFS名称节点在Safemode中？

、、、

我试图通过向Dataproc集群提交一个Spark作业来写入hdfs:///home/bryan/test_file/上的HDFS目录。我得到一个错误，名称节点是在安全模式。我有让它脱离安全模式，但我担心这可能是因为另一个原因。为什么Dataproc集群处于安全模式？ ERROR org.apache.spark.streaming.scheduler.JobScheduler: Error running job streaming job 1443726448000 ms.0 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop

浏览 7提问于2015-10-01得票数 3

1回答

java.io.IOException:越来越多的映射器/减速器数量增加的断管，很多。

、、、

我在一个由6个节点组成的hadoop集群上运行MapReduce作业，其中配置了4个映射任务和10个精简任务。 Mapper/Reducer在增加地图/减少任务的数量方面失败很多，如下所示，我遇到以下错误： stderr日志 java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 143 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:362) at org.a

浏览 14提问于2014-03-01得票数 3

1回答

在hadoop中找不到shell脚本

、

我是hadoop和hadoop流的新手，所以这个错误可能是我错过的一些明显的错误。我运行一个内联awk mapper命令，它工作得很好。 hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.3.jar -input input -output output -mapper "/usr/bin/awk -F'\t' '\$1==\"and\"'" -reducer NONE 但是，当我将awk命令放到一个文件中并运行它时。我在集群中的所有机器上安装了Java

浏览 3提问于2012-07-06得票数 0

回答已采纳

1回答

如何在Hadoop流中提供正确的输入和输出格式以及文件路径

、、、、

我创建了一个Matlab程序，我必须在Hadoop中运行它。出于测试目的，我使用Octave进行Hadoop图像处理。我有使用集群的Hadoop工作环境。对于图像处理，我使用Hadoop流jar文件。为八度简单的图像处理程序创建的Shell脚本。在shell脚本中使用本地文件系统镜像文件成功。但现在我将在Hadoop环境中运行它。为此，我应该给出存储在HDFS中的图像。我在Hadoop中尝试过，但它不能工作，也不能输出图像。例如 #!/bin/bash /usr/bin/octave <<EOF rgbImage = imread("/usr/2003vre.jpg"

浏览 3提问于2014-01-22得票数 0

1回答

理解使用GZ文件的Hadoop行为

我在我的S3桶中的两个单独的文件夹中有一个小JSON文件。我分别用相同的映射器运行了相同的命令。正规JSON $ hadoop jar /home/hadoop/contrib/streaming/hadoop-streaming-1.0.3.jar -Dmapred.reduce.tasks=0 -file ./mapper.py -mapper ./mapper.py -input s3://mybucket/normaltest -output smalltest-output 14/08/28 08:33:53 WARN conf.Configuration: DEPRECATED:

浏览 0提问于2014-08-28得票数 0

3回答

使用hadoop流作业运行R脚本失败: PipeMapRed.waitOutputThreads()：子进程失败，代码为1

、、、

我有一个R脚本，它在R Colsole中工作得很好，但当我在Hadoop streaming中运行时，它失败了，在映射阶段.Find任务尝试日志中出现以下错误我拥有的Hadoop流命令： /home/Bibhu/hadoop-0.20.2/bin/hadoop jar \ /home/Bibhu/hadoop-0.20.2/contrib/streaming/*.jar \ -input hdfs://localhost:54310/user/Bibhu/BookTE1.csv \ -output outsid -mapper `pwd`/code1.sh stderr日志

浏览 0提问于2013-07-03得票数 0

1回答

exist.Streaming错误:启动作业时出错，输入路径错误:文件不支持Hadoop命令失败

、、

我在Hadoop集群上运行一个MRJob &我得到以下错误： No configs found; falling back on auto-configuration Looking for hadoop binary in $PATH... Found hadoop binary: /usr/local/hadoop/bin/hadoop Using Hadoop version 2.7.3 Looking for Hadoop streaming jar in /usr/local/hadoop... Found Hadoop streaming jar: /usr/local/h

浏览 1提问于2017-02-27得票数 0

1回答

Hadoop集群-在运行作业之前，我是否需要在所有机器上复制我的代码？

、、、

这就是让我困惑的地方，当我使用wordcount示例时，我把代码放在master上，让他用slaves做事情，它运行得很好。但是当我运行我的代码时，它开始在从服务器上失败，给出了奇怪的错误，比如 Traceback (most recent call last): File "/app/hadoop/tmp/mapred/local/taskTracker/hduser/jobcache/job_201110250901_0005/attempt_201110250901_0005_m_000001_1/work/./mapper.py", line 55, in <

浏览 3提问于2011-10-26得票数 3

1回答

如何在hdinsight中查看应用程序的异常

、

如何在hdinsight中查看我的应用程序的异常？我创建了一个hadoop流作业，当我运行我的作业时，它失败了 Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 255 at org.apache.hadoop.streaming.PipeMapRed.waitOutputThreads(PipeMapRed.java:320) at org.apache.hadoop.streaming.PipeMapRed.mapRedFinishe

浏览 4提问于2014-11-25得票数 0

回答已采纳

2回答

火花提交失败与火花流工作，计算python代码

、、、

我刚刚复制了星火流wodcount python代码，并在spark集群中使用火花提交运行wordcount python代码，但它显示了以下错误： py4j.protocol.Py4JJavaError: An error occurred while calling o23.loadClass. : java.lang.ClassNotFoundException: org.apache.spark.streaming.kafka.KafkaUtilsPythonHelper at java.net.URLClassLoader$1.run(URLClassLoader.java:366)

浏览 3提问于2015-04-07得票数 1

回答已采纳

3回答

Hadoop流命令失败，出现Python错误

、、

我是Ubuntu、Hadoop和DFS的新手，但我已经按照Michael-Noll.com上发布的说明在我本地的ubuntu机器上安装了一个单节点hadoop实例：我目前只能在Hadoop上运行基本的字数统计示例。我不确定我一直在我的下载目录之外运行Hadoop的事实是否有太大的不同，但我已经尝试过将mapper.py和reducer.py函数的文件位置放在Hadoop工作目录中，但没有成功。我已经用尽了我所有的研究，但仍然不能解决这个问题(即使用-file参数，等等)。我非常感谢大家提前给予我的帮助，我希望我提出这个问题的方式能够帮助那些刚刚开始使用Python + Hadoop的人。

浏览 0提问于2013-03-09得票数 3

1回答

无法执行基于Python的Hadoop流作业

、、

我有一个5节点hadoop集群，可以在其上成功地执行以下流作业 sudo -u hdfs hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar -input /sample/apat63_99.txt -output /foo1 -mapper 'wc -l' -numReduceTasks 0 但是当我尝试使用python执行流作业时 sudo -u hdfs hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/stre

浏览 1提问于2014-08-30得票数 1

回答已采纳

1回答

Hadoop流中损坏的python流水线

、、、、

我有一个大规模的日志处理问题，我必须在hadoop集群上运行。任务是将日志的每一行输入到可执行文件"cmd“中，并检查结果以决定是否保留此行日志。由于"cmd“程序打开了一个非常大的字典，所以我无法为日志的每一行调用该程序。我想让它保持运行，并向它提供所需的输入。我目前的解决方案使用的是python的subprocess模块，代码如下： import sys from subprocess import Popen, PIPE def main(): pp = Popen('./bqc/bqc/bqc_tool ./bqc/bqc/bqc_dict/ ./b

浏览 0提问于2012-07-05得票数 1

3回答

如何在远程群集上运行HBase shell

、、、、

我在我的工作站上以伪分布式模式运行HBase。我们还在集群上运行HBase。使用HBase外壳，我想从我的工作站访问集群上运行的HBase实例。我希望在不登录到其中一台集群计算机的情况下执行此操作。使用Hadoop，您可以通过指定-conf参数并提供hadoop-site.xml的替代版本来在远程集群上运行作业。有没有HBase外壳的等价物？我在我的工作站和集群机器上运行cloudera cdh3u3。

浏览 0提问于2012-04-19得票数 10

回答已采纳

1回答

作业返回错误

、、

嗨，我刚刚开始使用Hadoop并运行我的第一个mapreduce作业。我使用python构建映射和减少脚本，并测试了它及其工作状态，但是当我试图在hadoop.It上运行它们时，返回错误。下面是我在终端中输入的命令 /home/maitreyee/hadoop$ bin/hadoop jar contrib/streaming/hadoop-streaming-1.2.1.jar -mapper /usr/bin/python mapper1.py -reducer /usr/bin/python reducer1.py -input /user/hduser/gutenberg/*

浏览 2提问于2014-12-05得票数 0

回答已采纳

1回答

R分布式集群包

是否有任何现有的R集群包(kmeans，hierarchical)利用RHadoop或RHIPE在分布式hadoop集群上运行？谢谢

浏览 2提问于2012-06-01得票数 1

3回答

HADOOP_HOME和hadoop流

、

您好，我正在尝试在安装了hadoop的服务器上运行hadoop，但我不知道hadoop所在的目录。服务器由服务器管理员配置。为了加载hadoop，我使用dotkit包中的use命令。可能有几种解决方案，但是他们想知道hadoop包的安装位置，如何设置hadoop变量，以及如何正确运行hadoop流作业，例如$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/mapred/contrib/streaming/hadoop-streaming.jar，，也就是http://wiki.apache.org/hadoop/HadoopStreaming。谢谢!任何帮

浏览 0提问于2012-10-02得票数 2

回答已采纳

1回答

如何将HDInsight的输入/输出路径设置为指向本地存储模拟器中的Azure存储库(ASV)？

、、、

我试图为hdinsight创建一个简单的映射/还原作业，但在通过ASV://将本地hdinsight hadoop集群中的作业连接到本地天蓝色存储仿真器时遇到了困难。示例代码如下： var hadoop = Hadoop.Connect(); HadoopJobConfiguration config = new HadoopJobConfiguration(); config.InputPath = @"asv://127.0.0.1:10000/devstoreaccount1/testcontainer/input"; config.OutputFolder =

浏览 3提问于2013-08-26得票数 0

2回答

虚拟机上的Hadoop

、、、

为了实现可伸缩性，我们希望从MySQL迁移到Hadoop。运行在虚拟机上的hadoop集群会改善我们网站的性能吗？在虚拟机(ESXi)上实现hadoop集群有哪些优点和缺点？

浏览 0提问于2011-01-26得票数 -2

1回答

流命令失败！使用弹性贴图Reduce/S3和R时出错

、、、、

我在这里遵循这个示例，希望能够使用EC2/S3/EMR/R成功运行一些东西。作业在流式处理步骤中失败。以下是错误日志：控制器： 2011-07-21T19:14:27.711Z INFO Fetching jar file. 2011-07-21T19:14:30.380Z INFO Working dir /mnt/var/lib/hadoop/steps/1 2011-07-21T19:14:30.380Z INFO Executing /usr/lib/jvm/java-6-sun/bin/java -cp /home/hadoop/conf: /usr/lib/jvm/java-

浏览 2提问于2011-07-22得票数 2

回答已采纳

1回答

流式处理Kmeans Mahout one文件输出

、

我在集群上运行Mahout Streaming K means算法，并且只得到一个文件作为输出。我刚接触Mahoot/Hadoop，但是如果我理解得很好的话，应该有多个文件，因为作业是在多个节点上拆分的。如果我是对的，为什么我的情况不是这样呢？可能是我的数据太少了，所以处理是在一台机器上完成的，或者我在运行作业时搞砸了一些东西( Hadoop的路径或类似的东西)，这就是它在一台机器上运行的原因？

浏览 0提问于2014-11-20得票数 0

1回答

提交Google Dataproc Hadoop作业时找不到Hadoop流jar？

、

当尝试以编程方式(从使用dataproc库的MapReduce应用程序)提交Hadoop作业时，作业立即失败。当通过UI提交完全相同的作业时，它工作得很好。我在Dataproc集群上尝试了SSHing，以确认该文件是否存在，检查权限，并更改了jar引用。到目前为止，一切都还没有奏效。我得到的错误是： Exception in thread "main" java.lang.ClassNotFoundException: file:///usr/lib/hadoop-mapreduce/hadoop-streaming-2.8.4.jar at java.lang.Clas

浏览 22提问于2019-01-02得票数 0

回答已采纳

0回答

如何在Hadoop Streaming中运行Python mapreduce

、、、

我正尝试在Apache Hadoop中运行一个mapreduce程序，该程序计算给定输入文件中质数的平均值。这是我的Mapper import sys for word in sys.stdin: print(word) 这是Reducer import sys primes = [] for word in sys.stdin: if(int(word) >= 2): isPrime = True for a in range(2,int(word)): if(int(word) % a == 0):

浏览 4提问于2017-12-03得票数 0

1回答

使用mongo-hadoop连接器的Hadoop流失败

、、、、

我创建了这个作业，它从HDFS读取一堆JSON文件，并尝试将它们加载到MongoDB中。这仅仅是映射脚本，因为我不需要在还原步骤上进行任何附加处理。我在试着用蒙哥-哈多普连接器。脚本是用Perl编写的，并提供给集群中的所有节点，并提供所有附加的依赖项。脚本以二进制模式发出，这是原始JSON文件的BSON序列化版本。由于某些原因，作业失败，出现以下错误： Error: java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to com.mongodb.hadoop.io.BSONWritable

浏览 5提问于2016-06-13得票数 3

回答已采纳

2回答

使用Hadoop流通过脚本运行二进制文件

、

我是Hadoop的新手，我正试图找到一种方法来完成以下工作：我有多个输入图像文件。我有处理这些文件的二进制可执行文件。这些二进制可执行文件将文本文件写入输出。我有一个包含所有这些可执行文件的文件夹。我有一个脚本，它以一定的顺序运行所有这些可执行文件，将图像位置作为参数传递。我的问题是:我能否使用Hadoop流通过这些二进制文件处理这些图像，并从文本文件中吐出结果。我现在正在尝试这个。我的Hadoop集群正在运行。我通过二进制文件和图片上传到HDFS。我已经设置了一个脚本，当hadoop运行时，应该将目录更改为带有图像的文件夹，并执行另一个执行二进制

浏览 6提问于2012-11-30得票数 0

回答已采纳

3回答

如何在hadoop文件系统上为Java程序设置类路径

、、

我正在尝试弄清楚如何设置引用HDFS的类路径？我找不到任何参考资料。 java -cp "how to reference to HDFS?" com.MyProgram 如果我不能引用hadoop文件系统，那么我必须将所有引用的第三方库/jars复制到每个hadoop machine...but上的$HADOOP_HOME下的某个地方，我想通过将文件放到hadoop文件系统来避免这种情况。这个是可能的吗？程序运行的hadoop命令行示例(我的期望是这样的，也许我错了)： hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-s

浏览 0提问于2012-07-28得票数 5

回答已采纳

2回答

如何在Mesos集群上运行Hadoop？

、

我正在尝试设置Apache Mesos集群并在其上运行Hadoop-Job。文档不在我的级别，所以我不能理解，也许这里有人可以解释我：首先，我应该设置一个正常工作的Hadoop集群吗？还是先建立一个Mesos集群？我该把这些奴隶放在哪里？在Hadoop-slaves文件或注册的Mesos从文件中应该只使用吗？

浏览 8提问于2013-11-13得票数 7

1回答

自动化Hadoop批处理命令

、、、、

我是这个领域的乞丐，所以不知道确切的术语，对不起问题库：想要自动处理批处理层问题：我无法理解人们是如何运行诸如 "hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming-2.0.0-mr1-cdh4.4.0.jar \ -mapper mapper.py \ -reducer reducer.py \ -input nfldata/stadiums \ -output nfldata/pythonoutput \ -file simple/map

浏览 3提问于2015-12-22得票数 2

回答已采纳

4回答

使用hadoop流和mrjob运行作业: PipeMapRed.waitOutputThreads()：子进程在代码1中失败

、、、、

嘿，我是大数据世界的新手。我在上看到了这个教程它详细描述了如何在本地和弹性地图还原上使用mrjob运行MapReduce作业。我试着在我自己的Hadoop cluser上运行这个。我使用以下命令运行该作业。 python density.py tiny.dat -r hadoop --hadoop-bin /usr/bin/hadoop > outputmusic 我得到的是： HADOOP: Running job: job_1369345811890_0245 HADOOP: Job job_1369345811890_0245 running in uber mode : fa

浏览 7提问于2013-06-11得票数 12

回答已采纳

1回答

使用python的mongodb_hadoop流:未识别的-inputURI

、、

我正在尝试使用MapReduce连接程序在python中创建一个mongodb_hadoop应用程序。我安装了一个带有Hadoop2.2.0的集群。我已经安装了mongodb_hadoop连接器v1.3.0。我安装了mongodb，并创建了一个名为hadoop_db的测试数据库，其中包含一个名为“整数”的集合，其中包含整数值。我的目标是试图计数每一个整数的出现。我的工作是基于这个但是当我试图执行这个任务时，我得到的是： bin/hadoop jar share/hadoop/tools/lib/hadoop-streaming-2.2.0.jar \ -mapper pyhadoop/py

浏览 6提问于2014-07-30得票数 1

回答已采纳