无法远程调试mapreduce作业的原因

可能有以下几个方面：

网络连接问题：远程调试mapreduce作业需要确保网络连接稳定，如果网络出现故障或延迟，可能导致无法远程调试。可以尝试检查网络连接是否正常，包括检查网络配置、防火墙设置等。
配置问题：远程调试mapreduce作业需要正确配置相关环境和工具。可能是配置文件中的错误设置，或者缺少必要的依赖项。可以检查相关配置文件，确保配置正确，并安装所需的依赖项。
权限问题：远程调试mapreduce作业需要具有足够的权限来访问和操作相关资源。可能是没有足够的权限来执行远程调试操作，或者没有正确设置访问权限。可以检查所使用的账号是否具有足够的权限，并确保正确设置相关权限。
调试工具问题：可能是使用的调试工具存在问题，或者版本不兼容。可以尝试更新或更换调试工具，或者查看相关文档和社区，了解是否存在已知的问题或解决方案。

腾讯云相关产品和产品介绍链接地址：

腾讯云MapReduce产品介绍：https://cloud.tencent.com/product/emr
腾讯云云服务器产品介绍：https://cloud.tencent.com/product/cvm
腾讯云云数据库产品介绍：https://cloud.tencent.com/product/cdb
腾讯云云原生产品介绍：https://cloud.tencent.com/product/tke
腾讯云人工智能产品介绍：https://cloud.tencent.com/product/ai
腾讯云物联网产品介绍：https://cloud.tencent.com/product/iot
腾讯云移动开发产品介绍：https://cloud.tencent.com/product/mpp
腾讯云对象存储产品介绍：https://cloud.tencent.com/product/cos
腾讯云区块链产品介绍：https://cloud.tencent.com/product/baas
腾讯云元宇宙产品介绍：https://cloud.tencent.com/product/vr

如何从eclipse中调试作业？

、、、、

我运行hadoop在一个单机，只有本地的设置，我正在寻找一种很好的，无痛的方式来调试映射器和折扣器在eclipse。Eclipse运行mapreduce任务没有问题。但是，当我去调试时，它会给出以下错误： 12/03/28 14:03:23警告mapred.JobClient:无作业jar文件集。可能找不到用户类。请参见JobConf(类)或JobConf#setJar(字符串)。好吧，所以我做了些调查。显然，我应该使用eclipse的远程调试工具，并将其添加到我的hadoop-env.sh中： -agentlib:jdwp=transport=dt_socket,server=y,

浏览 2提问于2012-03-28得票数 15

3回答

如何向Azure HDInsight上的Hadoop纱线提交Apache作业

、、

我非常兴奋的是，HDInsight切换到Hadoop 2，它通过纱线支持Apache。Apache是一个比MapReduce更适合我想要执行的任务的并行编程范例。但是，我无法找到任何关于如何向我的HDInsight集群提交Apache作业的远程作业的文档。对于标准MapReduce作业的远程作业提交，我知道有几个REST端点，如Templeton和Oozie。但据我所知，通过邓普顿管理星火作业是不可能的。我确实发现把火花作业整合到Oozie中是可能的，但是我读到这是一件非常乏味的事情，而且我也读过一些关于工作失败检测在这种情况下不起作用的报告。也许有一种更合适的方式来提交火花工作。有人知道

浏览 3提问于2014-07-10得票数 6

回答已采纳

2回答

如何终止/删除Amazon中的作业流？

、、、、

我使用亚马逊弹性MapReduce (Amazon )创建了一个工作流程，但由于一些未知的原因，它失败了。然后，我试图通过AWS管理控制台终止作业流，但是“终止”按钮被禁用。然后，我尝试使用CLI终止作业流，它显示了作业流被终止，但是当通过CLI和管理控制台中的弹性MapReduce选项卡看到它时，它仍然显示为在作业流列表中失败。请让我知道如何从列表中删除职务流。当我尝试调试作业流时，它显示了两个错误：调试功能对此作业流不可用，因为创建它时没有指定亚马逊S3日志路径。作业流失败，原因是:无效的桶名“testBucket”：桶名必须只包含小写字母、数字、句点(.)和破折号(-)。

浏览 4提问于2012-04-14得票数 3

回答已采纳

1回答

JAR Maven项目，在远程计算机上有依赖关系，但没有依赖关系

、、、

我是Maven和Java的新手。我正尝试在远程计算机上运行hdfs MapReduce作业。我没有写入/编辑依赖项文件的权限。我想知道是否有可能JAR我的Maven项目，并将其传递给我的MapReduce工作。这样，我就不需要通过SSH登录到远程机器并更改maven项目的依赖关系。我将使用包含远程计算机上未包含的所有必需依赖项的JAR来运行我的MapReduce作业。

浏览 2提问于2015-03-28得票数 0

3回答

为嵌入在Java webapp中的客户端设置hadoop系统用户

、

我希望将来自java应用程序的MapReduce作业提交给远程Hadoop集群，但无法指定该作业应提交给哪个用户。我想配置和使用一个应该用于所有MapReduce作业的系统用户。目前，我无法指定任何用户，无论hadoop作业在客户端系统当前登录用户的用户名下运行。这将导致消息出现错误。 Permission denied: user=alice, access=WRITE, inode="staging":hduser:supergroup:rwxr-xr-x ..。其中"alice“是本地的，在客户端机器上登录的用户。我试过了创建UserGroupInforma

浏览 6提问于2012-06-14得票数 30

回答已采纳

1回答

如何在Google App Engine上找到特定于单个MapReduce作业的日志？

、

我正在开发的应用程序有很多mapreduce cron作业在运行，其中一些作业会时不时地产生错误(最常见的ApplicationErrors、TransientErrors、DatabaseErrors、TimeOuts等)，这些错误都是零星的，大多数情况下我都不会感到困扰。然而，在调试和测试时，我发现无法确定是哪些作业导致了哪些错误。日志通常只给我实例，但甚至没有对作业的id的提示。url只是通用的/mapreduce/worker_callback，所以也没有帮助。我觉得我漏掉了什么，或者真的没有办法确定哪个日志属于哪个MR管道，或者反过来-找到特定于某个MR管道的日志？

浏览 1提问于2013-05-16得票数 1

回答已采纳

8回答

无法初始化群集。请检查您的mapreduce.framework.name配置和相应的服务器地址-submiting job2remoteClustr。

、、

最近，我将集群从ApacheHadoop1.0升级到了CDH4.4.0。我在另一台机器上有一个weblogic服务器，通过mapreduce客户端将作业提交到这个远程集群。我仍然想使用MR1而不是Yarn。我已经在CDH安装(/usr/lib/hadoop/ client /*)中针对客户机jars编译了我的客户机代码。在创建JobClient实例时，将收到以下错误。有许多与相同问题相关的帖子，但所有解决方案都涉及将作业提交给本地集群的场景，而不是远程(在我的例子中是从wls容器)提交作业的场景。 JobClient jc = new JobClient(conf); Cannot init

浏览 7提问于2013-09-27得票数 10

回答已采纳

1回答

在sqoop导入过程中减少作业卡住

、、

在运行这个sqoop导入命令时 sqoop import --connect jdbc:mysql://localhost/training --username training --password training --table cityByCountry 论cloudera VM 4.1.1 mapreduce作业被打印在终端mapreduce.Job中的最后一行卡住:正在运行的作业: job_1450451392672_0001 15/12/17 10:41:55 INFO mapreduce.Job:用于跟踪作业的url： 15/12/17 10:41:55 INFO mapre

浏览 0提问于2015-12-18得票数 2

回答已采纳

2回答

Eclipse远程调试不能在伪分布式模式下使用hadoop

、、、、

在独立模式下运行hadoop时，Eclipse的远程调试没有问题。但是，当我在伪分布式模式下运行hadoop时，它不起作用。下面是我如何在伪分布式模式下尝试使用hadoop进行eclipse远程调试：我在hadoop脚本中添加一行代码，如下所示： #added this line to enable remote debugging HADOOP_OPTS="$HADOOP_OPTS -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5000" # run it exec "$JAVA"

浏览 3提问于2012-08-31得票数 1

回答已采纳

1回答

在弹性MapReduce中使用分布式缓存中的文件的问题

、、、

我正在尝试在AWS Elastic MapReduce作业中使用Python映射器脚本中的外部库。但是，我的脚本似乎无法在缓存中找到模块。我将文件归档到一个名为helper_classes.tar的压缩包中，并将该压缩包上传到亚马逊S3存储桶中。在控制台上创建MapReduce作业时，我将参数指定为： cacheArchive s3://folder1/folder2/helper_classes.tar#helper_classes 在我的Python映射器脚本的开头，我包含了以下代码来导入库： import sys sys.path.append('./helper_classe

浏览 3提问于2014-07-10得票数 0

3回答

在不使用Oozie的情况下定期运行MapReduce作业？

、、、

我有一个mapreduce作业作为'jar‘，这应该是每天运行。此外，我还需要从远程java应用程序运行此jar。我如何调度它:也就是说，我只想每天从我的远程java应用程序运行作业。我读过关于Oozie的文章，但我不认为它适合这里。

浏览 0提问于2014-01-08得票数 2

1回答

用户日志为空

、、

我有一个简单的mapreduce程序，只有一个作业，但是作业失败了。我想检查日志，但我的/hadoop/logs文件夹中的userlogs文件夹是空的。在使用 UI时，我发现每当我运行我的程序时，userlogs文件夹都会被修改，但它仍然是空的！为什么会发生这种情况？我无法进行任何调试，因为控制台中也没有显示任何内容。

浏览 17提问于2019-07-11得票数 0

2回答

如何在Lambda上的服务器上执行作业而不等待响应？

、、、、

我正在尝试使用AWS的mrjob库生成一个mapreduce作业。作业所需时间超过5分钟Lambda的时间限制，因此我想执行一个远程作业。使用paramiko包，我将ssh放到服务器上，运行nohup命令生成一个后台作业，但这仍然要等到作业结束。有和Lambda一起做的事吗？

浏览 7提问于2017-05-25得票数 0

回答已采纳

1回答

Apache sqoop错误

、、

我想用sqoop连接到RDBMS。我的RDBMS是Oracle。在最后的状态中，我遇到了以下错误： 16/04/24 06:11:13 INFO mapreduce.Job: map 0%减少100% 16/04/24 06:11:13 INFO mapreduce.Job:作业job_1461141375226_0002失败和状态失败原因是: 16/04/24 06:11:13信息mapreduce.ImportJobBase: MapReduce职务已经退休。性能16/04/24 06:11:13信息mapreduce.ImportJobBase:计数器不可用。为了得到这些信息，16/0

浏览 2提问于2016-04-24得票数 0

3回答

Aazon EC2纱线的纺纱

、、、

我正在尝试在亚马逊EC2中配置Yarn 2.2.0的whirr。然而，我遇到了一些问题。我已经修改了whirr服务以支持yarn 2.2.0。因此，我能够启动作业并成功地运行它们。然而，我在跟踪工作进展时遇到了n个问题。 mapreduce.Job (Job.java:monitorAndPrintJob(1317)) - Running job: job_1397996350238_0001 2014-04-20 21:57:24,544 INFO [main] mapred.ClientServiceDelegate (ClientServiceDelegate.java:getPro

浏览 2提问于2014-04-20得票数 1

1回答

Nutch REST弹性转向器中的未知问题

、

我试图使用REST端点公开nutch，并在indexer阶段遇到了一个问题。我使用elasticsearch索引编写器将文档索引到ES。我使用了$nutch_HOME/运行时/部署/bin/nutch startserver命令。当索引未知异常时，将引发。错误: com.google.common.util.concurrent.MoreExecutors.directExecutor()Ljava/util/concurrent/Executor；16/10/07 16:01:01:47 INFO mapreduce.Job: map 100%减少0% 16/10/07 16:01:49

浏览 8提问于2016-10-07得票数 3

回答已采纳

1回答

压缩对MapReduce作业有什么影响？

、

Microsoft的白皮书记录了以下内容：如果输入源文件非常大(例如，超过500 GB)，并且希望对相同的输入数据重复运行MapReduce作业，则压缩会有所帮助。因此，如果输入文件很大，我们应该使用压缩，因为它节省了磁盘I/O和网络带宽。但是，我无法理解“对相同的输入数据反复运行MapReduce作业”将如何帮助压缩和解压缩的性能？即使每次数据不同，压缩也应该具有相同的性能。

浏览 3提问于2016-06-05得票数 0

回答已采纳

2回答

在eclipse中调试hadoop 2.2.0时找不到hadoop-mapreduce-client-core-2.2.0.jar的源代码

、、

我正在尝试用eclispe调试我的mapreduce程序。我将export HADOOP_OPTS="-agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=5002"放在hadoop-env.sh中，并在本地主机的5002端口上配置了eclipse以进行远程调试。它在main中开始调试很好，但是当涉及到job.waitForCompletion(true);时，它在一个新文件JobSubmitter.class中失败，该文件说： Source not found The JAR file /home/hdu

浏览 4提问于2013-12-25得票数 0

回答已采纳

1回答

pig是新手，我如何知道pig脚本运行的基础mapreduce作业是什么？如何调试pig脚本的结果输出？

、

pig是新手，我如何知道pig脚本运行的基础mapreduce作业是什么？如何调试跟踪pig脚本的结果输出？

浏览 0提问于2018-01-02得票数 0

2回答

Accumulo和MapReduce:找不到指定范围的存储箱

、

我正在编写一个MapReduce作业，它从Accumulo获取输入。我正在使用带有RegExFilter的AccumuloInputFormat。当我运行该作业时，它连接到Accumulo时没有任何问题，但在建立连接后，我看到以下警告： WARN mapreduce.InputFormatBase: Unable to locate bins for specified ranges. Retrying. 我不认为Accumulo有任何问题，因为我可以从shell扫描我感兴趣的表。我遗漏了什么？

浏览 3提问于2014-01-11得票数 1

2回答

使用"where“子句不运行Map Reduce

、、

我正在HDFS的Hive中尝试一些简单的东西。问题是，当我运行"where子句“时，查询没有运行map还原。但是，它为count(*)甚至group by子句运行map reduce。下面是带有结果的数据和查询：创建外部表：创建外部表testtab1 ( id STRING，org STRING)行格式分隔字段，以'，‘作为文本文件位置存储/usr/ankuchak/testtable1 1’；简单选择*查询： 0: jdbc:hive2 2://>从testtab1选择*； 15/07/01 07:32:46 main: ERROR hdfs.KeyProvide

浏览 3提问于2015-07-01得票数 0

回答已采纳

1回答

Hadoop 2.6.0 HDFS输出文件夹

、、、、

Im new to Hadoop. I setting up a hadoop-cluster with 1 Master and 3 Slaves. Everything is working fine so far. If I start a MapReduce Job the output folder isnt set like do命令说 hadoop jar TestApp.jar /hdfs/input /hdfs/output 但是在/hdfs/中没有输出目录，它在/user/hduser/hdfs/output中，我无法获得作业的结果。有人能解释一下吗？曼纽尔

浏览 0提问于2015-04-24得票数 1

2回答

HDFS:使用HDFS追加到SequenceFile

、

我一直试图使用Java在HDFS上创建和维护序列文件，而不运行MapReduce作业作为未来MapReduce作业的设置。我希望将MapReduce作业的所有输入数据存储在一个序列文件中，但是这些数据会在一天中随时间增加。问题是，如果存在SequenceFile，下面的调用将只是覆盖SequenceFile，而不是附加到它。 // fs and conf are set up for HDFS, not as a LocalFileSystem seqWriter = SequenceFile.createWriter(fs, conf, new Path(hdfsPath),

浏览 2提问于2011-04-08得票数 4

2回答

hadoop公平调度器和容量调度器均未按预期进行调度

、、、、

我使用CDH5.1.0 (hadoop 2.3.0)。2个名称节点(2个32 3x，2个核心)和3个数据节点(3个16 3x，2个核心) 我在默认队列中调度来自单个用户的mapreduce作业(没有其他用户，也没有配置其他队列)。使用capacity scheduler时，会发生以下情况:我可以提交多个作业，但只有2个作业在并行执行(状态为“running”)。当使用公平调度程序时，会发生以下情况:我正在提交多个作业，并且集群/调度程序将4个作业设置为“运行”状态。这些工作将永远保持5%的进度。如果单个作业被终止，则新作业将在5%上被设置为“正在运行”状态，并且没有进一步的进展。只有在少于

浏览 0提问于2014-07-28得票数 0

1回答

我能在Rhadoop的mapreduce作业中使用readLines吗？

、

我试图从HDFS读取文本或gz文件并运行一个简单的mapreduce作业(实际上只是地图作业)，但得到了错误，似乎readLines部分无法工作。我正在寻找是否可以在mapreduce中使用readLines函数的答案。ps。如果我只是使用readLines函数在mapreduce任务之外解析HDFS文件，这是没有问题的。谢谢。 counts <- function(path){ ct.map <- function(., lines) { line <- readLines(lines) word <- unlist(s

浏览 6提问于2015-07-17得票数 2

2回答

如何从eclipse调试用mrjob编写的python MapReduce程序

、、、

我正在尝试在Ubuntu下使用eclipse调试在python的mrjob库中编写的mapreduce作业。有谁知道如何做到这一点吗？

浏览 1提问于2012-12-11得票数 3

回答已采纳

1回答

火花纱模式如何从提交中获取applicationId

、、、

当我提交星火作业时，我使用星火-提交与主纱和部署模式集群，它不打印/返回任何applicationId，一旦作业完成，我必须手动检查MapReduce jobHistory或火花HistoryServer，以获得工作细节。我的集群被许多用户使用，需要很多时间才能发现我在职务历史/历史服务器中的工作。有任何方法来配置spark-submit以返回applicationId吗？注意:我发现了许多类似的问题，但是它们的解决方案使用sparkcontext.applicationId在驱动程序代码中检索sparkcontext.applicationId，如果是master yarn and d

浏览 7提问于2017-05-26得票数 4

回答已采纳

2回答

如何从hadoop的临时文件中获取数据？

、

我有一个使用map reduce将数据从远程系统传输到HDFS的应用程序。然而，当我不得不处理诸如网络故障之类的问题时，我会迷失方向。也就是说，当来自远程数据源连接丢失且我的mapreduce应用程序不能再访问数据时。我总是可以重新启动作业，但是当数据很大时，重新启动是一个昂贵的选择。我知道mapreduce会创建临时文件夹，但它会把数据放在那里吗？我可以读出这些数据，然后我可以以某种方式开始读取其余的数据吗？

浏览 0提问于2012-12-13得票数 1

回答已采纳

1回答

如何在终端上调试MapReduce任务？

、、

是否有一种简单的方法可以使用终端来模拟MapReduce作业？我想知道是否有一种在编写代码时调试代码的简单方法。

浏览 0提问于2015-03-27得票数 2

回答已采纳

1回答

UserGroupInformation:没有可供用户使用的组

、、

我尝试在mapreduce中提交远程作业，但得到错误1。我甚至在远程hadoop中的hdfs-site.xml中设置了内容2，并更改了权限3，但问题仍然存在。客户端为xeon，超级用户为xubuntu。如何添加远程用户权限以在mapreduce中提交？我如何为至强设置一个组？ 1 2015-04-23 05:57:35,648 WARN org.apache.hadoop.security.UserGroupInformation: No groups available for user xeon 2 <property> <name>dfs.web.ug

浏览 3提问于2015-04-23得票数 3

2回答

Hadoop将本地示例复制到HDFS

、

我是Hadoop的新手，我正在学习一些基本的教程来学习它。下面的教程之一希望我用Python编写一个Hadoop MapReduce作业，我已经成功地完成了所有工作，以下是总结的步骤：编写mapper.py和reducer.py脚本将本地示例数据复制到hdfs 运行MapReduce作业我的问题是:如果我必须频繁地修改数据，然后运行MapReduce作业，该怎么办？我是否每次都要在hdfs上加载修改过的数据，还是有一种直接在hdfs上修改的方法？谢谢

浏览 4提问于2014-05-02得票数 0

3回答

Pig本地模式与mapreduce模式的性能比较

、、

我已经使用Cloudera管理器CDH4设置了一个3节点的Hadoop集群。当在mapreduce模式下运行Pig作业时，对于相同的数据集，它花费的时间是本地模式的两倍。这是一种预期的行为吗？还有关于mapreduce作业的性能调优选项的文档吗？非常感谢你的帮助！

浏览 2提问于2014-05-13得票数 1

6回答

集成测试配置单元作业

、、、、

我正在尝试使用Hive Thrift和JDBC接口编写一个重要的Hive作业，但我在设置一个像样的JUnit测试时遇到了麻烦。我所说的非平凡，是指作业至少会在一个MapReduce阶段产生结果，而不是只处理转储。测试应该启动一个Hive服务器，将一些数据加载到一个表中，在该表上运行一些重要的查询，并检查结果。我已经根据连接了一个Spring上下文。但是，该作业在MapReduce阶段失败，并抱怨不存在hadoop二进制文件： java.io.IOException:无法运行程序"/usr/bin/hadoop“(在目录"/Users/yoni/opower/workspa

浏览 61提问于2013-05-24得票数 72

回答已采纳

1回答

如何从Oozie工作流向Hadoop ToolRunner (或任何MapReduce操作)传递参数

、、

在命令行中，参数可以按如下方式传递给ToolRunner： hadoop jar myJar.jar com.Main -Dprop1=prop1value -Dprop2=prop2value 我想从Oozie调用我的MapReduce作业作为MapReduce操作的一部分。我尝试在工作流中定义属性如下： <property> <name>param1</name> <value>Hello World</value> </property> 编辑--这是我试图从作业中读取参数的方式： Job jo

浏览 11提问于2013-08-23得票数 1

回答已采纳

3回答

使用mapred和mapreduce包来创建Hadoop Job哪个更好？

、

要创建MapReduce作业，您可以使用旧的org.apache.hadoop.mapred包或用于Mapper和Reducer的较新的org.apache.hadoop.mapreduce包，作业...第一个被标记为已弃用，但同时这个被恢复了。现在我想知道是使用旧的mapred包还是使用新的mapreduce包来创建作业更好，以及为什么。或者它仅仅取决于您是否需要像MultipleTextOutputFormat这样的东西，而这些东西只在旧的mapred包中可用？

浏览 0提问于2011-09-29得票数 46

回答已采纳

2回答

配置单元:为什么配置单元在表名的select列上生成mapreduce作业，而不是为select * from tablename生成mapreduce？

为什么Hive在表名的select列上生成mapreduce作业，而不是为select * from tablename生成mapreduce？

浏览 1提问于2014-09-24得票数 0

2回答

纱线找不到或装载主类org.apache.hadoop.mapreduce.v2.app.MRAppMaster

、、、

我的查询:我已经在ubantu上安装了hive。我测试了它之前的工作文件，但后来它开始出现错误。插入test2值(1，'Mahendra')；我的蜂巢错误：查询ID = mahendra_20180827145546_86973630-5eff-4764-ade8-cfc3a8ce5c37 就业总数=3 推出3项工作中的1项在编译时确定的减少任务数:1 为了改变减速器的平均负载(以字节为单位)：设置hive.exec.reducers.bytes.per.reducer= 为了限制减速器的最大数量:设置hive.exec.reducers.max=以设置一定

浏览 0提问于2018-08-27得票数 0

1回答

执行错误，从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码%2

、、、

reduce任务的数量设置为0，因为没有reduce运算符运行在进程中的作业(本地Hadoop) 2017-03-23 12:19:17,371阶段-1 map = 0%，reduce = 0% 已结束作业=作业过程中出现错误的job_local1571094051_0001，正在获取调试信息...失败:执行错误，从启动的org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce作业返回代码2：阶段-阶段1: HDFS读取: 16384 HDFS写入: 10596失败

浏览 0提问于2017-03-23得票数 0

1回答

将hadoop集群升级到clodera4 b1后，出现无效的"mapreduce.jobtracker.address“配置错误

、

我最近升级到了clodera4b1 .Before upgraded作业运行得很好，但现在当我执行任何mapreduce程序时，出现以下错误：命令运行： hadoop jar /usr/lib/hadoop/hadoop-mapreduce-examples-0.23.0-cdh4b1.jar grep *.xml /user/out/ 'dfs' 12/04/10 19:23:15 INFO mapreduce.Cluster: Failed to use org.apache.hadoop.mapred.LocalClientProtocolProvider due

浏览 1提问于2012-04-11得票数 3

回答已采纳

2回答

调试器无法连接到远程计算机，但应用程序运行在同一台计算机上

、

我正在尝试调试应用程序，但每次调试时都会报告无法启动调试，因为调试器无法连接到远程计算机。唯一需要调试的是它正在调试的应用程序是一个控制台应用程序，不需要访问远程PC。

浏览 0提问于2017-12-08得票数 1

2回答

在哪些工作负载上使用MapReduce比SQL更有意义，反之亦然？

、、

似乎所有用SQL表达的查询都可以转换为MapReduce作业。这本质上就是Spark SQL所做的。SparkSQL接收SQL，将其转换为MapReduce作业，然后在Spark的运行时执行MapReduce作业。所有可以用SQL回答的问题都可以用MapReduce作业来回答。是否所有的MapReduce作业也可以写成SQL (可能有自定义的用户定义函数)？什么时候使用MapReduce比SQL更有意义，反之亦然？

浏览 28提问于2021-03-21得票数 2

2回答

如何使用CDH4和Yarn查看我的Hadoop作业历史记录和日志？

、、、

我用Yarn下载了Hadoop的CDH4 tar，作业运行良好，但我不知道从哪里查看作业的日志。在MRv1中，我只去了JobTracker的web应用程序，它有工作历史。各个作业的日志也可以从这里访问，或者通过转到logs /userlog目录。在我新的Yarn安装程序中(只在单台计算机上运行)，我有日志目录，但没有logs /userlog文件夹。当我转到ResourceManager网页localhost:8088时，有一个“所有应用程序”部分，但是这里没有显示条目。当我转到JobHistory网页localhost:19888时，没有列出任何作业。我想知道是否存在配置问题。以下是我

浏览 6提问于2012-12-01得票数 4

2回答

MongoDB:没有并行性使用MapReduce有什么意义？

、、

引用到目前为止，单单神进程上的MapReduce作业是单线程的。这是由于目前的JavaScript引擎的设计限制。我们正在研究解决此问题的替代方案，但目前，如果您希望并行化您的MapReduce作业，则需要在代码中使用分片或进行聚合客户端。如果没有并行性，与更简单或更传统的查询和数据聚合方法相比，MapReduce有什么好处？为了避免混淆:问题不是“面向文档的数据库比传统的关系数据库有什么好处”。

浏览 0提问于2010-05-08得票数 13

回答已采纳

1回答

是否可以配置运行mapreduce v1框架的Hadoop2.6.0？(经典)

、、、、

我知道Hadoop2.6集群可以配置为运行“纱线”或“本地”，其中“纱线”是mapreduce v2，“local”只是本地模式。我从这个线程()中了解到，它也可以配置为在“经典”框架中运行，即mapreduce v1。但是，如果我简单地将“mapreduce.framework.name”从“纱线”(或“本地”)更改为“经典”，则无法运行任何作业。那么，有可能做到这一点吗？我如何配置它？我的另一个想法是，我正在使用ApacheHadoop2.6发行版，这是否与mapreduce v1框架一起提供？如果没有，我就不能将集群配置为运行v1框架。注意，我的问题不是在Hadoop2.6.0上运行

浏览 0提问于2015-04-23得票数 0

3回答

亚马逊弹性MapReduce:输出目录

、、、

我正在运行亚马逊运行弹性MapReduce的示例，并经常遇到以下错误：启动作业时出错，输出路径已经存在。下面是运行我正在使用的作业的命令： C:\ruby\elastic-mapreduce-cli>ruby elastic-mapreduce --create --stream \ --mapper s3://elasticmapreduce/samples/wordcount/wordSplitter.py \ --input s3://elasticmapreduce/samples/wordcount/input \ --outpu

浏览 11提问于2012-07-29得票数 2

回答已采纳

1回答

当纱线报告Oozie启动器和mapreduce作业已经成功完成时，oozie为什么会用错误代码LimitExceededException失败？

、、、、

在这一点上有一些类似的问题。然而，对我来说，一切都没有用。所以我现在发布这个问题。我正在使用CDH 6.2.1 我有一个工作流，它有地图还原操作。map-还原作业创建了许多计数器(我认为m/r作业产生~300个计数器)。我已经将cdh/ set /config mapreduce.job.counters.max属性设置为8192。我亦已订定： YARN Service Advanced Configuration Snippet (Safety Valve) for yarn-site.xml YARN Service MapReduce Advanced Configurat

浏览 4提问于2020-07-14得票数 0

1回答

Nutch地图减少67%的工作卡住

、、

我使用Nutch 1.17在我的本地机器上用Solr抓取网站和索引数据。最初，我已经设置了参数，因为topN=2、depth=2和爬行是成功的。然后，我将参数更改为topN=3、depth=3，但map-reduce中的减少过程停留在67%。这一切都是运行在4GB内存。然后，我尝试将RAM设置为8GB，但同样的问题仍然存在。有什么问题吗？我怎样才能进一步分类？请协助。以下是日志： 2021-04-30 17:58:58:58:432 INFO mapreduce.Job -跟踪作业的网址： 2021-04-30 17:58:58:58 432 INFO mapreduce.Job -运行

浏览 2提问于2021-05-02得票数 0

1回答

当两个作业访问相同的数据时，Mapreduce java.lang.reflect.InvocationTargetException

、、、

Hadoop在读取大量小文件时工作得很好，但是我注意到，除了下面的例外，有时作业会失败， org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.initNextRecordReader(CombineFileRecordReader.java:164)，org.apache.hadoop.mapreduce.lib.input.CombineFileRecordReader.nextKeyValue(CombineFileRecordReader.java:67)，org.apache.hadoop.mapred.MapT

浏览 9提问于2014-11-25得票数 2

1回答

无法启动mapreduce作业

、

当我提交map-reduce作业时，我得到了以下信息，并且mapreduce作业没有启动。 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 如何修复这个问题，提前谢谢。

浏览 0提问于2018-05-29得票数 0

1回答

开机自检后任务查询失败，并显示"task1 failed to execute“

、、

我们尝试在Google Appengine上运行Mapreduce作业时遇到问题。我们正在运行一个没有Traceback或调试信息的无限错误循环。 INFO 2014-02-08 20:12:38,877 module.py:612] default: "POST /mapreduce/pipeline/run HTTP/1.1" 404 52 WARNING 2014-02-08 20:12:38,877 taskqueue_stub.py:1980] Task task1 failed to execute. This task will retry in 0.1

浏览 2提问于2014-02-09得票数 1