为什么我的Hadoop MapReduce在集群上添加节点也运行不快？_为什么即使我的代码在我的python空闲上运行得很好，我也会在HackerRank中得到一个EOF错误？_为什么在我新初始化的Corda节点上运行第一个流需要这么长时间？ - 腾讯云开发者社区

、、、、

我正在按照教程设置多节点集群并运行示例MapReduce程序。我正在设置Hadoop版本2.2.0。在Hadoop2.2.0中没有控制的目录。我使用当前目录中的find命令搜索jars。搜索结果是我的问题是如何在Hadoop多节点集群环境下运行mapreduce程序?

浏览 3提问于2014-02-15得票数 0

1回答

在非集群计算机上编译Hadoop MapReduce并在Hadoop集群上运行。

、、、、

我已经阅读了很多关于Hadoop的文档和信息，但是我不知道如何实现这个简单的工作流：我想在我的工作机器上用Hadoop开发和编译 Hadoop MapReduce，包括所有已安装的IDE等等。我希望以最简单的方式将部署并在Hadoop集群上运行MapReduce作业(更好地使用IDE) 我希望能够将这些MapReduce作业集成到外部应用程序中，并能够透明地运行它们。看起来，所有的开发/编译/运行都应该在存在bin/hadoop命令行实用程序和Hadoop库的MasterNode上完成。我说的对吗？开发、运行和部署MapReduce应用程序的一般方法是什么？是否有某

浏览 4提问于2016-01-04得票数 0

回答已采纳

5回答

是否有必要在Hadoop DataNode上执行任务？

、、、、

这就是Hadoop的工作方式吗？客户端将MapReducer作业/程序提交给NameNode。 JobTracker (驻留在NameNode上)将任务分配给在单个工作机器(日期节点)上运行的从任务跟踪器。每个任务跟踪器负责执行和管理由作业跟踪器分配的单个任务根据上述方案，MapReducer程序将在从节点上运行。这是否意味着作业将消耗从计算引擎或处理能力？如果我想使用另一台机器(独立于Hadoop安装系统)来执行MapReduce作业并使用Hadoop集群数据，该怎么办？我为什么要使用Hadoop集群？Hadoop以非常有效的方式将大型数据分发给他们的DataN

浏览 3提问于2014-07-27得票数 2

回答已采纳

2回答

判断hadoop集群中的从节点是否分配了任务

、

我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群，其中有一台主机和32台从机。然而，当我开始运行一个示例程序时，它似乎只是运行得很慢。如何确定map/reduce任务是否真的被分配到从节点执行？示例程序的执行方式如下： hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar pi 32 100

浏览 0提问于2016-03-14得票数 1

1回答

Hadoop :单节点与集群性能

、、

我在具有3个节点(1个主节点和2个从节点)的Hadoop集群上按顺序运行三个MapReduce作业(其中一个是对另一个的输入)。显然，单个作业在单个节点集群上完成所需的总时间比上面少了很多。可能的原因是什么？是网络延迟吗？它在100以太网上运行。如果我增加节点的数量，会有帮助吗？我使用Hadoop流，我的代码在python2.7中。

浏览 0提问于2013-12-28得票数 0

回答已采纳

1回答

用于并行非MapReduce算法的Hadoop集群

、、

Apache Hadoop的灵感来自于谷歌的MapReduce论文。MapReduce的流程可以看作是两组SIMD(单指令多数据流)，一组用于映射器，另一组用于减法器。Reducer通过预定义的"key“使用Mappers的输出。MapReduce框架(和Hadoop)的本质是自动划分数据，确定分区和并行作业的数量，以及管理分布式资源。我有一个并行运行的通用算法(不一定是MapReducable)。我没有实现算法本身的MapReduce-way。相反，该算法只是一个单机python/java程序。我想并行运行这个程序的64个副本(假设程序中没有并发问题)。也就是说，我对Hadoop集

浏览 0提问于2013-04-10得票数 0

2回答

Hadoop如何决定有多少节点将执行Map并减少任务？

、、

我对hadoop并不熟悉，我正在努力理解它。我说的是hadoop 2。当我想要做一个MapReduce的输入文件时，在MapReduce程序中，我会说拆分的参数，所以它会产生和拆分一样多的映射任务，对吗？资源管理器知道文件在哪里，并将任务发送给拥有数据的节点，但是谁说有多少节点将执行这些任务？在映射完成之后，就有了洗牌，哪个节点将执行一个约简任务，由执行散列映射的分区程序决定，对吗？有多少节点可以减少任务？完成映射的节点是否也会减少任务？谢谢。 TLDR: --如果我有一个集群，并且运行一个MapReduce作业，那么Hadoop如何决定有多少节点将执行映射任务，然后哪些节点将执行MapR

浏览 6提问于2015-10-22得票数 1

回答已采纳

3回答

在fetcher中混洗时出现Hadoop错误:超出MAX_FAILED_UNIQUE_FETCHES

、

我是hadoop的新手。我在一个虚拟机器上设置了一个启用了kerberos安全性的hadoop集群(主集群和一个从集群)。我正在尝试运行hadoop示例'pi‘中的作业。作业终止，出现错误Exceeded MAX_FAILED_UNIQUE_FETCHES。我试着搜索这个错误，但互联网上给出的解决方案似乎对我不起作用。也许我遗漏了一些明显的东西。我甚至尝试从etc/hadoop/slaves文件中删除从服务器，以查看作业是否只能在主服务器上运行，但也失败了，并显示了相同的错误。下面是日志。我在64位的Ubuntu 14.04虚拟机器上运行这个程序。感谢您的帮助。 montauk@mo

浏览 1提问于2014-06-06得票数 5

3回答

从节点不在Yarn ResourceManager中

、、、

我已经设置了一个3节点的Apache Hadoop集群。在主节点上，我可以看到 [hadoop-conf]$ jps 16856 DataNode 17051 SecondaryNameNode 16701 NameNode 21601 ResourceManager 21742 NodeManager 18335 JobHistoryServer 在从节点上，我看到 [fedora20-template dfs]$ jps 28677 Jps 28510 NodeManager 27449 DataNode 我可以看到来自master:50070的三个活动节点。但是，在ResourceMan

浏览 1提问于2015-09-23得票数 7

回答已采纳

1回答

在Hadoop 2+纱线中，并行映射器和减速机是如何计算的？

、、

我已经搜索了一段时间，发现使用MapReduce + that的hadoop2集群具有以下多个并发映射并减少了每个节点：并发映射#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.map.memory.mb并发减少#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.reduce.memory.mb 但是，我已经设置了一个具有10台机器的集群，具有以下配置： 'yarn_site' => { 'yarn.nodemanager.resource.cpu-vcores'

浏览 3提问于2014-06-25得票数 2

1回答

有1个datanode正在运行，此操作中排除了1个节点

、

我已经在windows中配置了hadoop-2.7.2的伪节点集群。我已经通过将hadoop包复制到另一台机器上创建了一个客户端。我可以列出，创建，删除目录从客户端。但是当我使用下面的命令运行示例时 hadoop jar %HADOOP_HOME%\share\hadoop\mapreduce\hadoop-mapreduce-examples-2.7.2.jar wordcount /names /names1 如下所示获取异常 org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/hadoop-yarn

浏览 0提问于2016-02-17得票数 0

1回答

如何将初始输入文件分发到Hadoop MapReduce中的节点？

、、、

我有一个hadoop集群，其中有两台计算机，一台是主计算机，另一台是从计算机。我的输入数据存在于Master的本地磁盘上，我还复制了HDFS系统中的输入数据文件。现在我的问题是，如果我在这个集群上运行MapReduce任务，那么整个输入文件只存在于一个系统上，我认为这与MapReduce的“数据局部性”的基本原则相反。我想知道是否有任何机制来分发/分区初始文件，以便可以在集群的不同节点上分发输入文件。

浏览 0提问于2013-06-29得票数 0

1回答

可以在同一个节点上运行Hive和Pig吗？

、、、

我是Hadoop的新手，但我一直试图为一个大学项目创建一个单节点集群。我的目标是在相同的数据中执行mapreduce任务，但是在使用不同的基于Hadoop的软件时，它们是Hive和Pig。那么，我想知道是否可以在同一个节点上安装和运行Hive和Pig？那么，在同一个集群中，替代它的节点超过10个。

浏览 1提问于2014-06-10得票数 0

回答已采纳

2回答

json在CDH Hadoop中的最佳位置，用于Hive/Hue/MapReduce

、、、

我使用Hive/Hue/MapReduce和一个json 。为此，我将json_serde.jar复制到每个集群节点上的多个库目录中： /opt/cloudera/parcels/CDH/lib/hive/lib /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib /opt/cloudera/parcels/CDH/lib/hadoop/lib /opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/lib ..。在集群的每个CDH更新上，我必须再次这样做。是否有一种

浏览 1提问于2013-10-02得票数 4

9回答

MapReduce作业挂起，等待分配AM容器

、、

我试着运行简单的字数统计作为MapReduce作业。在本地运行时一切正常(所有工作都在Name Node上完成)。但是，当我尝试使用YARN在集群上运行它(将mapreduce.framework.name=yarn添加到mapred-site.conf中)时，作业挂起。我在这里遇到了一个类似的问题：作业的输出： *** START *** 15/12/25 17:52:50 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 15/12/25 17:52:51 WARN mapreduce.JobReso

浏览 8提问于2015-12-26得票数 21

1回答

在单个节点集群上运行Hadoop时，HDFS是如何工作的？

、、

关于数据局部性以及MapReduce和HDFS是如何在多节点集群上工作的，有很多内容。但是我找不到很多关于单个节点设置的信息。在我试验Hadoop的过去三个月里，我总是阅读关于映射器和还原器数量的教程和线程，并编写自定义分配器来优化作业，但我总是认为，它是否适用于单个节点集群？与多节点集群相比，在单个节点集群上运行MapReduce作业的损失是什么？在这种情况下，通过拆分输入数据提供的并行性仍然适用吗？从单个节点HDFS读取输入和从本地文件系统读取输入有什么区别？我认为，由于我的小经验，我不能清楚地回答这些问题，所以任何帮助都是非常感谢的！提前感谢！编辑:我知道Hadoop不适合于

浏览 0提问于2013-11-14得票数 5

回答已采纳

2回答

Hadoop减少作业:未找到类org.apache.hive.hcatalog.mapreduce.HCatInputFormat

、、

我在用。它是一个数据仓库工具，它使用hadoop、hive和hbase。它随样本数据一起提供，以便我们可以测试系统。我在做这个样本。这是一个多步骤的过程，许多步骤都是映射减少作业。第二步是Extract Fact Table Distinct Columns，这是一个job先生。如果没有在hadoop日志中编写任何东西，这项工作就会失败。在深入挖掘之后，我发现了logs/userlogs/application_1450941430146_0002/container_1450941430146_0002_01_000004/syslog中的一个例外 2015-12-24 07:31:03,0

浏览 2提问于2015-12-24得票数 0

回答已采纳

2回答

EC2上的Hadoop :增加从站数时没有性能增益

、、

我在Amazon m1上测试MapReduce单词计数示例。我遵循的是EC2命令行入门指南。 bin/ec2hadoop启动-集群测试2 使用这个命令，我有两个从节点。(总共有3个实例在运行)，然后我可以登录到主节点来运行hadoop程序(这是一个绑定到jar文件中的程序)，花费了35分钟。对于可伸缩性实验，我使用4个实例运行相同的程序。 bin/ec2hadoop启动-集群测试4 令我惊讶的是，我没有看到任何成绩的提高。MapReduce应用程序花费的时间几乎相同(33分钟) 问题在哪里？这行为是否可以接受？ In mapred-site.xml mapred.tasktracker.ma

浏览 1提问于2013-03-02得票数 1

回答已采纳

1回答

纱线MapReduce近似-pi示例在以非hadoop用户身份运行时失败退出代码1。

、、

我使用Hadoop2.6.2和small运行一个小型的linux机器私有集群。我从linux边缘节点启动纱线作业。当hadoop (超级用户，集群的所有者)用户运行时，近似pi值的屏蔽Yarn示例可以很好地工作，但是当从边缘节点上的我的个人帐户运行时会失败。在这两种情况下(hadoop，me)，我的工作都是这样运行的： clott@edge: /home/hadoop/hadoop-2.6.2/bin/yarn jar /home/hadoop/hadoop-2.6.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.2.jar pi

浏览 1提问于2015-12-22得票数 1

1回答

Hadoop调用了错误的API

、

我打算使用org.apache.hadoop.mapreduce API在Hadoop2.3.0中执行一个简单的map reduce函数，但是当我尝试运行它时，我得到了以下错误 org.apache.hadoop.mapreduce.lib.input.FileSplit cannot be cast to org.apache.hadoop.mapred.InputSplit. 由于我在mapreduce函数中调用的内容如下所示 import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apa

浏览 0提问于2014-03-31得票数 0

1回答

我可以使用hadoop运行多个web服务器吗？

我不确定hadoop能做什么和不能做什么，也不知道事情有多容易。据我所知，hadoop擅长做mapreduce工作并提供hdfs，这是他们的分布式文件系统。 hadoop还擅长/容易使用什么？我的问题是:我想提供数据，mapreduce的结果。由于我有很多流量，我需要3个前端服务器。Hadoop能帮助我在3个n个运行节点上部署服务器吗？基本上，我希望在3台机器上运行一个自定义可执行文件(我的服务器)，而不是在n台机器上运行mapreduce。当一台机器发生故障时，hadoop负责在另一台可用机器上启动作业。我应该在hadoop集群上运行这个程序吗？或者，hadoop集群应该只用于map

浏览 3提问于2014-04-01得票数 0

2回答

Wordcount程序卡在hadoop-2.3.0中

、

我安装了hadoop-2.3.0并尝试运行wordcount示例，但它启动了作业并处于空闲状态。 hadoop@ubuntu:~$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0.jar wordcount /myprg outputfile1 14/04/30 13:20:40 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 14/04/30 13:20:5

浏览 4提问于2014-04-30得票数 14

回答已采纳

1回答

Hadoop Jar FileSystemNotFoundException

、、、、

我正在运行hadoop集群，并试图使用发送到集群的jar文件运行mapreduce作业。问题是，在某些节点上，它成功了，而其他节点则失败了。我在某些节点上看到的错误是： Exception in thread "main" java.nio.file.FileSystemNotFoundException at com.sun.nio.zipfs.ZipFileSystemProvider.getFileSystem(ZipFileSystemProvider.java:183) at com.sun.nio.zipfs.ZipFileSyste

浏览 2提问于2020-12-19得票数 0

回答已采纳

4回答

YarnException:未经授权请求启动容器

、、、、

我已经在3个集群上设置了hadoop2.2.0。一切都很顺利。在每个集群中启动NodeManager和Datanode。但是，当我运行wordcount示例时，发生了100%的映射，并给出了以下异常： map 100% reduce 0% 13/11/28 09:57:15 INFO mapreduce.Job: Task Id : attempt_1385611768688_0001_r_000000_0, Status : FAILED Container launch failed for container_1385611768688_0001_01_000003 : org.apac

浏览 0提问于2013-11-28得票数 8

1回答

MapReduce作业被卡在多节点Hadoop-2.7.1集群上

、、、

我已经成功地在多节点集群(1个namenode和4个datanodes)上运行Hadoop2.7.1。但是，当我运行MapReduce作业(来自Hadoop网站的WordCount示例)时，它总是停留在这里。 [~@~ hadoop-2.7.1]$ bin/hadoop jar WordCount.jar WordCount /user/inputdata/ /user/outputdata 15/09/30 17:54:56 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform..

浏览 5提问于2015-09-30得票数 1

1回答

如何管理Hadoop集群

我已经运行了4个节点hadoop集群，并且我询问了任何远程管理该集群的方法。例如从我的膝上型计算机管理群集执行MapReduce任务禁用或启用数据节点有办法远程这么做吗？

浏览 0提问于2013-01-06得票数 0

回答已采纳

1回答

从不是Hadoop集群中的机器上运行spark提交

、、

我正在尝试为我们的分析人员建立一个Spark客户端发行版，他们可以从桌面上使用。为了实现这一点，我在我现有的Hadoop客户端发行版中添加了一个“预置使用用户提供的Apache”版本的Spark。我在Windows (客户端部署在C:\HadoopClient中)和Linux (客户端部署在~中)上都尝试过这一点。我正在尝试启动最基本的spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster Spark/examples/jars/spark-examples_2.1

浏览 16提问于2022-11-30得票数 1

1回答

在AWS EMR中作为avro导入时Sqoop失败

、、

我正在尝试在Amazon EMR(Hadoop2.8.5sqoop 1.4.7)中执行sqoop import。当未指定avro选项(--as-avrodatafile)时，导入会进行得很好。但是一旦设置好，作业就会失败，因为 19/10/29 21:31:35 INFO mapreduce.Job: Task Id : attempt_1572305702067_0017_m_000000_1, Status : FAILED Error: org.apache.avro.reflect.ReflectData.addLogicalTypeConversion(Lorg/apache/avr

浏览 27提问于2019-10-30得票数 0

3回答

诺德曼人处于不健康状态

我正在windows中的hadoop-2.6.0单节点集群上工作。当我提交任何mapreduce作业时，它总是处于可接受的状态。看来我的新手处于不健康的状态。如何使它健康？为什么那些不健康的人？或者什么时候才能恢复健康？

浏览 4提问于2015-03-11得票数 3

回答已采纳

4回答

Hadoop/MR临时目录

、

我一直在努力让Hadoop和Map/Reduce开始使用单独的临时目录，而不是根目录上的/tmp。我在core-site.xml配置文件中添加了以下内容： <property> <name>hadoop.tmp.dir</name> <value>/data/tmp</value> </property> 我已经将以下内容添加到我的mapreduce-site.xml配置文件中： <property> <name>mapreduce.cluster.local.dir<

浏览 0提问于2013-12-18得票数 0

2回答

运行时请求不充分的身份验证作用域

、、

我试图在google dataproc集群上运行星星之火作业，如 gcloud dataproc jobs submit hadoop --cluster <cluster-name> \ --jar file:///usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jar \ --class org.apache.hadoop.examples.WordCount \ --arg1 \ --arg2 \ 但是“工作”抛出错误 (gcloud.dataproc.jobs.submit.spark) PERMISSION_DEN

浏览 6提问于2017-04-12得票数 9

回答已采纳

2回答

Hadoop MapReduce appcache目录

、

我在一个单节点Hadoop集群上运行一个MapReduce作业，但是我的磁盘驱动器被MapReduce目录中的attempt_*_spill_*.out文件完全填满了。所以我的问题是:在这个文件夹中存储了什么，我能做些什么来限制它的大小？谢谢!

浏览 4提问于2014-03-31得票数 1

回答已采纳

2回答

提供带有自定义文件的EMR节点

、、、

我试图在AWS EMR集群上运行带有Apache依赖项的jar。问题是，Nutch找不到插件类(我在用-Dplugin.folders指定插件位置)。我在本地测试了这个选项，它运行良好：java -cp app.jar -Dplugin.folders=./nutch-plugins。我得到了一个错误： 19/07/24 15:42:26 INFO mapreduce.Job: Task Id : attempt_1563980669003_0005_m_000000_2, Status : FAILED Error: java.lang.RuntimeException: x point

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

通过'1 Click Installer‘更新Community Edition中的单个CDH组件

、

有没有人可以告诉我，是否可以通过Community Edition的"1 Click Installer“将单个CDH组件从5.7更新到5.13？例如，假设我只想将服务器中的hadoop-hdfs-datanode更新为最新版本。如果我执行sudo apt-get install hadoop-hdfs-datanode，它将更新也在该节点上运行的其他CDH组件(如resource-manager、node-manager等)。正如我所讨论的那样，如果我尝试升级hadoop-yarn-resourcemanager，它将升级几乎所有的cdh hadoop组件 support@pla

浏览 2提问于2017-12-20得票数 0

1回答

在CDH 5β节点子集上运行TestDFSIO测试

、、

我已经在两个ESXi服务器的五个节点上设置了ClouderaCDH5beta集群： ESXi Server 1 : 1. NameNode VM 2. DataNode1 VM 3. DataNode3 VM ESXi server 2: 1. DataNode3 VM 2. DataNode4 VM 我希望运行TestDFSIO测试，以便它只在ESXi 1 VM上运行。也就是说，我想确保测试运行在同一网络上的VM上。为此，应该更改哪些配置参数？我正在执行命令。 TestDFSIO命令: 写： sudo -u hdfs hadoop jar /opt/cloudera/parc

浏览 4提问于2014-01-23得票数 0

1回答

CombineFileInputFormat只启动一个映射，总是Hadoop1.2.1。

、

我试图使用测试CombineFileInputFormat来处理每个8MB的小文件(20个文件)。我遵循了这个中给出的示例。我能够实现和测试它。最终结果是正确的。但令我惊讶的是，它总是只有一张地图。我尝试设置属性"mapred.max.split.size“各种值，如16 in、32 in等(当然是字节)，但没有成功。还有什么是我需要做的，还是正确的行为？我正在运行一个双节点集群，默认复制为2。下面给出了开发的代码。任何帮助都是非常感谢的。 package inverika.test.retail; import org.apache.hadoop.conf.Configurati

浏览 3提问于2013-09-01得票数 2

回答已采纳

1回答

上传到Hadoop集群时依赖版本错误

、、、、

我正在尝试使用Azure HDInsight在Hadoop集群上运行MapReduce作业。在我的.jar中，我有以下依赖项(来自mvn dependency:tree)： [INFO] +- org.apache.avro:avro:jar:1.8.1:compile [INFO] +- org.apache.avro:avro-mapred:jar:hadoop1:1.8.1:compile [INFO] | +- org.apache.avro:avro-ipc:jar:1.8.1:compile 当我编译jar并在我的机器上运行它时，一切都正常。但是当我在HDInsight集群上运行

浏览 0提问于2019-07-30得票数 0

1回答

重定向到作业历史服务器时的NullPointerException

、

我有一个Hadoop集群(HDP 2.1)。一切都运行了很长一段时间，但突然之间，乔布斯开始返回以下重复错误： 16/10/13 16:21:11 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 16/10/13 16:21:12 INFO Configuration.deprecation: fs.default.name is deprecated. Instead, use fs.defaultFS 16/10/13 16:21:12 INFO impl.Ti

浏览 5提问于2016-10-13得票数 8

1回答

Hadoop一台机器只运行一个任务

、、、、

我目前正在开发一个hadoop程序。该程序被Hadoop终止，因为mapper tasker占用高内存(约7G)。有没有办法让一台机器一次只运行一个任务？我尝试了下面显示的设置，但它不起作用。该任务已被hadoop终止。 conf.set("mapreduce.tasktracker.reserved.physicalmemory.mb", "7000"); conf.set("mapred.tasktracker.map.tasks.maximum", "1"); 集群使用的是mapr-m3，每台机器都有15.6 70的内存，

浏览 0提问于2013-08-30得票数 0

1回答

在客户端模式下运行应用程序时触发读取本地文件的位置

我正在部署一个spark 独立的集群。172.16.133.15是一个由两名工人组成的主机群，全部在一台机器中，部署在ubuntu14.10中。正如文档所述，我可以使用“客户端模式”或“集群模式”运行应用程序。我的问题是： 1)在客户端模式(在windows机器中)运行应用程序时，在哪里加载文件？ SparkConf conf = new SparkConf().setAppName("Test") .setMaster("172.16.133.15")

浏览 1提问于2018-07-05得票数 0

回答已采纳

1回答

在hadoop集群上，子进程失败，代码1

、、

我有一个Hadoop3.2.2集群，其中包含1个namenode/resourceManager和3个datanodes/NodeManager。这是我的纱线网站配置 <property> <name>yarn.resourcemanager.hostname</name> <value>bd-1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <

浏览 10提问于2021-02-25得票数 0

回答已采纳

1回答

在小节点上构建hadoop集群

我正在四个非常小的虚拟服务器(2GBRAM，2Cores )上准备hadoop集群，以证明概念。一个服务器作为名称节点和资源管理器，三个是数据节点。每次我运行测试作业(包含数据的3，4 GB文件)--两个数据节点(随机节点)的工作能力最大，其中一个节点处于休眠状态(通过htop进行监视)。在hadoop中，所有3个数据节点都是可见的。我遗漏了什么？任何帮助都将不胜感激。 yarn-site.xml <configuration>  <property>

浏览 2提问于2015-10-11得票数 0

回答已采纳

2回答

MapReduce还是Spark？

、、

我在cloudera上测试过hadoop和mapreduce，我发现它很酷，我认为我是最新的和相关的BigData解决方案。但是几天前，我发现了这个：一个"Lightning fast集群计算系统“，能够在Hadoop集群的顶部工作，并且显然能够粉碎mapreduce。我发现它在RAM中比在mapreduce中更有效。我认为，当您必须进行集群计算来克服在单机上可能遇到的I/O问题时，mapreduce仍然是相关的。但是，既然Spark可以完成mapreduce所做的工作，并且在几个操作上可能更加高效，那么它不是MapReduce的终结吗？或者是MapReduce可以做更多的事情，或者

浏览 1提问于2014-03-04得票数 28

回答已采纳

2回答

是否可以从AWS Elastic Mapreduce作业访问zookeeper

、、、、

我是Hadoop新手，在AWS Elastic Mapreduce下运行。我需要在Hadoop中使用集群范围的原子计数器，因此建议使用zookeeper。我相信zookeeper是Hadoop堆栈的一部分(对吗？)，我如何从Elastic Mapreduce作业访问它来设置和更新集群范围的计数器？

浏览 0提问于2012-10-27得票数 0

回答已采纳

1回答

在mapreduce作业中找不到相关的jar文件

、

我有两个几乎相同的CDH 5.8集群，分别是Lab和Production。我有一个mapreduce作业，它在Lab中运行良好，但在生产集群中运行失败。我已经在这上面花了10多个小时了。我确保我运行的是完全相同的代码，并且还比较了集群之间的配置。我找不到任何区别。我能看到的唯一区别是，当我在生产环境中运行时，我看到了以下警告：还要注意，缓存文件的路径以"file://null/“”开头 17/08/16 10:13:14 WARN util.MRApps: cache file (mapreduce.job.cache.files) file://null/opt/cloudera

浏览 0提问于2017-08-17得票数 0

2回答

是否可以使用HADOOP YARN运行任何应用程序或程序？

、、

我最近在研究分布式计算，发现Hadoop Yarn就是其中之一。所以我想，如果我只是建立Hadoop Yarn集群，那么每个应用程序都将分布式运行。但现在有人告诉我，HADOOP Yarn本身不能做任何事情，需要其他东西，如mapreduce、spark和hbase。如果这是正确的，那么这是否意味着Yarn只能运行有限的任务？或者我可以将Yarn的分布式计算应用到我想要的所有应用程序中？

浏览 0提问于2020-02-05得票数 0

3回答

在hadoop中处理大文件时出现混洗、合并和抓取错误

、、、、

我正在运行一个像mapreduce这样的字数统计作业，处理200个文件，每个文件1 1Gb。我在一个hadoop集群上运行该作业，该集群包含4个数据节点(每个节点2cpu)，具有8 8Gb内存和大约200G空间。我尝试了各种配置选项，但每次我的工作失败，无论是InMemory混洗，OnDisk混洗，InMemory合并，OnDisk合并，或提取错误。映射器输出的大小与输入文件的大小相当，因此，为了最小化映射器输出的大小，我对mapreduce输出使用了BZip2压缩。但是，即使使用压缩的map输出，我在缩减阶段仍然会遇到错误。我用了4个减速器。因此，我尝试了hadoop集群的各种配置：群集

浏览 1提问于2014-05-30得票数 2

1回答

纱线作业获得的资源似乎比Ambari纱线经理报告的少。

、、、

当试图运行纱线过程时会感到困惑，并会产生错误。在ambari UI纱线区看到..。 (请注意，它说有60 it可用)。但是，当试图运行纱线过程时，会出现错误，表明可用资源少于在安巴里报告的资源，请参见. ➜ h2o-3.26.0.2-hdp3.1 hadoop jar h2odriver.jar -nodes 4 -mapperXmx 5g -output /home/ml1/hdfsOutputDir Determining driver host interface for mapper->driver callback... [Possible callback IP

浏览 5提问于2019-07-26得票数 0

回答已采纳

2回答

Storm和Hadoop (MapReduce)之间的权衡

、、、

有人能好心地告诉我，在Hadoop集群中选择Storm和MapReduce进行数据处理时所涉及的权衡吗？当然，除了明显的一个，Hadoop (通过Hadoop集群中的MapReduce处理)是一个批处理系统，而Storm是一个实时处理系统。我在Hadoop系统上做过一些工作，但我没有和Storm一起工作。在浏览了大量的演讲和文章之后，我仍然没有找到一个令人满意和全面的答案。注意:这里的“权衡”一词并不意味着与类似的事物相比较。它表示的是实时获得批处理系统中缺少的结果的结果。

浏览 0提问于2014-06-01得票数 12

回答已采纳

3回答

ResourceManager client.RMProxy:连接到Hadoop

、

ResourceManager client.RMProxy:连接到Hadoop 我在linux上设置了单节点集群：当我运行mapreduce应用程序时，如下所示：hadoop jar hadoop-mapreduce-examples-2.6.0.jar grep input output 'dfs[a-z.]+ I got the ff INFO: 15/02/25 23:42:54 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 15/02/25 23:42:56 INFO ipc.Clie

浏览 4提问于2015-02-25得票数 4