hadoop集群映射如何改_hadoop单机怎么改集群_hadoop集群的classid怎么改 - 腾讯云开发者社区

、、

使用hadoop fs -put命令，数据以顺序的方式进入集群。但是如何从客户端并行上传数据到HDFS集群呢？

浏览 0提问于2018-05-02得票数 1

1回答

Nutch如何使用Hadoop集群？

、

全我想知道nutch是如何使用hadoop集群的。它如何将作业拆分到其他节点？它如何保证集群中的不同节点不会请求相同的url？在adv中谢谢。

浏览 2提问于2012-04-28得票数 4

回答已采纳

1回答

基于Azure的Hadoop集群(HDInsight)如何转化为经典的前提下Hadoop集群？

、、

Apache被设计为运行在一堆商品机器(节点)上。这并不是设计用来在基于云的复杂场景中运行的。但是，由于云允许通过VM模拟单个节点，基于云的Hadoop集群应运而生。但这给我带来了理解上的困难。当我研究Hadoop集群的任何标准解释时，总是基于prem架构，因为所有Hadoop体系结构都是用逻辑和简单的on-prem视图来解释的。但这给理解基于云的集群是如何工作的带来了困难--特别是HDFS、数据局部性等概念。在解释的on版本中，每个节点都有自己的“本地”存储(这也意味着存储硬件是为特定节点修复的，它不会被洗牌)，而且也不会假设节点被删除。此外，我们将该存储作为节点本身的一部分，因此我们从不考

浏览 2提问于2020-09-30得票数 0

回答已采纳

3回答

在hadoop中并行运行作业

我是hadoop的新手。我已经设置了一个2节点集群。如何在hadoop中并行运行两个作业。当我提交作业时，它们是按FIFO顺序逐个运行的。我必须并行运行这些作业。如何实现这一点。谢谢MRK

浏览 2提问于2011-09-20得票数 11

回答已采纳

1回答

JMX导出Mapreduce指标

、、、

我正在尝试使用JMX导出Hadoop集群的指标。它适用于HDFS和resourceManager。将其添加到HADOOP_OPTS、HADOOP_NAMENODE_OPTS、HADOOP_DATANODE_OPTS和YARN_RESOURCEMANAGER_OPTS。如何导出作业的Mapreduce指标？我想导出作业操作，如映射和缩减。作为下图中显示作业UI的指标： ?

浏览 16提问于2019-06-03得票数 0

1回答

hadoop基准测试的最佳实践是什么？

、、、

我正在使用TestDFSIO来测试hadoop /O性能。我使用的测试平台是一个由3个数据节点和一个名称节点组成的小型虚拟集群。每个vm将有6-8GB内存和100-250 GB硬盘. 我想知道两件事：与我的设置相关的文件数(NrFIles)和文件大小(fileSize)参数的值应该是多少，这样我们就可以将我的小型集群的结果与标准大小的集群联系起来，比如有8-12x2-TB硬盘和64 TB的RAM和更高的处理速度。这样做对吗？一般来说，基准测试hadoop的最佳实践是什么？例如:推荐的集群规范( datanodes、namenodes的规范)、推荐的测试数据大小、测试床应该有哪些配置

浏览 1提问于2016-09-27得票数 0

1回答

Hadoop是否在块级复制？

、、、

集群之间/集群内部的差异是映射-减少作业。我的假设是，它在输入分割级别上复制文件，这有助于提高复制性能，因为一个文件将由多个并行处理多个“片段”的映射程序复制。然而，当我阅读Hadoop的文档时，它似乎只在文件级别上起作用。请参阅此处: hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html 根据distcp，distcp将只拆分文件列表，而不是文件本身，并将列表的分区分配给映射程序。有人能知道这到底是怎么回事吗？附加问题:如果一个文件只分配给一个映射器，映射器如何在其运行的一个节点上找到所有输入分块？

浏览 3提问于2017-02-20得票数 2

回答已采纳

3回答

如何在单个JVM中运行hadoop多线程？

、、

我有4个核心的台式机，希望使用hadoop将我的所有核心用于本地数据处理。(例如，有时我有足够的能力在本地处理数据，有时我向集群提交相同的作业)。默认情况下，hadoop本地模式只运行一个映射器和一个reducer，所以我的本地作业非常慢。我不想首先在单机上设置集群，因为“痛苦”的配置，然后我每次都必须创建jar。所以完美的解决方案是如何在一台机器上运行嵌入式Hadoop PS伪分布式模式是不好的选择，因为它将创建具有单个节点的集群，因此我将只获得一个映射器，并且我必须花费一些时间进行额外的配置。

浏览 0提问于2012-09-20得票数 2

1回答

如何将数据垂直分割而不是水平分割？

、、

我希望(使用Hadoop)集群和拆分一个具有大约60K特性(维度a.k.a )的数据集。列)。这个数据集几乎没有实例--大约100行。我不想水平地分割数据，而是根据特征集群进行分割。例如，如果我得到3个集群，我希望每个集群都有20K列和100行，在3个不同的节点上运行。如何实现这种分裂？如果做不到这一点，您能为Hadoop以外的框架提供任何建议来促进这种分裂吗？

浏览 3提问于2016-09-14得票数 2

回答已采纳

1回答

使用pywebhdfs创建hdfs文件时出现错误：[Errno -2]名称或服务未知

、、

关于我的dev env的一些信息： openstack: juno hadoop: 2.4.1 pywebhdfs: 0.4.0 我通过openstack sahara client API创建了一个hadoop集群，然后希望使用在HDFS中创建一个文件(用于在创建的hadoop集群上启动作业)。但在创建HDFS文件时出现错误，错误消息为： HTTPConnectionPool(host='vanillacluster-vanillacluster-slave-vanilla-002.novalocal', port=50075): Max retries exceeded w

浏览 0提问于2015-12-14得票数 0

2回答

虚拟机上的Hadoop

、、、

为了实现可伸缩性，我们希望从MySQL迁移到Hadoop。运行在虚拟机上的hadoop集群会改善我们网站的性能吗？在虚拟机(ESXi)上实现hadoop集群有哪些优点和缺点？

浏览 0提问于2011-01-26得票数 -2

4回答

配置Hadoop集群时需要设置多少个映射器/缩减器？

、、

配置Hadoop集群时，设置集群映射器/缩减器数量的科学方法是什么？

浏览 0提问于2012-04-05得票数 4

回答已采纳

1回答

hadoop map操作如何管理HDFS群集上的数据冗余？

、

由于hadoop在HDFS上运行，并且数据在HDFS集群中进行复制以实现冗余，因此hadoop map操作在集群中不同节点上的相同数据点上运行mapper是否真的会浪费大量处理器周期？(根据复制级别的不同，根据设计，节点之间有一些数据重叠)。还是先根据某种类型的作业管理策略，仅对部分节点进行寻址，以避免这种重复计算？

浏览 3提问于2014-10-25得票数 0

1回答

在hdfs中复制输入拆分的次数

每个输入拆分在hadoop集群中复制3次。对于每个复制拆分，hadoop会分配每个map吗？如果是，则指定将哪个map结果发送到reduce函数。hadoop是否也复制了reduce函数

浏览 2提问于2014-07-21得票数 0

3回答

Hadoop1.0.3 mapred.map.tasks属性不起作用

、

我正在使用hadoop 1.0.3来运行map reduce作业。我有一个3节点的集群设置。问题是我在我的/conf/mapred-site.xml中将属性mapred.map.tasks设置为20，但是当我运行作业并使用网页访问集群信息时，hadoop只显示了6个映射任务:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮帮忙。致敬，墨信

浏览 0提问于2013-01-24得票数 2

回答已采纳

1回答

无法写入Hadoop目录模式775组权限UserGroupInformation

、、

我在一个启用文件系统权限的私有集群上运行Hadoop2.6.2。集群有密码文件，只有像hadoop这样的系统用户，没有个人帐户。我正在从linux边缘节点访问DFS，该节点有我的个人帐户(“clott”)。问题是，我不能写入DFS目录('shared')，即模式775和组hadoop；edge节点向我显示hadoop组的一个成员。我以为会使用边缘节点上的用户组成员身份，但不是吗？我看到的是： clott@edge$ id uid=1003(clott) gid=1003(clott) groups=1003(clott),27(sudo),1001(hadoop) clot

浏览 5提问于2015-12-22得票数 2

回答已采纳

2回答

Map-减少输入分割不按预期工作

、、、、

我试图在hadoop2集群中运行hadoop流应用程序。我使用下面的配置启动应用程序 hadoop jar /usr/lib/hadoop2/share/hadoop/tools/lib/hadoop-streaming.jar \ -D mapred.job.name=step01_load_delta_customer_events \ -D mapreduce.input.fileinputformat.split.minsize=134217728 \ -D mapreduce.job.reduces=10 \ -D mapreduce.map.memory.mb=4704 \ -D

浏览 0提问于2018-05-05得票数 0

回答已采纳

1回答

Hadoop和Cassandra按排序顺序处理行

、

我想用字符串列表填充Cassandra数据库，然后使用Hadoop处理这些字符串。我要做的是使用Hadoop集群按顺序运行所有字符串，并记录每个字符串之间有多少重叠，以便找到最长的公共子字符串。我的问题是，InputFormat对象是否允许我按排序顺序读出数据，或者我的字符串是否会在集群中的每台机器上“随机”读出(根据Cassandra决定如何分配它们)？MapReduce进程是否设计为单独处理每一行，而不是像我所要求的那样连续查看两行？

浏览 0提问于2013-01-01得票数 0

回答已采纳

1回答

为什么不在Hadoop节点中启用虚拟节点？

网址：在开始生产集群或数据中心上的分析/Hadoop节点之前，重要的是禁用虚拟节点配置。如果我在分析/Hadoop节点中启用虚拟节点，会发生什么情况？

浏览 1提问于2013-11-14得票数 2

回答已采纳

1回答

mapReduce与序贯法

、

对于如何在hadoop中检索数据，我有些困惑。 mapReduce是用于从hadoop集群(HDFS)检索数据，还是仅限于聚合。 Hadoop支持顺序搜索，而不是我们可以说hadoop处理数据是并行的，在遍历每个节点时，搜索与处理有何不同？如果我错了，请纠正我:是否每个节点的块是按顺序读取的，但是集群中的许多节点是并行处理的。我的意思是，两个作业在两个不同的节点上并行运行，每个作业同时对每个节点的所有相关块进行顺序搜索。例如: Node1: A块B，C块Node2: D块，E块，F块我的假设:块A->块B->块C块D，E块，F块其中，->是顺序式的，x

浏览 2提问于2013-10-23得票数 0

回答已采纳

1回答

如何使用Yarn为作业分配更多资源

、、

我有几个不同的作业要在Hadoop集群上运行。有些需要很少的资源，有些需要更多的资源，例如内存。我希望在我的集群上同时运行这些作业，因为它支持Yarn。我认为如果我只是将作业提交到集群，Yarn会自动决定资源需求，但我想自己指定它。如何使用api或命令行指定每个作业的资源要求？

浏览 0提问于2015-03-17得票数 0

3回答

Hadoop是如何决定。在给定的场景下运行的reducers的数量？

、

Hadoop是如何决定。针对特定问题运行的reducers？它在什么基础上决定是否像no.of分割器一样。集群大小还是什么？解释下面的问题-我有640MB的输入文件，我有64MB的块大小。我的集群大小是5节点集群。我已经将我的输入文件写入HDFS，它有10个数据块。如果我对写入的输入文件运行我的wordcount程序，那么告诉我有多少个Mapper和多少个reducers将运行。

浏览 1提问于2013-08-27得票数 0

1回答

Hadoop Libjars的位置

、

我在集群上运行hadoop作业，并在运行hadoop作业时使用-libjars选项传递一些jars。我不知道在哪里能找到集群上的这些罐子。还有一件事是，这些jars是否是从本地机器复制到集群。在那里我可以在集群上找到这些罐子

浏览 0提问于2012-11-02得票数 0

1回答

将Apache Pig连接到Hadoop群集

、、

我正在使用Apache Pig对Hadoop集群执行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是，当我使用Pig在mapreduce模式下运行脚本并连接到Hadoop集群时，它始终只启动一个map和一个reduce。如何将Pig或Hadoop设置为使用所有32个从机？作业状态如下： Job Stats (time in seconds): JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime Avg

浏览 0提问于2016-03-13得票数 1

1回答

如何在Hadoop集群上运行Hadoop Streaming？

、、、

目前我有一个有3个节点的Hadoop集群(Ubuntu) 我想运行带有Hadoop流的python /R脚本，但是我不确定仅仅执行HS是否真的能使所有节点工作如果可能，请告诉我在群集上运行流的方向谢谢

浏览 21提问于2020-04-25得票数 0

2回答

Hadoop如何在DataNode的

、、、

对于hadoop集群中的Datanode是如何为作业的约简函数运行java代码，我感到困惑。例如，hadoop如何将java代码发送到另一台计算机执行？ Hadoop是否向节点注入java代码？如果是的话，java代码在hadoop中的位置在哪里？或者减少函数是在主节点上运行，而不是在数据节点上运行？帮助我跟踪这段代码，其中主节点将用于还原函数的java代码发送到datanode。

浏览 12提问于2016-01-18得票数 0

回答已采纳

2回答

判断hadoop集群中的从节点是否分配了任务

、

我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群，其中有一台主机和32台从机。然而，当我开始运行一个示例程序时，它似乎只是运行得很慢。如何确定map/reduce任务是否真的被分配到从节点执行？示例程序的执行方式如下： hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar pi 32 100

浏览 0提问于2016-03-14得票数 1

1回答

暂时挂起hadoop节点-背景hadoop集群

、、、、

我想知道是否有可能安装一个“背景”hadoop集群。我的意思是，毕竟，它意味着能够处理节点有时不可用或慢。所以假设某所大学有一个计算机实验室。比方说，100个盒子，都有高档的桌面硬件，千兆位的以太，甚至可能是相同的软件安装。Linux在这里也很受欢迎。然而，这100个盒子当然是学生用的桌面系统，。有一些时候，实验室将满，但也有时候，实验室将是空的。用户数据大多存储在中央存储器(比如NFS )上，因此本地磁盘不常使用。在我看来，在系统空闲时将其用作Hadoop集群是个好主意。当然，最简单的设置是让cron作业在晚上启动集群，并在早上关闭。然而，在白天，许多计算机也将被闲置。但是，当任何用

浏览 4提问于2012-09-25得票数 0

回答已采纳

1回答

对webHDFS的远程访问降低了作业跟踪器

、、、、

在尝试使用distcp向另一个集群输出大量数据时，我们遇到了一个奇怪的问题。给出一些数字，数据大小=320 of的Mappers数=~70个节点总数82 src集群: hadoop 0.20目标集群: hadoop 2.0.2 当我们启动这个任务时，所有映射器都成功完成，但最后一个映射器需要太长时间，当它完成/失败时，它基本上会将作业跟踪器冻结近15分钟，然后重新启动所有任务跟踪器，从而重新启动集群中当时正在运行的所有作业。我们有多个distcp作业，将数据传输到S3，以及具有相同hadoop设置的其他集群，并且没有遇到这个问题。这个过程与其他进程的唯一区别是，这里我们使用的是webhd

浏览 3提问于2013-11-14得票数 0

回答已采纳

1回答

hbase导出快照- CorruptedSnapshotException

、、

我正在从事一个在Hbase中包含1TB数据的项目。为了备份起见，我读到了有关快照的文章。 hbase快照位于集群上，我希望导出到不同的集群，并且我将得到引起: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException(org.apache.hadoop.hbase.snapshot.CorruptedSnapshotException)：org.apache.hadoop.hbase.snapshot.CorruptedSnapshotException：那么，在我的导出中还需要包括哪些其他文件呢？是否可以通过winscp将快照目

浏览 2提问于2017-07-30得票数 1

回答已采纳

6回答

学习如何在Python中实现MapReduce/Hadoop的起点？

、、

我最近开始进行数据分析，在过去的一年中我学到了很多(目前，我几乎完全使用Python)。我觉得下一步是开始在MapReduce/Hadoop中训练自己。然而，我没有受过正规的计算机科学培训，因此常常不太了解人们在撰写Hadoop时使用的术语，因此我在这里提出问题。我希望的是Hadoop的顶级概述(除非我应该使用其他东西？)也许还会推荐一些教程/教科书。例如，如果我想并行化我用Python编写的神经网络，我会从哪里开始呢？是否有一种用算法实现Hadoop的相对标准方法，或者每个解决方案都是特定于问题的？ Apache wiki页面将Hadoop描述为“在由普通硬件构建的大型集群上运行应用程序

浏览 10提问于2012-08-29得票数 13

回答已采纳

2回答

聚类的Mappers估计

、、

需要对Hadoop集群中特定作业的映射器的估计做一些澄清。根据我的理解，映射器的no取决于用于处理的输入分割。但是，如果我们要对已经驻留在HDFS中的输入数据进行处理，情况就是如此。在这里，我需要澄清由SQOOP作业触发的映射器和减速器。PFB. 如何根据RAM或输入分块/块估计专用集群的映射器计数？(一般情况下) 如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数？(基于Sqoop) 什么是核心CPU?它如何影响可以并行运行的映射器的计数？(Genaral) 谢谢。

浏览 3提问于2016-12-29得票数 0

回答已采纳

1回答

用第三方软件接口Hadoop节点

我从Hadoop了解到每当我向Hadoop集群提交代码时：执行hadoop map函数并将属性计算到数据节点。我的map函数在本地数据上的每个节点上执行。我的reduce函数在每个节点上执行。一旦节点完成了它的任务，它就会将结果发送回主节点。执行hadoop reduce函数并聚合结果。问题本身假设前面描述的步骤是正确的，那么为了从这个步骤2中更改所需的内容是什么： public void map(Args args) { for(Arg arg : args) someCalculations(arg); } 这方面

浏览 3提问于2014-06-10得票数 0

回答已采纳

1回答

Hadoop中的节点数

我目前阅读了关于Hadoop的。我特别感兴趣的是集群中的节点数。我现在有两台机器:主计算机有4 cpu，从机有32 cpu。在章中，节点的最终结果是2。这是否意味着两台机器正在用于HDFS集群，我如何知道所有36 cpu (4来自主+ 32来自从机)都在使用？

浏览 1提问于2016-12-21得票数 1

回答已采纳

1回答

HDInsight群集如何作为HDFS映射到Azure存储？

我对Hadoop是如何工作的有一个相当的了解，因为我已经研究了内部部署模型，因为那是每个人学习的方式。从这个意义上说，顶层思想相当straightforward.We，有一组机器(节点)，我们在每个机器(节点)上运行某些进程，然后以这样的方式配置这些进程，即整个事物开始表现为单个逻辑实体，我们称之为Hadoop (YARN)集群。在这里，HDFS是位于集群中所有机器的单独存储之上的逻辑层。但是，当我们开始考虑云中的同一集群时，这就有点令人困惑了。以Azure Hadoop集群为例，假设我已经有了一个包含大量文本数据的HDInsight存储帐户，并且我想做一些分析，因此我继续在与存储帐户相同的

浏览 32提问于2020-05-01得票数 0

2回答

Hadoop MapReduce作业目录-将消息记录到用户日志/ log4j _ dir中的自定义文件？

、、、

我不清楚应该如何在作业级别配置Hadoop MapReduce log4j。有人能帮我回答这些问题吗？ 1)如何从客户端机器添加支持log4j日志记录。也就是说，我想在客户机上使用Hadoop属性文件，因此不想干扰集群中的log4j log4j设置。我认为将属性文件放在项目/ jar中就足够了，hadoop的分布式缓存应该完成传输map-reduce jar的其余工作。 2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/ dir中的自定义文件中。 3) map reduce任务会同时使用log4j属性文件吗？客户端作业提供的文件和hadoop集群中存在的文件？

浏览 1提问于2014-04-04得票数 8

1回答

覆盖hadoop用户日志(特定于队列)

、、

我有一个hadoop作业，它运行在由300个节点组成的集群中，对于我的作业，我有一个特定的队列来执行作业。作业在生产过程中运行良好，但是它在userlog文件夹下为特定的应用程序id生成了太多的日志，我执行了hadoop命令，并获得了290 GB大小的文件。我可以在syslog中看到太多hadoop日志记录。我对此有一些疑问，如果有人能指导我的话，对我会有很大的帮助- 1)- syslog中的日志基于输入数据 2)-基于hive查询的syslog中的日志(正如我所看到的，所有条目都与Hadoop处理有关，我认为hive查询对日志的创建没有任何影响) ( 3)-是否有任何方法减少syslo

浏览 5提问于2016-08-25得票数 1

回答已采纳

3回答

使用Eclipse开发、测试和调试Hadoop map/reduce作业

、、、、

在Eclipse中开发Java Map Reduce作业有哪些选择？我的最终目标是在amazon Hadoop集群上运行我开发的map/reduce逻辑，但我想首先在本地机器上测试逻辑，并在将其部署到更大的集群之前在其中设置断点。我看到有一个用于Eclipse的Hadoop插件，它看起来很旧(如果我错了，请纠正我)，一家名为Karmasphere的公司有用于ecplise和Hadoop的插件，但我不确定它是否仍然可用。如何使用Eclipse开发、测试和调试您的map/reduce作业？

浏览 0提问于2012-06-13得票数 3

回答已采纳

1回答

Hadoop集群中的节点数

我试图设置Hadoop多节点集群。当我启动集群时，这里是控制台中的响应。 hduser@hadoop-master:/usr/local/hadoop$ /usr/local/hadoop/sbin/start-dfs.sh Starting namenodes on [hadoop-master] hadoop-master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-namenode-hadoop-master.out hadoop-master: starting datanode, loggi

浏览 2提问于2017-02-26得票数 2

回答已采纳

1回答

hadoop示例中每行一张地图是否正确？

、

我是个菜鸟。当在一个相当大的集群中查看类似实现的hadoop示例时，我想知道为什么伴随hadoop代码的grep示例，为什么每行有一个映射？我知道从一个教学例子的角度来看，这是有意义的。但是在真正的hadoop集群中，要在行业(1PB日志文件)规模上实现grep，是否值得每一行创建一个map()？如果我们每一行创建一个映射，那么创建map()的开销、跟踪它的任务跟踪器以及相关的带宽使用是否合理？

浏览 3提问于2015-01-23得票数 0

回答已采纳

2回答

Hadoop集群-如何知道每个任务跟踪器的map/reduce任务的理想最大数量

、

我刚刚使用Hadoop 0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。我正在尝试理解如何定义要使用的map和reduce任务的数量。到目前为止，我知道我可以使用*mapred.tasktracker.map.tasks.maximum*和*mapred.tasktracker.reduce.tasks.maximum*来设置每个TaskTracker能够同时处理的最大map和reduce任务数。此外，我还可以定义使用*mapred.map.tasks*时整个集群可以同时运行的映射任务的最大数量。是那么回事吗？如

浏览 0提问于2013-12-03得票数 1

3回答

hadoop映射缩减中的多个目录作为输入格式

、、

我试图在分布式系统中使用hadoop运行一个图形验证程序。我的输入格式如下： Directory1 -文件1点 -文件2点 …。。 -文件.点 Directory2 -文件1点 -文件2点 …。。 -文件.点 Directory670 -文件1点 -文件2点 …。。 -文件.点 .dot文件是存储图形的文件。使用FileInputFormat.addInputPath()添加输入目录路径就足够了吗？我希望hadoop处理同一节点中每个目录的内容，因为每个目录中的文件包含依赖于同一目录中其他文件存在的数据。 hadoop框架会负责将目录平等地分发到集群的各个节点(例如，目录1到node1，目

浏览 4提问于2014-04-29得票数 2

回答已采纳

1回答

分配哪个映射器

、

我正在尝试将某些安全功能整合到Hadoop mapreduce中，我想知道这一点。对于mapreduce程序，我如何知道分配了哪个映射器。假设我正在编写wordcount示例，并使用5个文件，其中有一个机器集群。我如何知道哪台机器访问了哪个文件？

浏览 3提问于2015-10-03得票数 2

5回答

Hadoop中的数据拆分方式

、、

Hadoop是否根据程序中设置的映射器数量拆分数据？也就是说，有一个大小为500MB的数据集，如果映射器的数量是200 (假设Hadoop集群同时允许200个映射器)，是否为每个映射器提供2.5MB的数据？此外，是否所有映射器都同时运行，或者其中一些可能是串行运行的？

浏览 0提问于2013-07-04得票数 12

回答已采纳

1回答

Hadoop任务进度

我需要计算在Hadoop集群中的所有节点上运行的每个map任务的进度。我在考虑将处理数据的大小除以整个输入数据的大小，但我不确定如何为任务获取此信息。我看到TaskStatus类有一个方法getProgress()，但是没有对它的描述。它能提供我需要的价值吗？

浏览 0提问于2013-03-30得票数 1

回答已采纳

1回答

在HDI Hadoop群集中启用SSL

、、、

我使用的是Azure HDInsight Hadoop集群类型，HDI :Hadoop2.7(HDI3.6)。这不是Kerberised群集，因为未启用ESP。现在我需要在这个hadoop集群上启用SSL。如何确保在hadoop集群中启用SSL？我可以在core-default.xml文件中看到hadoop.ssl.enabled属性为false。现在，如何在此hadoop集群上启用SSL。感谢你的他谢谢

浏览 2提问于2019-12-03得票数 1

1回答

在单个节点集群上运行Hadoop时，HDFS是如何工作的？

、、

关于数据局部性以及MapReduce和HDFS是如何在多节点集群上工作的，有很多内容。但是我找不到很多关于单个节点设置的信息。在我试验Hadoop的过去三个月里，我总是阅读关于映射器和还原器数量的教程和线程，并编写自定义分配器来优化作业，但我总是认为，它是否适用于单个节点集群？与多节点集群相比，在单个节点集群上运行MapReduce作业的损失是什么？在这种情况下，通过拆分输入数据提供的并行性仍然适用吗？从单个节点HDFS读取输入和从本地文件系统读取输入有什么区别？我认为，由于我的小经验，我不能清楚地回答这些问题，所以任何帮助都是非常感谢的！提前感谢！编辑:我知道Hadoop不适合于

浏览 0提问于2013-11-14得票数 5

回答已采纳

1回答

确定单节点集群上Hadoop Conf设置的一般方法

、、、、

我想知道如何最好地确定适当的map和reduce任务数量以及相应的JVM堆的最大大小？对于Hadoop新手来说，这些属性是在mapred-site.xml文件中设置的。基于(虚拟)内核和RAM的数量，有没有可以遵循的通用公式？在您的响应中，请考虑在作业处理之前/期间创建的各种附加Hadoop进程及其对内存使用率的影响(请参阅：) 当从单机集群转移到双机集群时，您如何回答变化？

浏览 1提问于2011-07-02得票数 1

1回答

如何分析大型jvm转储文件

、、

我们的hadoop集群有1000+节点和20PB数据。因此，我们的NameNode转储文件超过100 it，并且我们发现很难使用任何工具对其进行分析。对于如何分析这么大的jvm转储文件，有人有什么建议吗？

浏览 9提问于2018-08-25得票数 0

1回答

在Hadoop 2+纱线中，并行映射器和减速机是如何计算的？

、、

我已经搜索了一段时间，发现使用MapReduce + that的hadoop2集群具有以下多个并发映射并减少了每个节点：并发映射#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.map.memory.mb并发减少#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.reduce.memory.mb 但是，我已经设置了一个具有10台机器的集群，具有以下配置： 'yarn_site' => { 'yarn.nodemanager.resource.cpu-vcores'

浏览 3提问于2014-06-25得票数 2