腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
视频
沙龙
2
回答
如何从客户端并行上传文件到Hadoop集群
、
、
使用hadoop fs -put命令,数据以顺序的方式进入集群。 但是如何从客户端并行上传数据到HDFS集群呢?
浏览 0
提问于2018-05-02
得票数 1
1
回答
Nutch如何使用Hadoop集群?
、
全 我想知道nutch是如何使用hadoop集群的。它如何将作业拆分到其他节点?它如何保证集群中的不同节点不会请求相同的url? 在adv中谢谢。
浏览 2
提问于2012-04-28
得票数 4
回答已采纳
1
回答
基于Azure的Hadoop集群(HDInsight)如何转化为经典的前提下Hadoop集群?
、
、
Apache被设计为运行在一堆商品机器(节点)上。这并不是设计用来在基于云的复杂场景中运行的。但是,由于云允许通过VM模拟单个节点,基于云的Hadoop集群应运而生。但这给我带来了理解上的困难。当我研究Hadoop集群的任何标准解释时,总是基于prem架构,因为所有Hadoop体系结构都是用逻辑和简单的on-prem视图来解释的。但这给理解基于云的集群是如何工作的带来了困难--特别是HDFS、数据局部性等概念。在解释的on版本中,每个节点都有自己的“本地”存储(这也意味着存储硬件是为特定节点修复的,它不会被洗牌),而且也不会假设节点被删除。此外,我们将该存储作为节点本身的一部分,因此我们从不考
浏览 2
提问于2020-09-30
得票数 0
回答已采纳
3
回答
在hadoop中并行运行作业
我是hadoop的新手。 我已经设置了一个2节点集群。 如何在hadoop中并行运行两个作业。 当我提交作业时,它们是按FIFO顺序逐个运行的。我必须并行运行这些作业。如何实现这一点。 谢谢MRK
浏览 2
提问于2011-09-20
得票数 11
回答已采纳
1
回答
JMX导出Mapreduce指标
、
、
、
我正在尝试使用JMX导出Hadoop集群的指标。它适用于HDFS和resourceManager。将其添加到HADOOP_OPTS、HADOOP_NAMENODE_OPTS、HADOOP_DATANODE_OPTS和YARN_RESOURCEMANAGER_OPTS。 如何导出作业的Mapreduce指标?我想导出作业操作,如映射和缩减。作为下图中显示作业UI的指标: ?
浏览 16
提问于2019-06-03
得票数 0
1
回答
hadoop基准测试的最佳实践是什么?
、
、
、
我正在使用TestDFSIO来测试hadoop /O性能。我使用的测试平台是一个由3个数据节点和一个名称节点组成的小型虚拟集群。每个vm将有6-8GB内存和100-250 GB硬盘. 我想知道两件事: 与我的设置相关的文件数(NrFIles)和文件大小(fileSize)参数的值应该是多少,这样我们就可以将我的小型集群的结果与标准大小的集群联系起来,比如有8-12x2-TB硬盘和64 TB的RAM和更高的处理速度。这样做对吗? 一般来说,基准测试hadoop的最佳实践是什么?例如:推荐的集群规范( datanodes、namenodes的规范)、推荐的测试数据大小、测试床应该有哪些配置
浏览 1
提问于2016-09-27
得票数 0
1
回答
Hadoop是否在块级复制?
、
、
、
集群之间/集群内部的差异是映射-减少作业。我的假设是,它在输入分割级别上复制文件,这有助于提高复制性能,因为一个文件将由多个并行处理多个“片段”的映射程序复制。然而,当我阅读Hadoop的文档时,它似乎只在文件级别上起作用。请参阅此处: hadoop.apache.org/docs/current/hadoop-distcp/DistCp.html 根据distcp,distcp将只拆分文件列表,而不是文件本身,并将列表的分区分配给映射程序。 有人能知道这到底是怎么回事吗? 附加问题:如果一个文件只分配给一个映射器,映射器如何在其运行的一个节点上找到所有输入分块?
浏览 3
提问于2017-02-20
得票数 2
回答已采纳
3
回答
如何在单个JVM中运行hadoop多线程?
、
、
我有4个核心的台式机,希望使用hadoop将我的所有核心用于本地数据处理。(例如,有时我有足够的能力在本地处理数据,有时我向集群提交相同的作业)。 默认情况下,hadoop本地模式只运行一个映射器和一个reducer,所以我的本地作业非常慢。我不想首先在单机上设置集群,因为“痛苦”的配置,然后我每次都必须创建jar。所以完美的解决方案是如何在一台机器上运行嵌入式Hadoop PS伪分布式模式是不好的选择,因为它将创建具有单个节点的集群,因此我将只获得一个映射器,并且我必须花费一些时间进行额外的配置。
浏览 0
提问于2012-09-20
得票数 2
1
回答
如何将数据垂直分割而不是水平分割?
、
、
我希望(使用Hadoop)集群和拆分一个具有大约60K特性(维度a.k.a )的数据集。列)。这个数据集几乎没有实例--大约100行。我不想水平地分割数据,而是根据特征集群进行分割。例如,如果我得到3个集群,我希望每个集群都有20K列和100行,在3个不同的节点上运行。 如何实现这种分裂?如果做不到这一点,您能为Hadoop以外的框架提供任何建议来促进这种分裂吗?
浏览 3
提问于2016-09-14
得票数 2
回答已采纳
1
回答
使用pywebhdfs创建hdfs文件时出现错误:[Errno -2]名称或服务未知
、
、
关于我的dev env的一些信息: openstack: juno hadoop: 2.4.1 pywebhdfs: 0.4.0 我通过openstack sahara client API创建了一个hadoop集群,然后希望使用在HDFS中创建一个文件(用于在创建的hadoop集群上启动作业)。但在创建HDFS文件时出现错误,错误消息为: HTTPConnectionPool(host='vanillacluster-vanillacluster-slave-vanilla-002.novalocal', port=50075): Max retries exceeded w
浏览 0
提问于2015-12-14
得票数 0
2
回答
虚拟机上的Hadoop
、
、
、
为了实现可伸缩性,我们希望从MySQL迁移到Hadoop。运行在虚拟机上的hadoop集群会改善我们网站的性能吗? 在虚拟机(ESXi)上实现hadoop集群有哪些优点和缺点?
浏览 0
提问于2011-01-26
得票数 -2
4
回答
配置Hadoop集群时需要设置多少个映射器/缩减器?
、
、
配置Hadoop集群时,设置集群映射器/缩减器数量的科学方法是什么?
浏览 0
提问于2012-04-05
得票数 4
回答已采纳
1
回答
hadoop map操作如何管理HDFS群集上的数据冗余?
、
由于hadoop在HDFS上运行,并且数据在HDFS集群中进行复制以实现冗余,因此hadoop map操作在集群中不同节点上的相同数据点上运行mapper是否真的会浪费大量处理器周期?(根据复制级别的不同,根据设计,节点之间有一些数据重叠)。 还是先根据某种类型的作业管理策略,仅对部分节点进行寻址,以避免这种重复计算?
浏览 3
提问于2014-10-25
得票数 0
1
回答
在hdfs中复制输入拆分的次数
每个输入拆分在hadoop集群中复制3次。对于每个复制拆分,hadoop会分配每个map吗?如果是,则指定将哪个map结果发送到reduce函数。hadoop是否也复制了reduce函数
浏览 2
提问于2014-07-21
得票数 0
3
回答
Hadoop1.0.3 mapred.map.tasks属性不起作用
、
我正在使用hadoop 1.0.3来运行map reduce作业。我有一个3节点的集群设置。问题是我在我的/conf/mapred-site.xml中将属性mapred.map.tasks设置为20,但是当我运行作业并使用网页访问集群信息时,hadoop只显示了6个映射任务:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮帮忙。 致敬,墨信
浏览 0
提问于2013-01-24
得票数 2
回答已采纳
1
回答
无法写入Hadoop目录模式775组权限UserGroupInformation
、
、
我在一个启用文件系统权限的私有集群上运行Hadoop2.6.2。集群有密码文件,只有像hadoop这样的系统用户,没有个人帐户。我正在从linux边缘节点访问DFS,该节点有我的个人帐户(“clott”)。 问题是,我不能写入DFS目录('shared'),即模式775和组hadoop;edge节点向我显示hadoop组的一个成员。我以为会使用边缘节点上的用户组成员身份,但不是吗?我看到的是: clott@edge$ id uid=1003(clott) gid=1003(clott) groups=1003(clott),27(sudo),1001(hadoop) clot
浏览 5
提问于2015-12-22
得票数 2
回答已采纳
2
回答
Map-减少输入分割不按预期工作
、
、
、
、
我试图在hadoop2集群中运行hadoop流应用程序。我使用下面的配置启动应用程序 hadoop jar /usr/lib/hadoop2/share/hadoop/tools/lib/hadoop-streaming.jar \ -D mapred.job.name=step01_load_delta_customer_events \ -D mapreduce.input.fileinputformat.split.minsize=134217728 \ -D mapreduce.job.reduces=10 \ -D mapreduce.map.memory.mb=4704 \ -D
浏览 0
提问于2018-05-05
得票数 0
回答已采纳
1
回答
Hadoop和Cassandra按排序顺序处理行
、
我想用字符串列表填充Cassandra数据库,然后使用Hadoop处理这些字符串。我要做的是使用Hadoop集群按顺序运行所有字符串,并记录每个字符串之间有多少重叠,以便找到最长的公共子字符串。 我的问题是,InputFormat对象是否允许我按排序顺序读出数据,或者我的字符串是否会在集群中的每台机器上“随机”读出(根据Cassandra决定如何分配它们)?MapReduce进程是否设计为单独处理每一行,而不是像我所要求的那样连续查看两行?
浏览 0
提问于2013-01-01
得票数 0
回答已采纳
1
回答
为什么不在Hadoop节点中启用虚拟节点?
网址: 在开始生产集群或数据中心上的分析/Hadoop节点之前,重要的是禁用虚拟节点配置。 如果我在分析/Hadoop节点中启用虚拟节点,会发生什么情况?
浏览 1
提问于2013-11-14
得票数 2
回答已采纳
1
回答
mapReduce与序贯法
、
对于如何在hadoop中检索数据,我有些困惑。 mapReduce是用于从hadoop集群(HDFS)检索数据,还是仅限于聚合。 Hadoop支持顺序搜索,而不是我们可以说hadoop处理数据是并行的,在遍历每个节点时,搜索与处理有何不同? 如果我错了,请纠正我:是否每个节点的块是按顺序读取的,但是集群中的许多节点是并行处理的。我的意思是,两个作业在两个不同的节点上并行运行,每个作业同时对每个节点的所有相关块进行顺序搜索。例如: Node1: A块B,C块Node2: D块,E块,F块我的假设:块A->块B->块C块D,E块,F块 其中,->是顺序式的,x
浏览 2
提问于2013-10-23
得票数 0
回答已采纳
1
回答
如何使用Yarn为作业分配更多资源
、
、
我有几个不同的作业要在Hadoop集群上运行。有些需要很少的资源,有些需要更多的资源,例如内存。我希望在我的集群上同时运行这些作业,因为它支持Yarn。我认为如果我只是将作业提交到集群,Yarn会自动决定资源需求,但我想自己指定它。如何使用api或命令行指定每个作业的资源要求?
浏览 0
提问于2015-03-17
得票数 0
3
回答
Hadoop是如何决定。在给定的场景下运行的reducers的数量?
、
Hadoop是如何决定。针对特定问题运行的reducers?它在什么基础上决定是否像no.of分割器一样。集群大小还是什么?解释下面的问题-我有640MB的输入文件,我有64MB的块大小。我的集群大小是5节点集群。我已经将我的输入文件写入HDFS,它有10个数据块。如果我对写入的输入文件运行我的wordcount程序,那么告诉我有多少个Mapper和多少个reducers将运行。
浏览 1
提问于2013-08-27
得票数 0
1
回答
Hadoop Libjars的位置
、
我在集群上运行hadoop作业,并在运行hadoop作业时使用-libjars选项传递一些jars。我不知道在哪里能找到集群上的这些罐子。还有一件事是,这些jars是否是从本地机器复制到集群。在那里我可以在集群上找到这些罐子
浏览 0
提问于2012-11-02
得票数 0
1
回答
将Apache Pig连接到Hadoop群集
、
、
我正在使用Apache Pig对Hadoop集群执行一些数据分析工作。我在hadoop集群中部署了一个集合节点和32个从节点。但是,当我使用Pig在mapreduce模式下运行脚本并连接到Hadoop集群时,它始终只启动一个map和一个reduce。如何将Pig或Hadoop设置为使用所有32个从机? 作业状态如下: Job Stats (time in seconds): JobId Maps Reduces MaxMapTime MinMapTime AvgMapTime MedianMapTime MaxReduceTime MinReduceTime Avg
浏览 0
提问于2016-03-13
得票数 1
1
回答
如何在Hadoop集群上运行Hadoop Streaming?
、
、
、
目前我有一个有3个节点的Hadoop集群(Ubuntu) 我想运行带有Hadoop流的python /R脚本,但是我不确定仅仅执行HS是否真的能使所有节点工作 如果可能,请告诉我在群集上运行流的方向 谢谢
浏览 21
提问于2020-04-25
得票数 0
2
回答
Hadoop如何在DataNode的
、
、
、
对于hadoop集群中的Datanode是如何为作业的约简函数运行java代码,我感到困惑。例如,hadoop如何将java代码发送到另一台计算机执行? Hadoop是否向节点注入java代码?如果是的话,java代码在hadoop中的位置在哪里? 或者减少函数是在主节点上运行,而不是在数据节点上运行? 帮助我跟踪这段代码,其中主节点将用于还原函数的java代码发送到datanode。
浏览 12
提问于2016-01-18
得票数 0
回答已采纳
2
回答
判断hadoop集群中的从节点是否分配了任务
、
我是Hadoop和MapReduce的新手。我刚刚部署了一个Hadoop集群,其中有一台主机和32台从机。然而,当我开始运行一个示例程序时,它似乎只是运行得很慢。如何确定map/reduce任务是否真的被分配到从节点执行? 示例程序的执行方式如下: hadoop jar ${HADOOP_HOME}/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar pi 32 100
浏览 0
提问于2016-03-14
得票数 1
1
回答
暂时挂起hadoop节点-背景hadoop集群
、
、
、
、
我想知道是否有可能安装一个“背景”hadoop集群。我的意思是,毕竟,它意味着能够处理节点有时不可用或慢。 所以假设某所大学有一个计算机实验室。比方说,100个盒子,都有高档的桌面硬件,千兆位的以太,甚至可能是相同的软件安装。Linux在这里也很受欢迎。 然而,这100个盒子当然是学生用的桌面系统,。有一些时候,实验室将满,但也有时候,实验室将是空的。用户数据大多存储在中央存储器(比如NFS )上,因此本地磁盘不常使用。 在我看来,在系统空闲时将其用作Hadoop集群是个好主意。当然,最简单的设置是让cron作业在晚上启动集群,并在早上关闭。然而,在白天,许多计算机也将被闲置。 但是,当任何用
浏览 4
提问于2012-09-25
得票数 0
回答已采纳
1
回答
对webHDFS的远程访问降低了作业跟踪器
、
、
、
、
在尝试使用distcp向另一个集群输出大量数据时,我们遇到了一个奇怪的问题。 给出一些数字, 数据大小=320 of的Mappers数=~70个节点总数82 src集群: hadoop 0.20目标集群: hadoop 2.0.2 当我们启动这个任务时,所有映射器都成功完成,但最后一个映射器需要太长时间,当它完成/失败时,它基本上会将作业跟踪器冻结近15分钟,然后重新启动所有任务跟踪器,从而重新启动集群中当时正在运行的所有作业。 我们有多个distcp作业,将数据传输到S3,以及具有相同hadoop设置的其他集群,并且没有遇到这个问题。这个过程与其他进程的唯一区别是,这里我们使用的是webhd
浏览 3
提问于2013-11-14
得票数 0
回答已采纳
1
回答
hbase导出快照- CorruptedSnapshotException
、
、
我正在从事一个在Hbase中包含1TB数据的项目。为了备份起见,我读到了有关快照的文章。 hbase快照位于集群上,我希望导出到不同的集群,并且我将得到 引起: org.apache.hadoop.hbase.ipc.RemoteWithExtrasException(org.apache.hadoop.hbase.snapshot.CorruptedSnapshotException):org.apache.hadoop.hbase.snapshot.CorruptedSnapshotException: 那么,在我的导出中还需要包括哪些其他文件呢? 是否可以通过winscp将快照目
浏览 2
提问于2017-07-30
得票数 1
回答已采纳
6
回答
学习如何在Python中实现MapReduce/Hadoop的起点?
、
、
我最近开始进行数据分析,在过去的一年中我学到了很多(目前,我几乎完全使用Python)。我觉得下一步是开始在MapReduce/Hadoop中训练自己。然而,我没有受过正规的计算机科学培训,因此常常不太了解人们在撰写Hadoop时使用的术语,因此我在这里提出问题。 我希望的是Hadoop的顶级概述(除非我应该使用其他东西?)也许还会推荐一些教程/教科书。 例如,如果我想并行化我用Python编写的神经网络,我会从哪里开始呢?是否有一种用算法实现Hadoop的相对标准方法,或者每个解决方案都是特定于问题的? Apache wiki页面将Hadoop描述为“在由普通硬件构建的大型集群上运行应用程序
浏览 10
提问于2012-08-29
得票数 13
回答已采纳
2
回答
聚类的Mappers估计
、
、
需要对Hadoop集群中特定作业的映射器的估计做一些澄清。根据我的理解,映射器的no取决于用于处理的输入分割。但是,如果我们要对已经驻留在HDFS中的输入数据进行处理,情况就是如此。在这里,我需要澄清由SQOOP作业触发的映射器和减速器。PFB. 如何根据RAM或输入分块/块估计专用集群的映射器计数?(一般情况下) 如何根据输入大小估算用于从RDBMS检索数据到HDFS的sqoop作业的映射数?(基于Sqoop) 什么是核心CPU?它如何影响可以并行运行的映射器的计数?(Genaral) 谢谢。
浏览 3
提问于2016-12-29
得票数 0
回答已采纳
1
回答
用第三方软件接口Hadoop节点
我从Hadoop了解到 每当我向Hadoop集群提交代码时: 执行hadoop map函数并将属性计算到数据节点。 我的map函数在本地数据上的每个节点上执行。 我的reduce函数在每个节点上执行。 一旦节点完成了它的任务,它就会将结果发送回主节点。 执行hadoop reduce函数并聚合结果。 问题本身 假设前面描述的步骤是正确的,那么为了从这个步骤2中更改所需的内容是什么: public void map(Args args) { for(Arg arg : args) someCalculations(arg); } 这方面
浏览 3
提问于2014-06-10
得票数 0
回答已采纳
1
回答
Hadoop中的节点数
我目前阅读了关于Hadoop的。我特别感兴趣的是集群中的节点数。我现在有两台机器:主计算机有4 cpu,从机有32 cpu。在章中,节点的最终结果是2。这是否意味着两台机器正在用于HDFS集群,我如何知道所有36 cpu (4来自主+ 32来自从机)都在使用?
浏览 1
提问于2016-12-21
得票数 1
回答已采纳
1
回答
HDInsight群集如何作为HDFS映射到Azure存储?
我对Hadoop是如何工作的有一个相当的了解,因为我已经研究了内部部署模型,因为那是每个人学习的方式。从这个意义上说,顶层思想相当straightforward.We,有一组机器(节点),我们在每个机器(节点)上运行某些进程,然后以这样的方式配置这些进程,即整个事物开始表现为单个逻辑实体,我们称之为Hadoop (YARN)集群。在这里,HDFS是位于集群中所有机器的单独存储之上的逻辑层。但是,当我们开始考虑云中的同一集群时,这就有点令人困惑了。以Azure Hadoop集群为例,假设我已经有了一个包含大量文本数据的HDInsight存储帐户,并且我想做一些分析,因此我继续在与存储帐户相同的
浏览 32
提问于2020-05-01
得票数 0
2
回答
Hadoop MapReduce作业目录-将消息记录到用户日志/ log4j _ dir中的自定义文件?
、
、
、
我不清楚应该如何在作业级别配置Hadoop MapReduce log4j。有人能帮我回答这些问题吗? 1)如何从客户端机器添加支持log4j日志记录。也就是说,我想在客户机上使用Hadoop属性文件,因此不想干扰集群中的log4j log4j设置。我认为将属性文件放在项目/ jar中就足够了,hadoop的分布式缓存应该完成传输map-reduce jar的其余工作。 2)如何将消息记录到$HADOOP_HOME/logs/userlogs/job_/ dir中的自定义文件中。 3) map reduce任务会同时使用log4j属性文件吗?客户端作业提供的文件和hadoop集群中存在的文件?
浏览 1
提问于2014-04-04
得票数 8
1
回答
覆盖hadoop用户日志(特定于队列)
、
、
我有一个hadoop作业,它运行在由300个节点组成的集群中,对于我的作业,我有一个特定的队列来执行作业。 作业在生产过程中运行良好,但是它在userlog文件夹下为特定的应用程序id生成了太多的日志,我执行了hadoop命令,并获得了290 GB大小的文件。 我可以在syslog中看到太多hadoop日志记录。 我对此有一些疑问,如果有人能指导我的话,对我会有很大的帮助- 1)- syslog中的日志基于输入数据 2)-基于hive查询的syslog中的日志(正如我所看到的,所有条目都与Hadoop处理有关,我认为hive查询对日志的创建没有任何影响) ( 3)-是否有任何方法减少syslo
浏览 5
提问于2016-08-25
得票数 1
回答已采纳
3
回答
使用Eclipse开发、测试和调试Hadoop map/reduce作业
、
、
、
、
在Eclipse中开发Java Map Reduce作业有哪些选择?我的最终目标是在amazon Hadoop集群上运行我开发的map/reduce逻辑,但我想首先在本地机器上测试逻辑,并在将其部署到更大的集群之前在其中设置断点。 我看到有一个用于Eclipse的Hadoop插件,它看起来很旧(如果我错了,请纠正我),一家名为Karmasphere的公司有用于ecplise和Hadoop的插件,但我不确定它是否仍然可用。 如何使用Eclipse开发、测试和调试您的map/reduce作业?
浏览 0
提问于2012-06-13
得票数 3
回答已采纳
1
回答
Hadoop集群中的节点数
我试图设置Hadoop多节点集群。 当我启动集群时,这里是控制台中的响应。 hduser@hadoop-master:/usr/local/hadoop$ /usr/local/hadoop/sbin/start-dfs.sh Starting namenodes on [hadoop-master] hadoop-master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hduser-namenode-hadoop-master.out hadoop-master: starting datanode, loggi
浏览 2
提问于2017-02-26
得票数 2
回答已采纳
1
回答
hadoop示例中每行一张地图是否正确?
、
我是个菜鸟。当在一个相当大的集群中查看类似实现的hadoop示例时,我想知道为什么伴随hadoop代码的grep示例,为什么每行有一个映射? 我知道从一个教学例子的角度来看,这是有意义的。但是在真正的hadoop集群中,要在行业(1PB日志文件)规模上实现grep,是否值得每一行创建一个map()?如果我们每一行创建一个映射,那么创建map()的开销、跟踪它的任务跟踪器以及相关的带宽使用是否合理?
浏览 3
提问于2015-01-23
得票数 0
回答已采纳
2
回答
Hadoop集群-如何知道每个任务跟踪器的map/reduce任务的理想最大数量
、
我刚刚使用Hadoop 0.20.205设置了一个Hadoop集群。我有一个主机(NameNode和JobTracker)和另外两个盒子(从机)。 我正在尝试理解如何定义要使用的map和reduce任务的数量。 到目前为止,我知道我可以使用*mapred.tasktracker.map.tasks.maximum*和*mapred.tasktracker.reduce.tasks.maximum*来设置每个TaskTracker能够同时处理的最大map和reduce任务数。 此外,我还可以定义使用*mapred.map.tasks*时整个集群可以同时运行的映射任务的最大数量。是那么回事吗? 如
浏览 0
提问于2013-12-03
得票数 1
3
回答
hadoop映射缩减中的多个目录作为输入格式
、
、
我试图在分布式系统中使用hadoop运行一个图形验证程序。我的输入格式如下: Directory1 -文件1点 -文件2点 …。。 -文件.点 Directory2 -文件1点 -文件2点 …。。 -文件.点 Directory670 -文件1点 -文件2点 …。。 -文件.点 .dot文件是存储图形的文件。 使用FileInputFormat.addInputPath()添加输入目录路径就足够了吗? 我希望hadoop处理同一节点中每个目录的内容,因为每个目录中的文件包含依赖于同一目录中其他文件存在的数据。 hadoop框架会负责将目录平等地分发到集群的各个节点(例如,目录1到node1,目
浏览 4
提问于2014-04-29
得票数 2
回答已采纳
1
回答
分配哪个映射器
、
我正在尝试将某些安全功能整合到Hadoop mapreduce中,我想知道这一点。对于mapreduce程序,我如何知道分配了哪个映射器。 假设我正在编写wordcount示例,并使用5个文件,其中有一个机器集群。我如何知道哪台机器访问了哪个文件?
浏览 3
提问于2015-10-03
得票数 2
5
回答
Hadoop中的数据拆分方式
、
、
Hadoop是否根据程序中设置的映射器数量拆分数据?也就是说,有一个大小为500MB的数据集,如果映射器的数量是200 (假设Hadoop集群同时允许200个映射器),是否为每个映射器提供2.5MB的数据? 此外,是否所有映射器都同时运行,或者其中一些可能是串行运行的?
浏览 0
提问于2013-07-04
得票数 12
回答已采纳
1
回答
Hadoop任务进度
我需要计算在Hadoop集群中的所有节点上运行的每个map任务的进度。我在考虑将处理数据的大小除以整个输入数据的大小,但我不确定如何为任务获取此信息。 我看到TaskStatus类有一个方法getProgress(),但是没有对它的描述。它能提供我需要的价值吗?
浏览 0
提问于2013-03-30
得票数 1
回答已采纳
1
回答
在HDI Hadoop群集中启用SSL
、
、
、
我使用的是Azure HDInsight Hadoop集群类型,HDI :Hadoop2.7(HDI3.6)。这不是Kerberised群集,因为未启用ESP。现在我需要在这个hadoop集群上启用SSL。如何确保在hadoop集群中启用SSL?我可以在core-default.xml文件中看到hadoop.ssl.enabled属性为false。 现在,如何在此hadoop集群上启用SSL。 感谢你的他谢谢
浏览 2
提问于2019-12-03
得票数 1
1
回答
在单个节点集群上运行Hadoop时,HDFS是如何工作的?
、
、
关于数据局部性以及MapReduce和HDFS是如何在多节点集群上工作的,有很多内容。但是我找不到很多关于单个节点设置的信息。在我试验Hadoop的过去三个月里,我总是阅读关于映射器和还原器数量的教程和线程,并编写自定义分配器来优化作业,但我总是认为,它是否适用于单个节点集群? 与多节点集群相比,在单个节点集群上运行MapReduce作业的损失是什么? 在这种情况下,通过拆分输入数据提供的并行性仍然适用吗? 从单个节点HDFS读取输入和从本地文件系统读取输入有什么区别? 我认为,由于我的小经验,我不能清楚地回答这些问题,所以任何帮助都是非常感谢的! 提前感谢! 编辑:我知道Hadoop不适合于
浏览 0
提问于2013-11-14
得票数 5
回答已采纳
1
回答
确定单节点集群上Hadoop Conf设置的一般方法
、
、
、
、
我想知道如何最好地确定适当的map和reduce任务数量以及相应的JVM堆的最大大小?对于Hadoop新手来说,这些属性是在mapred-site.xml文件中设置的。基于(虚拟)内核和RAM的数量,有没有可以遵循的通用公式? 在您的响应中,请考虑在作业处理之前/期间创建的各种附加Hadoop进程及其对内存使用率的影响(请参阅:) 当从单机集群转移到双机集群时,您如何回答变化?
浏览 1
提问于2011-07-02
得票数 1
1
回答
如何分析大型jvm转储文件
、
、
我们的hadoop集群有1000+节点和20PB数据。因此,我们的NameNode转储文件超过100 it,并且我们发现很难使用任何工具对其进行分析。对于如何分析这么大的jvm转储文件,有人有什么建议吗?
浏览 9
提问于2018-08-25
得票数 0
1
回答
在Hadoop 2+纱线中,并行映射器和减速机是如何计算的?
、
、
我已经搜索了一段时间,发现使用MapReduce + that的hadoop2集群具有以下多个并发映射并减少了每个节点: 并发映射#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.map.memory.mb并发减少#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.reduce.memory.mb 但是,我已经设置了一个具有10台机器的集群,具有以下配置: 'yarn_site' => { 'yarn.nodemanager.resource.cpu-vcores'
浏览 3
提问于2014-06-25
得票数 2
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何给Hadoop集群划分角色
新手如何快速搭建Hadoop集群
如何使用Mahout在hadoop进行集群分析
在Kubernetes平台上,应对不同场景外部流量引入集群,这3种工具改如何选择?
大数据概览——搭建大数据的基础
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券