hadoop集群和单机一样吗 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

一台机器上的猪

hadoop、apache-pig、etl

我没有集群，但出于生产效率的原因，我仍然想使用PIG。我可以在一台机器上使用PIG吗，否则它的性能会很差？

浏览 0提问于2015-04-06得票数 1

2回答

Hadoop复制因子优先级

hadoop、hdfs

目前，hdfs dfs -ls hdfs:///user/hadoop-user/data/0/0/0的输出显示了一个复制因子：感谢你的

浏览 3提问于2015-11-06得票数 0

回答已采纳

2回答

如何在单机上模拟生产集群来测试hadoop作业

hadoop

我想在提交到生产环境之前，在开发工作站上运行hadoop作业进行测试。hadoop中的哪种模式操作允许在使用单机时最接近地模拟生产集群。

浏览 2提问于2013-05-03得票数 0

2回答

设置(Linux) Hadoop集群

linux、hadoop、cluster-computing

是否需要先设置Linux集群才能设置Hadoop集群？

浏览 0提问于2009-09-30得票数 3

1回答

确定单节点集群上Hadoop Conf设置的一般方法

configuration、hadoop、configuration-files、task、configuration-management

我想知道如何最好地确定适当的map和reduce任务数量以及相应的JVM堆的最大大小？对于Hadoop新手来说，这些属性是在mapred-site.xml文件中设置的。基于(虚拟)内核和RAM的数量，有没有可以遵循的通用公式？在您的响应中，请考虑在作业处理之前/期间创建的各种附加Hadoop进程及其对内存使用率的影响(请参阅：) 当从单机集群转移到双机集群时，您如何回答变化？

浏览 1提问于2011-07-02得票数 1

2回答

我在cloudera上测试过hadoop和mapreduce，我发现它很酷，我认为我是最新的和相关的BigData解决方案。但是几天前，我发现了这个：一个"Lightning fast集群计算系统“，能够在Hadoop集群的顶部工作，并且显然能够粉碎mapreduce。我发现它在RAM中比在mapreduce中更有效。我认为，当您必须进行集群计算来克服在单机上可能遇到的I/O问题时，mapreduce仍然是相关的。但是，既然Spa

浏览 1提问于2014-03-04得票数 28

回答已采纳

1回答

以分布式模式部署Hadoop程序

hadoop

目前，我正在使用Eclipse开发我的Hadoop演示。我已经在Hadoop单机模式下运行并测试了它。但是现在我想把我的Hadoop演示编译成Jar文件，以便像Wordcount example一样以完全分布式的模式部署它。有谁能指导我怎么做吗？

浏览 1提问于2015-07-17得票数 0

4回答

可用于使用Hadoop/MapReduce框架的群集

mapreduce、cluster-computing、distributed-computing

有谁知道任何免费访问的集群，这些集群对公众开放，并且使用Hadoop/MapReduce框架？有很多关于如何使用MapReduce的教程，但是有没有一种方法可以在不使用本地单机并安装所需框架的情况下测试这些示例呢？谢谢!

浏览 0提问于2011-03-17得票数 3

回答已采纳

1回答

Mahout单机性能

java、mahout

我的应用程序将在没有Hadoop的情况下在单机上运行。我想问一下，单节点Mahout是否也有开销，就像分布式一样？我在一本书中读到了Mahout in action，然后多集群Mahout有一些开销(初始化，传输数据等)。但是如果我们使用没有MapReduce范型的Mahout算法，应该不会有开销，对吧？

浏览 0提问于2013-09-02得票数 0

3回答

如何在单个JVM中运行hadoop多线程？

hadoop、jvm、mapreduce

我有4个核心的台式机，希望使用hadoop将我的所有核心用于本地数据处理。(例如，有时我有足够的能力在本地处理数据，有时我向集群提交相同的作业)。默认情况下，hadoop本地模式只运行一个映射器和一个reducer，所以我的本地作业非常慢。我不想首先在单机上设置集群，因为“痛苦”的配置，然后我每次都必须创建jar。所以完美的解决方案是如何在一台机器上运行嵌入式Hadoop PS伪分布式模式是不好的选择，因为它将创建具有单个节点的集群，因此我将只获得一个

浏览 0提问于2012-09-20得票数 2

1回答

如何使用apache Nutch 2.3每天从web上抓取100万个文档

hadoop、web-scraping、web-crawler、hbase、nutch

我已经使用hadoop 1.2.1和hbase 0.94.x配置了apache nutch 2.3。我不得不在网上爬行几个星期。需要抓取大约一百万个文档。我有四个节点的hadoop集群。在此配置之前，我在单机上设置了nutch，并抓取了一些文档。但爬行速度不超过50k ~ 80k。nutch的配置应该是什么，这样它才能每天抓取所需的文档量。

浏览 0提问于2015-12-01得票数 1

1回答

如何在具有单节点(CentOS)纱线集群的单机(CentOS)上安装火花

hadoop、centos、apache-spark

作为hadoop/Spark初学者，我遵循了本中的教程，并在我的单机(CentOS 6)上成功地部署了hadoop框架。现在，我也希望在同一台机器上安装Spark1.2，并让它与机器上的单节点Yarn集群一起工作，这意味着在我的单机上存储在hdfs上的文件上执行Spark，并将结果输出到hdfs。(2)从Apache网站下载了Spark1.2.1(为Hadoop2.4或更高版本预构建)，并对其进行了解压缩。接下来该怎么办？如何更改星火目录中的哪个配置文件？有人能一步一步地给我

浏览 4提问于2015-03-19得票数 0

回答已采纳

3回答

是否可以在单个节点上使用Hadoop来获得更高的速度？

hadoop

我只有一个8核和128 and内存的工作站。在Hadoop上使用独立的伪分布式模式更好，还是不使用Hadoop，而是研究最近的一致性？如果使用Hadoop更好，那么在单个工作站上是否有任何规则来决定配置，包括映射器、还原剂等的数量？

浏览 4提问于2014-03-01得票数 1

回答已采纳

1回答

用于并行非MapReduce算法的Hadoop集群

hadoop、parallel-processing、cluster-computing

Apache Hadoop的灵感来自于谷歌的MapReduce论文。MapReduce的流程可以看作是两组SIMD(单指令多数据流)，一组用于映射器，另一组用于减法器。MapReduce框架(和Hadoop)的本质是自动划分数据，确定分区和并行作业的数量，以及管理分布式资源。我有一个并行运行的通用算法(不一定是MapReducable)。相反，该算法只是一个单机python/java程序。我想并行运行这个程序的64个副本(假设程序中没有并发问题)。也就是说，我对Hadoop<

浏览 0提问于2013-04-10得票数 0

2回答

Hadoop大数据平台如何搭建呢？需要注意什么呢？

大数据解决方案、hadoop、大数据

Hadoop平台如何进行搭建并使用？

浏览 480提问于2019-04-03

1回答

在Hadoop单机模式和伪分布式模式下的DataFlow差异？

hadoop、mapreduce

有人能告诉我Hadoop单机版和伪分布式版的数据流有什么区别吗？事实上，我正在尝试运行一个由John Norstad提出的矩阵乘法的例子。它在hadoop独立模式下运行良好，但在伪分布式模式下无法正常工作。我无法解决这个问题，所以请告诉我hadoop单机模式和伪分布式模式之间的原理差异，这对修复所述的problem.Thanks有帮助WL

浏览 1提问于2012-01-12得票数 1

1回答

如何建立Storm伪分布式集群

apache-storm

我已经建立了一个动物园管理员伪分布式集群，并且我想在我的单机上的伪集群上运行Storm拓扑，我应该怎么办？我见过有人写到，它需要配置Storm 3次，就像和动物园管理员打交道一样，我不确定，有人知道吗？

浏览 2提问于2016-01-09得票数 0

回答已采纳

1回答

wordcount.scala错误

macos、scala、scalding

count.scala程序测试安装时，收到以下错误消息： scalac -classpath /var/folders/_j/_7d75_hj79133bcm7xrqzvz80000gn/T/maven/hadoop-core

浏览 2提问于2012-11-06得票数 0

1回答

在Apache上扩展python mrjob程序

python、azure、hadoop、azure-hdinsight、mrjob

MRTimeSeriesFrequencyCount.run()我是mapreduce和hadoop当我扩大存储在csv中的行数时，我的笔记本电脑-- Hadoop 8570 w--仍然比在Hadoop中运行代码更快(在100万行中为45秒和628.29秒)。集群有4个工作节点，每个节点有4个核心，2个头节点，每个节点有4个核心。它不应该表现得更

浏览 0提问于2015-12-09得票数 0

回答已采纳

1回答

集群和单机系统中Hadoop的处理时间

ubuntu、hadoop、hbase、distributed-computing

我在相同的hdfs上设置了一个3节点hadoop集群(1个Namenode，2个数据节点)和hbase。每个节点都是在我的windows 8机器上运行的512 MB Ubuntu Virtual box映像(英特尔i5，4 MB，2.4 RAM ) 我已经根据这个博客配置了hbase-hadoop。当我在一个独立的(512MB虚拟机) hadoop-hbase中运行该程序时，大约需要23分钟。但是当我在集群中运行相同的jar (512*3MB)时，它需要40分钟以上的时间。为什么

浏览 2提问于2013-02-22得票数 0

点击加载更多

一台机器上的猪

Hadoop复制因子优先级

如何在单机上模拟生产集群来测试hadoop作业

设置(Linux) Hadoop集群

确定单节点集群上Hadoop Conf设置的一般方法

MapReduce还是Spark？

以分布式模式部署Hadoop程序

可用于使用Hadoop/MapReduce框架的群集

Mahout单机性能

如何在单个JVM中运行hadoop多线程？

如何使用apache Nutch 2.3每天从web上抓取100万个文档

如何在具有单节点(CentOS)纱线集群的单机(CentOS)上安装火花

是否可以在单个节点上使用Hadoop来获得更高的速度？

用于并行非MapReduce算法的Hadoop集群

Hadoop大数据平台如何搭建呢？需要注意什么呢？

在Hadoop单机模式和伪分布式模式下的DataFlow差异？

如何建立Storm伪分布式集群

wordcount.scala错误

在Apache上扩展python mrjob程序

集群和单机系统中Hadoop的处理时间

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐