云计算与hadoop_hadoop与云计算_hadoop与云计算的关系 - 腾讯云开发者社区

、、

在谷歌DataProc中为我的项目创建集群之后，我尝试为Hadoop键入几个命令(比如hadoop fs -ls)。不幸的是，云外壳完全没有看到Hadoop！ -bash: hadoop:命令未找到堆叠溢出的人说： “它不能在Cloud中工作，因为它没有预装Hadoop实用程序。但我不知道如何安装或者激活它。也许是通过集群创建，但是通过dataproc创建集群却有问题。我是通过云shell来做的。如何正确使用云shell中的Hadoop命令？

浏览 2提问于2021-09-19得票数 0

3回答

Hadoop是什么？怎么使用呢？

、

和MapReduce一样吗？听说Hadoop是做大数据并行计算的框架，这种跟“云计算“有什么区别？

浏览 724提问于2017-09-28

1回答

在Google Cloud Storage中存储1封电子邮件/文件还是在一个大文件中存储多封电子邮件更好？

我正在尝试对一些用户的电子邮件进行分析。为了实现这一点，我尝试将电子邮件存储在云存储上，这样我就可以在它们上运行Hadoop作业。(早些时候我尝试过App Engine DataStore，但它很难扩展这么多用户数据:达到各种资源限制，等等)在云存储中存储一个电子邮件/文件或将用户的所有电子邮件存储在一个大文件中，哪个更好？在许多关于云存储的例子中，我看到人们在操作大文件，但似乎更符合逻辑的是保留一个文件/电子邮件。

浏览 3提问于2015-01-17得票数 0

1回答

使用distcp将数据从cloudera集群复制到google云hdfs集群

、、、、

我正在使用cloudera快速启动虚拟机。我昨天开始玩谷歌云平台。我正在尝试将cloudera hdfs中的数据复制到1. google云存储(gs://bucket_name/) 2. google云hdfs集群(使用hdfs://google_ copy _namenode:8020/) 我按照中的指示设置了服务帐户身份验证并配置了cloudera核心-site.xml hadoop :// -cp hdfs://quickstart.cloudera:8020/path_to_copy/ gs://-cp_name/ 效果很好。然而，我无法使用distcp复制到谷歌云存储。我

浏览 6提问于2016-04-27得票数 0

回答已采纳

1回答

使用Windows Azure for MapReduce的优势

、、

我正在尝试使用Hadoop开发一个可以在Windows Azure上运行的MapReduce应用程序。即:使用Windows Azure集群进行部署。我想知道与Amazon EC2、Google等其他云服务相比，使用Windows Azure有什么优势。任何帮助都将不胜感激。

浏览 1提问于2014-10-16得票数 0

1回答

基于Azure的Hadoop集群(HDInsight)如何转化为经典的前提下Hadoop集群？

、、

Apache被设计为运行在一堆商品机器(节点)上。这并不是设计用来在基于云的复杂场景中运行的。但是，由于云允许通过VM模拟单个节点，基于云的Hadoop集群应运而生。但这给我带来了理解上的困难。当我研究Hadoop集群的任何标准解释时，总是基于prem架构，因为所有Hadoop体系结构都是用逻辑和简单的on-prem视图来解释的。但这给理解基于云的集群是如何工作的带来了困难--特别是HDFS、数据局部性等概念。在解释的on版本中，每个节点都有自己的“本地”存储(这也意味着存储硬件是为特定节点修复的，它不会被洗牌)，而且也不会假设节点被删除。此外，我们将该存储作为节点本身的一部分，因此我们从不考

浏览 2提问于2020-09-30得票数 0

回答已采纳

1回答

在Hadoop中映射应用程序

、、、、

我有一个项目，涉及客户端和服务器。我用java开发了应用程序的两个部分，我想在hadoop集群中测试它，因为服务器端是一个云的模拟，所以通过使用hadoop，我想给我的应用程序一个真正的云环境感。首先，我创建了一个多节点Hadoop集群，但我不知道下一步该做什么，我希望有任何启发。

浏览 3提问于2013-08-11得票数 0

回答已采纳

3回答

如何在家里学习云计算和大数据？

、、

我想在家里学习云计算和大数据。在家用PC上学习这些技术是可能的吗？在云计算中应该学习哪些技术？学习大数据(Hadoop)的技术是什么？

浏览 0提问于2012-07-04得票数 15

回答已采纳

1回答

Hadoop可以像Dropbox或Google一样使用吗？

、、、、

我正在研究Hadoop和云存储。所以很奇怪，Hadoop能像Dropbox或者Google一样使用吗？

浏览 2提问于2017-05-02得票数 1

回答已采纳

1回答

Hadoop /减少来自我自己的Hadoop集群的云Bigtable作业

、、

在本文中，它在Google中创建了一个Hadoop集群，并连接到云bigtable集群。即使在本文中，它也使用Connection对象与BigTable集群通信。这是否意味着谷歌建议我们使用自定义的HBase客户端API来访问云BigTable上的数据？是否可以从我自己的Hadoop集群连接到云bigtable集群？我的Hadoop集群是在AWS中而不是在Google云中。

浏览 0提问于2015-07-22得票数 1

回答已采纳

1回答

谷歌云点击部署hadoop

、、、

为什么google cloud click to deploy hadoop工作流程需要选择本地持久磁盘的大小，即使您计划将hadoop连接器用于云存储？默认大小为500 GB。我在想，如果它确实需要一些磁盘，它的大小应该小得多。在google云中使用hadoop云存储连接器时，是否有推荐的持久化磁盘大小？ “在Google Cloud平台上部署Apache Hadoop Apache Hadoop框架支持跨计算机群集的大型数据集的分布式处理。 Hadoop将部署在单个集群中。默认部署创建1个主VM实例和2个工作VM，每个实例具有4个vCPU、15 GB内存和500 GB磁盘。创建一个临时部署

浏览 7提问于2014-11-23得票数 0

1回答

为什么不将数据留在HDFS中，

、、、

上一天，当我在coursera学习GCP课程时，他们提到，他们坚持我们不应将数据留在HDFS中，而是在完成任务后，我们应该复制它并坚持使用云存储，每次我们想启动一项工作时，我们应该再次将数据放在HDFS中并重复循环，所以我的问题如下：如果关闭hadoop集群，我们会丢失HDFS中的数据吗？为什么我们不应该将数据留在HDFS中？价格问题？谢谢

浏览 8提问于2020-01-21得票数 0

回答已采纳

2回答

openshif云计算配置，在云上可以完成吗？

、、、

有没有可能用RED的‘PaaS在云上构建一个大数据应用程序？我正在研究如何在云上构建一个使用Hadoop ( HDFS )，Spark，一个Apache Mahout的Scala应用程序，但我找不到任何关于它的东西。我已经看到了HortonWorks的一些东西，但不清楚如何在openshift环境中安装它，以及如何在云too.Is中添加HDFS节点使用OpneShift？这在亚马逊是可能的，但我的问题是:在OpenShift中是可能的吗？

浏览 1提问于2014-09-15得票数 0

1回答

在OpenStack之上的Hadoop，我得到了哪些额外的特性？

、、

我想为数据分析目的部署一个小型数据中心。我将主要从web应用程序中获取数据。我知道我可以设置hadoop集群并根据需要进行扩展。我还知道，OpenStack是一个免费的、开源的云计算软件平台，主要作为服务基础设施(IaaS)部署。然而，很明显，一些行业更喜欢在OpenStack (撒哈拉沙漠)之上的hadoop。因此，我想知道有或没有OpenStack的Hadoop的区别、优缺点。简单地说，如果我将Hadoop放在OpenStack之上，我会得到哪些额外的特性？

浏览 0提问于2015-12-18得票数 0

回答已采纳

1回答

将rdd从火花写入弹性搜索失败

、、、

我试图在2.4.0版本上为弹性云上的弹性搜索编写一对rdd。我正在使用elasticsearch-spark_2.10-2.4.0插件写到ES。下面是我为ES编写的代码： def predict_imgs(r): import json out_d = {} out_d["pid"] = r["pid"] out_d["other_stuff"] = r["other_stuff"] return (r["pid"], json.dumps(out_d)) res2 = res1.map

浏览 2提问于2016-11-11得票数 3

1回答

在何处查找并更新M/R配置文件

、

我们的Hadoop集群显示作业跟踪器进程会逐渐消耗内存，因此我们必须每周重新启动集群。我四处寻找可能的解决方案。其中一个帖子提到要将'mapred.jobtracker.completeuserjobs.maximum‘减少到5，所以我检查了name节点上/hadoop-install/conf目录下的mapred-site.xml，发现该参数有两个条目，一个设置为30，另一个设置为5，当我转到任何一个数据节点并检查mapred-site.xml时，我根本找不到该参数的设置。但是，当我在M/R管理页面上检查正在运行作业，并检查他们的作业文件时，它显示参数设置为100。我真的很困惑这个参

浏览 3提问于2015-01-31得票数 0

1回答

在私有OpenStack云上运行Hadoop最有效的方法是什么？

、

我想使用OpenStack上的Hadoop来完成工作负载特性。但是，我不知道如何让Hadoop在我可以访问的OpenStack云上运行。对于我来说，在私有OpenStack云上运行Hadoop最有效的方法是什么？我见过这个：我想知道是否有更简单的方法。

浏览 6提问于2014-01-30得票数 0

回答已采纳

1回答

如何使用GCP免费信用来部署Hadoop？

、

如何使用测试Hadoop集群？如果我尝试这个，最重要的事情是什么？在免费谷歌云平台试用期间，我会被收费吗？

浏览 4提问于2015-07-13得票数 0

回答已采纳

3回答

PHP与Hadoop/MapReduce实现中的其他语言，以及云中的一般语言

、、、、

我开始学习一些Hadoop/MapReduce，主要来自PHP背景，以及一些Java和Python。但是，似乎大多数MapReduce的实现都是用Java、Ruby、C++或python语言实现的。我已经看过了，看起来PHP中有一些Hadoop/MapReduce，但绝大多数文献似乎都致力于这四种语言。在涉及Hadoop/MapReduce的云计算项目中，为什么PHP是第二类语言，有什么好的理由吗？考虑到在云计算世界之外，PHP似乎是其最受支持的语言，这一点特别令人惊讶，这损害了上述3种(无C++)语言。如果这是任意的--如果PHP和Python一样擅长处理这些操作，那么我应该研究哪些

浏览 0提问于2010-06-25得票数 3

回答已采纳

1回答

在公共云中设置Hadoop

、

作为我大学项目的一部分，我想修改Hadoop的源代码。然而，问题是我至少需要20个系统来测试它。是否可以在Google Cloud platform或Amazon Services等公共云中设置此Hadoop的修改版本?您能给我介绍一下要遵循的步骤吗?我只能在公有云设置中找到有关设置原始Hadoop版本的信息。我找不到任何与我的case.Please相关的信息，请帮帮我。

浏览 2提问于2014-04-07得票数 0

1回答

从Windows访问Hadoop云服务

、、、

我是hadoop的新手。我正在使用雅虎提供的Linux，因为我不允许在我的机器上安装操作系统。我需要利用云服务，并且必须在hadoop相关项目上工作。几天前，就提供了这些服务。但现在它已经成为我用Java开发的MapReduce程序的付费one.Moreover。当我在谷歌上搜索"Hadoop & Cloud“时，大多数时候我得到的是。但为了访问它，他们要求，因为我是在基于windows的平台上工作，但我无法解决它。我也查了。但它也是付费的。我认为云访问就像是使用MSTSC的IP连接云一样。但事实并非如此。我需要在windows的云环境中使用hadoop。我如何做th

浏览 4提问于2013-04-01得票数 2

1回答

从Hadoop到传输数据时如何加快distcp

、、、、

google为使用Hadoop提供了连接器。() 使用连接器，我从hdfs接收数据到google云存储。 (前) hadoop discp hdfs://${path} gs://${path} 但是数据太大(16 too )，接收速度只有2mb/s。因此，我尝试更改设置distcp ( map属性、带带属性.)。但是速度是一样的。 HDFS到传输数据时如何加快分发速度

浏览 4提问于2017-03-23得票数 2

回答已采纳

2回答

如何在hadoop配置中使用amazon实例的公共in？

、、、、

我试图通过使用amazon实例的公共is来配置Hadoop，而不是使用网络内部的is，因为我的目标是创建一个混合集群，即云+本地机器集群。尽管所有ssh设置都很好，但当使用amazon公共is时，Hadoop仍然无法连接( datanodes找不到namenode)。我在hbase的动物园管理员配置中使用了amazon实例的公共IP，并将其正确地连接到它。那么，为什么HBase连接而Hadoop不连接呢？卡夫卡也有同样的问题。

浏览 4提问于2016-02-09得票数 0

回答已采纳

1回答

对于Hadoop，选择哪种数据存储，亚马逊S3还是Azure Blob Store？

、、、

我正在从事一个Hadoop项目，并在我的本地集群中生成大量数据。不久之后，我将使用基于云的Hadoop解决方案，因为与实际工作负载相比，我的Hadoop集群非常小，但是到目前为止，我还没有选择我将使用哪一个，即基于Windows Azure、EMR或其他什么。我在本地生成了大量数据，并希望将这些数据存储到一些基于云的存储中，因为我稍后将在Hadoop中使用这些数据，但很快就会使用这些数据。我正在寻找建议，以决定根据某人的经验选择哪个云商店。提前谢谢。

浏览 0提问于2012-05-08得票数 2

回答已采纳

1回答

与java一起使用的Map-减少库和/或平台

、、、

我最近读到和听到了一些关于云计算和地图还原技术的东西。我正在考虑玩一些算法，以获得该领域的实际经验，看看什么是可能的，现在。这里是我想要做的:我想使用一些公共云平台(例如Google、Google、Amazon、Amazon )，这是内置的地图减少功能提供的，或者如果没有内置的支持，则使用额外的map Reduce libary (例如Hadoop、Hive)，并实现/部署一些算法。有没有人在这一领域取得了一些经验，并指出了一个好的开始点？或者说出一些在实践中效果良好的组合？提前感谢！

浏览 1提问于2010-02-05得票数 2

回答已采纳

1回答

Hadoop在数据放在datanodes之前是否有多个本地临时文件位置？

、、

我想我了解Hadoop架构和结构的基本知识。我想知道，进入Hadoop集群的所有数据都必须通过相同的本地临时文件位置吗？在将数据写入datanode之前，我会得到它被缓存在本地临时文件位置中。这是每个namenode的一个文件位置吗?在namenode为每个namenode指定要存储在哪个datanode之前，是否存储到集群中的所有数据(可能来自多个上载)？或者Hadoop甚至可以处理来自不同位置的多个同步上传(例如，多台计算机将不同的大文件上传到基于云的Hadoop集群) 请帮助我在任何地方找不到这些信息

浏览 4提问于2015-01-09得票数 0

回答已采纳

1回答

如何将存储在另一个(非分布式)服务器上的HDFS文件中的数据存档？

、、、

我有一个项目文件夹，其中包含大约。50 GB (non-distributed hadoop集群(CDH5.14)上的文件，我需要归档和将移动到<code>E 110</code>另一个主机<code>E 211</code>或Linux中)。这只是一次作业--我不打算很快将数据带回HDFS，但是应该有一种方法将其部署回到分布式文件系统。做这件事的最佳方法是什么？不幸的是，我没有另一个hadoop集群或云环境来放置这些数据。如果有任何提示，我将不胜感激。

浏览 4提问于2019-10-07得票数 0

1回答

获取hadoop ChecksumException:校验和错误

、、

我们正在尝试将文件从本地复制到hadoop。但偶尔会得到： org.apache.hadoop.fs.ChecksumException: Checksum error: /crawler/twitcher/tmp/twitcher715632000093292278919867391792973804/Televisions_UK.20120912 at 0 at org.apache.hadoop.fs.FSInputChecker.verifySum(FSInputChecker.java:277) at org.apache.hadoop.fs.FSInputCheck

浏览 0提问于2012-09-18得票数 0

回答已采纳

1回答

在hadoop和mapreduce上运行R脚本

、、、、

我有一个R-脚本，可以使用大量的tweet，我希望在相同的数据上使用相同的脚本，但是保存在Hadoop文件系统中。根据 Hortonworks教程，我可以用我的HDFS中的数据来使用R代码，但还不太清楚。我可以使用完全相同的R -脚本，利用mapreduce范例，使用这个革命R吗？我应该修改我的代码，还是有一种方法可以执行为Hadoop体系结构优化的相同功能？我的愿望是在一个标准的write (如standard )上编写我的代码，然后在我的云服务(比如Microsoft )上使用它，或者大部分使用它，并在基础上使用mapreduce。

浏览 2提问于2016-05-30得票数 2

回答已采纳

1回答

将文件从Google云存储加载到本地Hadoop集群

、、

我正在尝试将Google Cloud Storage文件加载到本地Hadoop集群。我开发了一个变通方法(程序)，将本地EdgeNode和distcp上的文件下载到Hadoop。但这似乎是双向的解决办法，并不是很令人印象深刻。我已经通过一些网站(，)总结了使用Hadoop谷歌云存储连接器进行这种过程，并需要基础设施级别的配置，这不是在所有情况下都可能的。有没有办法使用Python或Java以编程方式将文件从云存储直接复制到Hadoop。

浏览 0提问于2018-06-15得票数 1

1回答

通用starter Hadoop/ Spark fiware-cosmos问题

、、

我有一些关于固件的一般性问题-宇宙，如果它们是基本的，很抱歉，但我正在努力了解宇宙的架构和使用。我看到你正计划将Apache Spark整合到Cosmos中？你有实现这一目标的路线图或日期吗？如果我现在想使用Spark，会发生什么？可以使用哪些Hadoop服务源？我想我读到Cosmos支持Cloudera CDH服务和原始Hadoop服务器服务？那么HortonWorks或MapR呢？我知道非标准文件系统可以与Hadoop一起使用，例如MapR-FS，这样的选项在Cosmos中可能吗？我还读到Cosmos“坐”在fiware之上，因此Hadoop as a service (HaaS)

浏览 7提问于2016-05-27得票数 1

3回答

“分布式计算”一般如何应用于web开发或编程？

我即将使用Apache Hadoop，标题如下： Apache项目为可靠的、可扩展的分布式计算开发开源软件. 我可以将“可伸缩性”与编程联系起来，但我只是不知道这种“分发”如何帮助我的开发。根据维基百科：分布式系统由多台自治计算机组成，通过计算机网络进行通信。为了达到一个共同的目标，计算机相互作用。那么，这是否意味着我可以在多台计算机上部署我的网络应用程序，并进行某种“密集计算”？在我脑海中出现的术语是内容交付网络和云计算。

浏览 9提问于2010-12-15得票数 1

回答已采纳

4回答

MongoDB是存储大量文本文件的好选择吗？

我目前正在构建一个系统(用GCP)来存储关于不同主题的不同大小(1kb~100 of )的大量文本文件。一个文件集可能超过10 be。例如： dataset_about_some_subject/ - file1.txt - file2.txt ... dataset_about_another_subject/ - file1.txt - file2.txt ... 这些文件用于NLP，在预处理后，由于预处理后的数据是单独保存的，因此不会经常访问.因此，在MongoDB中保存所有文件似乎是不必要的。我在考虑将所有文件保存到云存储中，将MongoDB的名称和路径等文件信息保存

浏览 7提问于2020-07-01得票数 0

回答已采纳

1回答

将数据从cloudera hdfs复制到云存储中

、、、、

我试图在hdfs和gcp云存储之间复制数据。这不是一次数据复制。第一次复制后，我希望只复制新文件，更新文件。如果文件在on上被删除，那么它也应该从云存储中删除。然而，我意识到，当目标是云时，基于快照差异的复制不能工作。这样的同步还可以吗？ -update标志似乎不适用于云存储。它复制所有文件，即使对其没有任何更改。命令 hadoop distcp --conf hdfs.conf -update -delete hdfs:///tmp/test_distcp gs://onpremhadoopfiles-123/ 带有快照diff的命令 hadoop distcp --conf test

浏览 16提问于2022-07-29得票数 0

1回答

云计算中Hadoop的数据局部性

、、、

目前，Hadoop通过将任务分配给包含数据的节点或接近该节点的节点(例如相同的机架)来实现数据局部性。但是，我想知道是否可以将相同的概念应用于部署在一组虚拟机上的云计算中，因为有关物理层的信息，例如哪些物理机器当前承载了这些VM，可能是不可用的。

浏览 5提问于2014-01-21得票数 2

回答已采纳

2回答

为什么Hadoop在云(多节点集群)上的工作速度比普通pc慢？

、、、、

我正在使用云Dataproc作为我的研究的云服务。在这个平台(云)上运行Hadoop和same作业比在低容量虚拟机上运行同一作业要慢一些。我在云上运行我的Hadoop作业(每个集群的内存为7.5gb，磁盘为50 3gb )，运行时间为4分钟49秒，而在具有3GB RAM和27 3gb磁盘的单节点虚拟机(我的pc)上，相同的工作花费了3min20秒。为什么云中多节点聚类的结果比普通pc要慢呢？

浏览 7提问于2017-09-06得票数 0

回答已采纳

1回答

在GCP上的Flink方案: gs没有FileSystem

、、、

我一直试图在GCP ()上使用Flink，但谷歌云存储访问存在一个问题。所以，我遵循了这里解释的步骤() 所以，我创造了一个码头形象，比如； ARG GCS_CONNECTOR_VERSION=latest-hadoop2 ARG FLINK_HADOOP_VERSION=2.8.3-10.0 ARG GCS_CONNECTOR_NAME=gcs-connector-${GCS_CONNECTOR_VERSION}.jar ARG GCS_CONNECTOR_URI=https://storage.googleapis.com/hadoop-lib/gcs/${GCS_CONNECTOR_

浏览 12提问于2022-08-03得票数 1

1回答

群集帐户和存储帐户的microsoft azure差异

、、

我正在向学习。它要求创建一个新的hdinsight集群(选项是hadoop、hbase、风暴或火花)以及一个存储帐户。集群和存储帐户之间有什么区别？集群是否包括处理作业的处理器，以及存储帐户是否意味着存储数据的空间？为什么我不能用不同的集群连接相同的存储帐户？同样在Microsoft >> New >> data + Analytics下，我看到了两个选项: hdinsight，处理大数据的数据湖分析。那两个有什么区别呢？他们俩看起来都很像 HDInsight微软的基于云的大数据服务。Apache和其他流行的大数据解决方案。数据湖分析大数据分析容易

浏览 5提问于2016-03-18得票数 3

2回答

Hadoop配置错误

、

我试图在局域网上运行 Hadoop的多节点集群。我以namenode和datanode的身份运行我的主节点。另一台机器为datanode 当我从主人那里启动hadoop，并在主从上做jps时，我得到了 master > NameNode DataNode SecondaryNameNode JobTracker TaskTracker Jps 在奴隶身上 slave > DataNode TaskTracker Jps 但过了一段时间我就明白了 slav

浏览 1提问于2013-08-21得票数 0

回答已采纳

1回答

使用hadoop FileSystem api访问google云存储

、

在我的机器上，我将hadoop core-site.xml配置为识别gs://方案，并将GCS-连接器-1.2.8.jar添加为Hadoop。我可以运行hadoop fs -ls gs://mybucket/并获得预期的结果。但是，如果我尝试使用以下方法从java进行模拟： Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(conf); FileStatus[] status = fs.listStatus(new Path("gs://mybucket/")); 我在本地HDFS中

浏览 3提问于2015-11-06得票数 2

回答已采纳

1回答

在上写入HDFS/GS所需的最低设置是什么？

、、、

我想把数据从水槽写入。这有点复杂，因为我观察到了一种非常奇怪的行为。让我解释一下：引言我已经在google云上启动了一个hadoop集群(一次点击)，设置为使用一个桶。当我在主服务器上ssh并使用hdfs命令添加一个文件时，我可以立即在桶中看到它 $ hadoop fs -ls / 14/11/27 15:01:41 INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.2.9-hadoop2 Found 1 items -rwx------ 3 hadoop hadoop 40 2014-11-27 13:45 /

浏览 0提问于2014-11-27得票数 0

回答已采纳

1回答

云上的BigData (天青)

、、、、

我已经实现了生产大数据解决方案，主要是在使用Hadoop和NoSQL产品的前提下实现的，但从未在云上实现过。今天，我需要变成云，因此我想知道云上的BigData (主要是天蓝色)的已知实现(生产，而不仅仅是POCs)是什么：完全PaaS解决方案: EMR/HDINSIGHT +S3/AzureBlob(或Azure Datalake) + Kenesis/Azure事件中心全IaaS分布(CDH，HDP)：Cloudera或Hortonworks On IaaS + Kafka On IaaS 混合PaaS + IaaS : S3/AzureBlob上的冷数据，IaaS Ha

浏览 1提问于2018-08-23得票数 0

回答已采纳

3回答

Hadoop与Nosql的区别

、

我想知道hadoop和nosql之间的基本区别。什么是Hadoop的需要？ NoSQL的需求是什么？都是一样的？

浏览 6提问于2012-09-13得票数 16

1回答

HDFS数据节点可以是抽象的吗？

、、

HDFS中是否可以使用抽象数据节点？例如，如果我想运行Hadoop，但不是在硬件上运行，而是在某种软件、云等上运行，有没有允许这样做的API？有没有提供这种功能的Hadoop的替代方案？

浏览 3提问于2018-03-17得票数 0

1回答

运行hadoop集群时，在Google Cloud平台上获取“sudo:未知用户:hadoop”和“sudo: unable to initialize policy plugin error”

、、、、

我正在尝试在谷歌云平台上的上部署谷歌提供的示例Hadoop应用程序。我一步一步地遵循了那里给出的所有设置说明。我成功地设置了环境并启动了集群。但我无法运行MapReduce部件。我在我的终端上执行这个命令： ./compute_cluster_for_hadoop.py mapreduce <project ID> <bucket name> [--prefix <prefix>] --input gs://<input directory on Google Cloud Storage> \ --output gs://<output

浏览 31提问于2014-11-04得票数 2

回答已采纳

2回答

扫描hbase时Map任务卡住

、、

我正在运行Map reduce，它将扫描hbase并收集所需的数据。hadoop有7TB的数据，还有10TB的空闲空间。HBase中有大约2亿条记录。在完成99.44%后扫描HBase时，5个map任务仍处于运行状态，完成率为0.0%。这些过程根本不会被尝试。它会永远保持这种状态。因此，我的MR根本没有完成。当在我的本地机器上指向一个小表运行这个MR时，它运行良好。有没有什么好主意，为什么卡住了，怎么解决？提前感谢我在Job tracker日志中注意到异常 2012-03-27 13:27:56,117 INFO org.apache.hadoop.mapred.JobInProgress:

浏览 1提问于2012-03-27得票数 0

回答已采纳

3回答

为Hadoop practice创建或获取环境

、、、

我已经开始阅读有关hadoop的文章。我也想学习实践。由于hadoop是分布式环境，并被设计为在linux上运行，因此我不能在运行windows的本地计算机上实践它。互联网上有没有云或虚拟机，我可以自己搭建整个环境并开始学习？我可以预先配置hadoop集群，但我更喜欢自己配置。

浏览 0提问于2014-08-15得票数 0

1回答

Hadoop:面向多用户的伪分布式模式

我感谢你提前提供帮助。我已经使用root用户凭据在伪分布式模式下设置Hadoop。我希望提供对多个用户(比如hadoop1、hadoop2等)的访问，以便能够在这个集群上提交和运行MapReduce作业。我们怎么做这件事？到目前为止我做了什么？ > - Setup Hadoop to run in Pseudo-distributed mode > - Used "root" user credentials to set this up. > - Added users hadoop1 and hadoop2 to a group called "

浏览 3提问于2013-11-25得票数 1

回答已采纳

1回答

Hadoop1.2.1-多节点集群-减少器相位挂起用于字计数程序？

、、、

我的问题在这里听起来可能是多余的，但前面问题的解决办法都是临时的。我几乎没有试过，但还没有运气。实际上，我正在使用Hadoop-1.2.1(在ubuntu 14上)，最初我有，在那里我成功地运行了程序。然后，根据教程，我又给它添加了一个节点。它成功地启动了，没有任何错误，但是现在当我运行相同的WordCount程序时，它正处于还原阶段。我查看了任务跟踪器日志，它们如下所示： INFO org.apache.hadoop.mapred.TaskTracker: LaunchTaskAction (registerTask): attempt_201509110037_0001_m_000002

浏览 1提问于2015-09-10得票数 1

回答已采纳

1回答