云计算hadoop关系_hadoop与云计算的关系_云计算hadoop - 腾讯云开发者社区

、

和MapReduce一样吗？听说Hadoop是做大数据并行计算的框架，这种跟“云计算“有什么区别？

浏览 698提问于2017-09-28

1回答

hadoop命令为什么不能在google云shell上工作

、、

在谷歌DataProc中为我的项目创建集群之后，我尝试为Hadoop键入几个命令(比如hadoop fs -ls)。不幸的是，云外壳完全没有看到Hadoop！ -bash: hadoop:命令未找到堆叠溢出的人说： “它不能在Cloud中工作，因为它没有预装Hadoop实用程序。但我不知道如何安装或者激活它。也许是通过集群创建，但是通过dataproc创建集群却有问题。我是通过云shell来做的。如何正确使用云shell中的Hadoop命令？

浏览 2提问于2021-09-19得票数 0

1回答

使用distcp将数据从cloudera集群复制到google云hdfs集群

、、、、

我正在使用cloudera快速启动虚拟机。我昨天开始玩谷歌云平台。我正在尝试将cloudera hdfs中的数据复制到1. google云存储(gs://bucket_name/) 2. google云hdfs集群(使用hdfs://google_ copy _namenode:8020/) 我按照中的指示设置了服务帐户身份验证并配置了cloudera核心-site.xml hadoop :// -cp hdfs://quickstart.cloudera:8020/path_to_copy/ gs://-cp_name/ 效果很好。然而，我无法使用distcp复制到谷歌云存储。我

浏览 6提问于2016-04-27得票数 0

回答已采纳

1回答

基于Azure的Hadoop集群(HDInsight)如何转化为经典的前提下Hadoop集群？

、、

Apache被设计为运行在一堆商品机器(节点)上。这并不是设计用来在基于云的复杂场景中运行的。但是，由于云允许通过VM模拟单个节点，基于云的Hadoop集群应运而生。但这给我带来了理解上的困难。当我研究Hadoop集群的任何标准解释时，总是基于prem架构，因为所有Hadoop体系结构都是用逻辑和简单的on-prem视图来解释的。但这给理解基于云的集群是如何工作的带来了困难--特别是HDFS、数据局部性等概念。在解释的on版本中，每个节点都有自己的“本地”存储(这也意味着存储硬件是为特定节点修复的，它不会被洗牌)，而且也不会假设节点被删除。此外，我们将该存储作为节点本身的一部分，因此我们从不考

浏览 2提问于2020-09-30得票数 0

回答已采纳

3回答

如何在家里学习云计算和大数据？

、、

我想在家里学习云计算和大数据。在家用PC上学习这些技术是可能的吗？在云计算中应该学习哪些技术？学习大数据(Hadoop)的技术是什么？

浏览 0提问于2012-07-04得票数 15

回答已采纳

1回答

在Hadoop中映射应用程序

、、、、

我有一个项目，涉及客户端和服务器。我用java开发了应用程序的两个部分，我想在hadoop集群中测试它，因为服务器端是一个云的模拟，所以通过使用hadoop，我想给我的应用程序一个真正的云环境感。首先，我创建了一个多节点Hadoop集群，但我不知道下一步该做什么，我希望有任何启发。

浏览 3提问于2013-08-11得票数 0

回答已采纳

1回答

Hadoop可以像Dropbox或Google一样使用吗？

、、、、

我正在研究Hadoop和云存储。所以很奇怪，Hadoop能像Dropbox或者Google一样使用吗？

浏览 2提问于2017-05-02得票数 1

回答已采纳

1回答

在Google Cloud Storage中存储1封电子邮件/文件还是在一个大文件中存储多封电子邮件更好？

我正在尝试对一些用户的电子邮件进行分析。为了实现这一点，我尝试将电子邮件存储在云存储上，这样我就可以在它们上运行Hadoop作业。(早些时候我尝试过App Engine DataStore，但它很难扩展这么多用户数据:达到各种资源限制，等等)在云存储中存储一个电子邮件/文件或将用户的所有电子邮件存储在一个大文件中，哪个更好？在许多关于云存储的例子中，我看到人们在操作大文件，但似乎更符合逻辑的是保留一个文件/电子邮件。

浏览 3提问于2015-01-17得票数 0

1回答

如何在java的Storm Bolt中使用Hadoop FS API

、

我想将数据存储在由Spout发出的hdfs中。我在Bolt类中添加了hadoop代码，但它正在引发编译错误。以下是风暴螺栓级： package bolts; import java.io.*; import java.util.*; import java.net.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*;

浏览 0提问于2013-03-21得票数 0

1回答

谷歌云点击部署hadoop

、、、

为什么google cloud click to deploy hadoop工作流程需要选择本地持久磁盘的大小，即使您计划将hadoop连接器用于云存储？默认大小为500 GB。我在想，如果它确实需要一些磁盘，它的大小应该小得多。在google云中使用hadoop云存储连接器时，是否有推荐的持久化磁盘大小？ “在Google Cloud平台上部署Apache Hadoop Apache Hadoop框架支持跨计算机群集的大型数据集的分布式处理。 Hadoop将部署在单个集群中。默认部署创建1个主VM实例和2个工作VM，每个实例具有4个vCPU、15 GB内存和500 GB磁盘。创建一个临时部署

浏览 7提问于2014-11-23得票数 0

2回答

openshif云计算配置，在云上可以完成吗？

、、、

有没有可能用RED的‘PaaS在云上构建一个大数据应用程序？我正在研究如何在云上构建一个使用Hadoop ( HDFS )，Spark，一个Apache Mahout的Scala应用程序，但我找不到任何关于它的东西。我已经看到了HortonWorks的一些东西，但不清楚如何在openshift环境中安装它，以及如何在云too.Is中添加HDFS节点使用OpneShift？这在亚马逊是可能的，但我的问题是:在OpenShift中是可能的吗？

浏览 1提问于2014-09-15得票数 0

1回答

在OpenStack之上的Hadoop，我得到了哪些额外的特性？

、、

我想为数据分析目的部署一个小型数据中心。我将主要从web应用程序中获取数据。我知道我可以设置hadoop集群并根据需要进行扩展。我还知道，OpenStack是一个免费的、开源的云计算软件平台，主要作为服务基础设施(IaaS)部署。然而，很明显，一些行业更喜欢在OpenStack (撒哈拉沙漠)之上的hadoop。因此，我想知道有或没有OpenStack的Hadoop的区别、优缺点。简单地说，如果我将Hadoop放在OpenStack之上，我会得到哪些额外的特性？

浏览 0提问于2015-12-18得票数 0

回答已采纳

1回答

使用Windows Azure for MapReduce的优势

、、

我正在尝试使用Hadoop开发一个可以在Windows Azure上运行的MapReduce应用程序。即:使用Windows Azure集群进行部署。我想知道与Amazon EC2、Google等其他云服务相比，使用Windows Azure有什么优势。任何帮助都将不胜感激。

浏览 1提问于2014-10-16得票数 0

1回答

将rdd从火花写入弹性搜索失败

、、、

我试图在2.4.0版本上为弹性云上的弹性搜索编写一对rdd。我正在使用elasticsearch-spark_2.10-2.4.0插件写到ES。下面是我为ES编写的代码： def predict_imgs(r): import json out_d = {} out_d["pid"] = r["pid"] out_d["other_stuff"] = r["other_stuff"] return (r["pid"], json.dumps(out_d)) res2 = res1.map

浏览 2提问于2016-11-11得票数 3

3回答

Neo4j或GraphX /GraphX选择哪个？

、、

刚刚开始我对图形处理方法和工具的研究。我们主要做的是-计算一些标准指标，如pagerank，聚类系数，三角形计数，直径，连通性等。在过去，我们对Octave很满意，但当我们开始处理具有10^9个节点/边的图时，我们就卡住了。因此，可能的解决方案可以是分布式云，使用Hadoop/Giraph、Spark/GraphX、Neo4j等。但是，由于我是一个初学者，有人能给我一些建议吗？我不知道什么时候使用Spark/GraphX和什么时候使用Neo4j？现在我考虑Spark/GraphX，因为它有更多类似Python的语法，而neo4j有自己的Cypher。neo4j中的可视化很酷，但在如此大的规

浏览 6提问于2015-02-19得票数 21

1回答

在何处查找并更新M/R配置文件

、

我们的Hadoop集群显示作业跟踪器进程会逐渐消耗内存，因此我们必须每周重新启动集群。我四处寻找可能的解决方案。其中一个帖子提到要将'mapred.jobtracker.completeuserjobs.maximum‘减少到5，所以我检查了name节点上/hadoop-install/conf目录下的mapred-site.xml，发现该参数有两个条目，一个设置为30，另一个设置为5，当我转到任何一个数据节点并检查mapred-site.xml时，我根本找不到该参数的设置。但是，当我在M/R管理页面上检查正在运行作业，并检查他们的作业文件时，它显示参数设置为100。我真的很困惑这个参

浏览 3提问于2015-01-31得票数 0

1回答

如何将50 it的RDBMS数据迁移到hadoop中并进行处理？使用hadoop处理50 by数据的最低硬件要求是什么？

、

如何将50 it的RDBMS数据迁移到hadoop中并进行处理？使用hadoop处理50 by数据的最低硬件要求是什么？

浏览 16提问于2019-06-25得票数 0

回答已采纳

1回答

Hadoop /减少来自我自己的Hadoop集群的云Bigtable作业

、、

在本文中，它在Google中创建了一个Hadoop集群，并连接到云bigtable集群。即使在本文中，它也使用Connection对象与BigTable集群通信。这是否意味着谷歌建议我们使用自定义的HBase客户端API来访问云BigTable上的数据？是否可以从我自己的Hadoop集群连接到云bigtable集群？我的Hadoop集群是在AWS中而不是在Google云中。

浏览 0提问于2015-07-22得票数 1

回答已采纳

1回答

如何使用GCP免费信用来部署Hadoop？

、

如何使用测试Hadoop集群？如果我尝试这个，最重要的事情是什么？在免费谷歌云平台试用期间，我会被收费吗？

浏览 4提问于2015-07-13得票数 0

回答已采纳

1回答

对于Hadoop，选择哪种数据存储，亚马逊S3还是Azure Blob Store？

、、、

我正在从事一个Hadoop项目，并在我的本地集群中生成大量数据。不久之后，我将使用基于云的Hadoop解决方案，因为与实际工作负载相比，我的Hadoop集群非常小，但是到目前为止，我还没有选择我将使用哪一个，即基于Windows Azure、EMR或其他什么。我在本地生成了大量数据，并希望将这些数据存储到一些基于云的存储中，因为我稍后将在Hadoop中使用这些数据，但很快就会使用这些数据。我正在寻找建议，以决定根据某人的经验选择哪个云商店。提前谢谢。

浏览 0提问于2012-05-08得票数 2

回答已采纳

1回答

在私有OpenStack云上运行Hadoop最有效的方法是什么？

、

我想使用OpenStack上的Hadoop来完成工作负载特性。但是，我不知道如何让Hadoop在我可以访问的OpenStack云上运行。对于我来说，在私有OpenStack云上运行Hadoop最有效的方法是什么？我见过这个：我想知道是否有更简单的方法。

浏览 6提问于2014-01-30得票数 0

回答已采纳

1回答

ApacheSpark3.1.2无法通过记录在案的星星之火-hadoop云从S3读取

、、

火花修改建议使用spark-hadoop-cloud从S3中读取/写入。没有apache星星之火发布的星星之火-hadoop.然后，当尝试使用Cloudera发布模块时，会出现以下异常 Exception in thread "main" java.lang.NoSuchMethodError: 'void com.google.common.base.Preconditions.checkArgument(boolean, java.lang.String, java.lang.Object, java.lang.Object)' at org.apache

浏览 4提问于2021-10-06得票数 0

回答已采纳

3回答

Hadoop与Nosql的区别

、

我想知道hadoop和nosql之间的基本区别。什么是Hadoop的需要？ NoSQL的需求是什么？都是一样的？

浏览 6提问于2012-09-13得票数 16

2回答

你能用hadoop做什么，这是不可能的，或者很难用蜂巢做的？

、

我对Hadoop和Hive相当陌生，我想要一个例子，说明使用Hadoop可以很容易地完成一些事情，但是对于这个例子来说，蜂箱并不适合。

浏览 3提问于2014-01-17得票数 0

回答已采纳

1回答

从Windows访问Hadoop云服务

、、、

我是hadoop的新手。我正在使用雅虎提供的Linux，因为我不允许在我的机器上安装操作系统。我需要利用云服务，并且必须在hadoop相关项目上工作。几天前，就提供了这些服务。但现在它已经成为我用Java开发的MapReduce程序的付费one.Moreover。当我在谷歌上搜索"Hadoop & Cloud“时，大多数时候我得到的是。但为了访问它，他们要求，因为我是在基于windows的平台上工作，但我无法解决它。我也查了。但它也是付费的。我认为云访问就像是使用MSTSC的IP连接云一样。但事实并非如此。我需要在windows的云环境中使用hadoop。我如何做th

浏览 4提问于2013-04-01得票数 2

1回答

与java一起使用的Map-减少库和/或平台

、、、

我最近读到和听到了一些关于云计算和地图还原技术的东西。我正在考虑玩一些算法，以获得该领域的实际经验，看看什么是可能的，现在。这里是我想要做的:我想使用一些公共云平台(例如Google、Google、Amazon、Amazon )，这是内置的地图减少功能提供的，或者如果没有内置的支持，则使用额外的map Reduce libary (例如Hadoop、Hive)，并实现/部署一些算法。有没有人在这一领域取得了一些经验，并指出了一个好的开始点？或者说出一些在实践中效果良好的组合？提前感谢！

浏览 1提问于2010-02-05得票数 2

回答已采纳

1回答

如何将存储在另一个(非分布式)服务器上的HDFS文件中的数据存档？

、、、

我有一个项目文件夹，其中包含大约。50 GB (non-distributed hadoop集群(CDH5.14)上的文件，我需要归档和将移动到<code>E 110</code>另一个主机<code>E 211</code>或Linux中)。这只是一次作业--我不打算很快将数据带回HDFS，但是应该有一种方法将其部署回到分布式文件系统。做这件事的最佳方法是什么？不幸的是，我没有另一个hadoop集群或云环境来放置这些数据。如果有任何提示，我将不胜感激。

浏览 4提问于2019-10-07得票数 0

1回答

在hadoop和mapreduce上运行R脚本

、、、、

我有一个R-脚本，可以使用大量的tweet，我希望在相同的数据上使用相同的脚本，但是保存在Hadoop文件系统中。根据 Hortonworks教程，我可以用我的HDFS中的数据来使用R代码，但还不太清楚。我可以使用完全相同的R -脚本，利用mapreduce范例，使用这个革命R吗？我应该修改我的代码，还是有一种方法可以执行为Hadoop体系结构优化的相同功能？我的愿望是在一个标准的write (如standard )上编写我的代码，然后在我的云服务(比如Microsoft )上使用它，或者大部分使用它，并在基础上使用mapreduce。

浏览 2提问于2016-05-30得票数 2

回答已采纳

1回答

将文件从Google云存储加载到本地Hadoop集群

、、

我正在尝试将Google Cloud Storage文件加载到本地Hadoop集群。我开发了一个变通方法(程序)，将本地EdgeNode和distcp上的文件下载到Hadoop。但这似乎是双向的解决办法，并不是很令人印象深刻。我已经通过一些网站(，)总结了使用Hadoop谷歌云存储连接器进行这种过程，并需要基础设施级别的配置，这不是在所有情况下都可能的。有没有办法使用Python或Java以编程方式将文件从云存储直接复制到Hadoop。

浏览 0提问于2018-06-15得票数 1

1回答

通用starter Hadoop/ Spark fiware-cosmos问题

、、

我有一些关于固件的一般性问题-宇宙，如果它们是基本的，很抱歉，但我正在努力了解宇宙的架构和使用。我看到你正计划将Apache Spark整合到Cosmos中？你有实现这一目标的路线图或日期吗？如果我现在想使用Spark，会发生什么？可以使用哪些Hadoop服务源？我想我读到Cosmos支持Cloudera CDH服务和原始Hadoop服务器服务？那么HortonWorks或MapR呢？我知道非标准文件系统可以与Hadoop一起使用，例如MapR-FS，这样的选项在Cosmos中可能吗？我还读到Cosmos“坐”在fiware之上，因此Hadoop as a service (HaaS)

浏览 7提问于2016-05-27得票数 1

2回答

用SBT脱机解析org.apache.hadoop依赖的错误

、、、、

我试图冻结一个火花项目的依赖，使其能够离线工作(sbt无法再下载依赖项)。这就是我所遵循的过程：创建sbt项目并使用internet连接进行编译停止互联网连接验证项目是否继续编译。重复SBT项目并删除目标文件夹告诉Build.sbt文件解析/. the 2/cache文件夹中的依赖项这是build.sbt： name := "Test" version := "1.0" scalaVersion := "2.10.4" libraryDependencies += "org.apache.sp

浏览 3提问于2015-07-22得票数 3

1回答

将数据从cloudera hdfs复制到云存储中

、、、、

我试图在hdfs和gcp云存储之间复制数据。这不是一次数据复制。第一次复制后，我希望只复制新文件，更新文件。如果文件在on上被删除，那么它也应该从云存储中删除。然而，我意识到，当目标是云时，基于快照差异的复制不能工作。这样的同步还可以吗？ -update标志似乎不适用于云存储。它复制所有文件，即使对其没有任何更改。命令 hadoop distcp --conf hdfs.conf -update -delete hdfs:///tmp/test_distcp gs://onpremhadoopfiles-123/ 带有快照diff的命令 hadoop distcp --conf test

浏览 16提问于2022-07-29得票数 0

1回答

云计算中Hadoop的数据局部性

、、、

目前，Hadoop通过将任务分配给包含数据的节点或接近该节点的节点(例如相同的机架)来实现数据局部性。但是，我想知道是否可以将相同的概念应用于部署在一组虚拟机上的云计算中，因为有关物理层的信息，例如哪些物理机器当前承载了这些VM，可能是不可用的。

浏览 5提问于2014-01-21得票数 2

回答已采纳

2回答

为什么Hadoop在云(多节点集群)上的工作速度比普通pc慢？

、、、、

我正在使用云Dataproc作为我的研究的云服务。在这个平台(云)上运行Hadoop和same作业比在低容量虚拟机上运行同一作业要慢一些。我在云上运行我的Hadoop作业(每个集群的内存为7.5gb，磁盘为50 3gb )，运行时间为4分钟49秒，而在具有3GB RAM和27 3gb磁盘的单节点虚拟机(我的pc)上，相同的工作花费了3min20秒。为什么云中多节点聚类的结果比普通pc要慢呢？

浏览 7提问于2017-09-06得票数 0

回答已采纳

1回答

运行时类路径中的"package url -> 3.1.1“是什么意思？

、、

下面的类路径中的"org.apache.hadoop:hadoop-mapreduce-client-core:2.6.5 -> 3.1.1“是什么意思？Spark 2.4.7将使用hadoop-mapreduce-client-core的3.1.1版本？ $ gradlew dependencies --configuration runtimeClasspath > Task :dependencies runtimeClasspath - Runtime classpath of source set 'main'. \--- org.apache

浏览 0提问于2021-12-03得票数 1

1回答

仅检索数据时的Hadoop性能

我们知道增加更多的数据节点可以提高Hadoop的性能。我的问题是:如果我们只想检索数据，而不需要处理或分析数据，那么添加更多的数据节点是否有用？或者它根本不会提高性能，因为我们只有检索操作，而没有任何计算或map reduce作业？

浏览 0提问于2016-12-08得票数 0

3回答

Hadoop作为ETL工具的替代品，如SSIS、Informatica？

、、、、

我非常了解SSIS，Informatica，用于执行ETL过程&将数据加载到数据仓库。但我没有足够的机会接触Hadoop。我只是想知道我们可以用Hadoop代替ETL工具，比如Informatica用于ETL过程吗? 在这里，我基本上是在谈论关系表结构。我知道hadoop可以用于从非结构化数据中提取信息。

浏览 7提问于2014-05-29得票数 1

1回答

灰度深度图像到点云数据

、、

我正在尝试将灰度深度图像(0-255)转换为云点xyz，以便在PCL(点云库)中对其进行处理。你知道我该怎么做吗？

浏览 8提问于2013-08-01得票数 0

2回答

点云之间的变换

、、、

我希望找到一些从我正在处理的问题开始的提示。我正在使用Kinect传感器来捕获3D点云。我创建了一个3d对象检测器，它已经在工作了。以下是我的任务：假设我有一个点云1.我在云A中检测到一个物体，并且我知道我的物体的质心位置(x1，y1，z1)。现在我在一条路径上移动传感器并创建新的云(例如云2)。在云2中，我看到了相同的对象，但例如从侧面，对象检测不能很好地工作。我想要将检测到的对象从云1转换到云2，以获得云2中的质心。对我来说，这听起来像是我需要一个矩阵(平移，旋转)来将点从1转换到2。我该如何解决我的问题呢？也许是ICP？有没有更好的解决方案？谢谢！

浏览 2提问于2013-11-11得票数 1

1回答

云上的BigData (天青)

、、、、

我已经实现了生产大数据解决方案，主要是在使用Hadoop和NoSQL产品的前提下实现的，但从未在云上实现过。今天，我需要变成云，因此我想知道云上的BigData (主要是天蓝色)的已知实现(生产，而不仅仅是POCs)是什么：完全PaaS解决方案: EMR/HDINSIGHT +S3/AzureBlob(或Azure Datalake) + Kenesis/Azure事件中心全IaaS分布(CDH，HDP)：Cloudera或Hortonworks On IaaS + Kafka On IaaS 混合PaaS + IaaS : S3/AzureBlob上的冷数据，IaaS Ha

浏览 1提问于2018-08-23得票数 0

回答已采纳

1回答

我们如何处理Hadoop DB中处理过的数据(输出)？

、、

我是Hadoop的新手，如果我的问题太不成熟，我深表歉意。我知道Hadoop用于分析大型数据集上的数据。最后，我们如何处理分析的数据，创建报告和演示文稿？例如，在SSRS报告的情况下，报告将基于使用SQL查询从RDBMS中提取的结果数据生成。但是，在基于Hadoop的数据库中是如何工作的呢？在客户端，如果请求特定的报告，这需要来自Hadoop DB的数据点，那么流程会是怎样的？我确信客户端不会直接在hadoop中运行Job来获取生成报告所需的数据，因为hadoop作业需要更多的时间来处理。我的问题是，通过在hadoop DB上运行MR作业，处理的数据(结果集)是否存储在任何中间数据库中

浏览 2提问于2015-12-23得票数 0

1回答

HDFS数据节点可以是抽象的吗？

、、

HDFS中是否可以使用抽象数据节点？例如，如果我想运行Hadoop，但不是在硬件上运行，而是在某种软件、云等上运行，有没有允许这样做的API？有没有提供这种功能的Hadoop的替代方案？

浏览 3提问于2018-03-17得票数 0

1回答

用于加载RDD或捕获错误并创建RDD的Scala代码模式？

、

我想要加载RDD，或者，如果失败，创建RDD。我认为下面的代码可以工作，但是即使sc.textFile()在try块中，它仍然失败。我遗漏了什么，或者我如何正确地做到这一点？谢谢! // look for my RDD, load or make it val rdddump = "hdfs://localhost/Users/data/hdfs/namenode/myRDD.txt" val myRdd = try { sc.textFile(rdddump) } catch { case _ : Throwable => { println("

浏览 1提问于2014-08-14得票数 0

1回答

NoClassDefFoundError: org/apache/hadoop/mapred/org使用spark-base base时的版本

、

在使用spark- testing base进行单元测试时，我得到了以下错误 java.lang.NoClassDefFoundError: org/apache/hadoop/mapred/MRVersion at org.apache.hadoop.hive.shims.Hadoop23Shims.isMR2(Hadoop23Shims.java:852) at org.apache.hadoop.hive.shims.Hadoop23Shims.getHadoopConfNames(Hadoop23Shims.java:923) at org.apache.hadoop.hive.con

浏览 18提问于2018-01-25得票数 2

1回答

为什么不将数据留在HDFS中，

、、、

上一天，当我在coursera学习GCP课程时，他们提到，他们坚持我们不应将数据留在HDFS中，而是在完成任务后，我们应该复制它并坚持使用云存储，每次我们想启动一项工作时，我们应该再次将数据放在HDFS中并重复循环，所以我的问题如下：如果关闭hadoop集群，我们会丢失HDFS中的数据吗？为什么我们不应该将数据留在HDFS中？价格问题？谢谢

浏览 8提问于2020-01-21得票数 0

回答已采纳

2回答

使用gradle构建一个简单的MapReduce项目: Hadoop依赖项没有映射器和还原器

、、、

我正在尝试构建一个简单的Hadoop mapreduce程序，我选择了Java来完成这项工作。我查看了周围的示例代码，并尝试构建自己。我创建了以下gradle脚本，当我查看已安装的依赖项时，它们都没有Mapper或Reducer。甚至连org.apache.hadoop.mapreduce包都没有。 group 'org.ardilgulez.demoprojects' version '1.0-SNAPSHOT' apply plugin: 'java' repositories { mavenCentral() } depend

浏览 0提问于2016-10-29得票数 0

3回答

火花和Hadoop有什么不同？

、

我正在努力学习星火框架。在其主页中，有人说它比Hadoop框架更好。但是他们说:火花运行在Hadoop..。我真的不明白为什么可以在Hadoop上运行，而它应该比Hadoop更好。有人能解释一下这两者之间的等级吗？

浏览 6提问于2017-10-22得票数 1

回答已采纳

1回答

spark无法读取cos上的文件？

、、、、

已经按照Hadoop-COS官方文档在本地配置好hadoop，本地的hadoop是伪分布式，和腾讯云对象存储COS相关的配置还有ID，Key，bucke_id等，fs.defaultFS如下，所以在下面的url使用可以省略想这些信息 image.png 受用命令hadoop fs -ls /test_tmp 打印cos上存储的文件列表是正常的，但是，使用hadoop fs -cat /test_tmp/aaa.test提示错误，具体错误如下， image.png 大家帮忙看一下是什么原因导致的？

浏览 827提问于2019-10-15

1回答

想购买云服务做大数据计算及数据分析，如何选择满足个人日常学习的配置？

想购买云服务做大数据计算和分析，如何选择满足个人日常学习的配置？我是小白，从未用过云服务，现在需要用到Hadoop、Hbase、Mysql、Hive、Spark、zookeeper等，只是学习使用

浏览 141提问于2018-06-21

2回答

本地模式、组或联接= java.lang.OutOfMemoryError: Java堆空间

使用Apache版本0.10.1.21 (报告)、CentOS版本6.3 (Final)、jdk1.6.0_31 ( Hortonworks Sandbox v1.2 on Virtualbox，3.5GBRAM) $ cat data.txt 11,11,22 33,34,35 47,0,21 33,6,51 56,6,11 11,25,67 $ cat GrpTest.pig A = LOAD 'data.txt' USING PigStorage(',') AS (f1:int,f2:int,f3:int); B = GROUP A BY f1; DES

浏览 7提问于2013-05-11得票数 6

回答已采纳