mapreduce免费实例_弹性MapReduce免费_免费mapreduce模型 - 腾讯云开发者社区

hadoop、mapreduce

[hadoop@master mapreduce]$ hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /wordcount/input/ /wordcount/output 17/09/22 20:33:50 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 17/09/22 20:33:50 INFO input.FileInputFormat: Total input paths to process : 0 17/09/22 20:3

浏览 3提问于2017-09-22得票数 1

1回答

在Hadoop 2+纱线中，并行映射器和减速机是如何计算的？

hadoop、hadoop-yarn、hadoop2

我已经搜索了一段时间，发现使用MapReduce + that的hadoop2集群具有以下多个并发映射并减少了每个节点：并发映射#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.map.memory.mb并发减少#=yarn.nodemarager.Resoure.Memory-mb/ mapreduce.reduce.memory.mb 但是，我已经设置了一个具有10台机器的集群，具有以下配置： 'yarn_site' => { 'yarn.nodemanager.resource.cpu-vcores'

浏览 3提问于2014-06-25得票数 2

1回答

什么是MapReduce应用程序主程序？

hadoop、mapreduce、hadoop-yarn

来自Hadoop的权威指南整个过程如图7-1所示.在最高一级，有五个独立实体： ·提交MapReduce作业的客户端。 ·纱线资源管理器，负责协调集群上计算资源的分配。 ·纱线节点管理器，用于在集群中的机器上启动和监视计算机容器。 ·MapReduce应用程序主程序，它协调运行Map的任务--减少作业。应用程序主任务和MapReduce任务在由资源管理器调度并由节点管理器管理的容器中运行。什么是MapReduce应用程序主程序？在用Java编写的MapReduce程序中，我们需要三种条件:一个映射函数、一个约简函数和一些带有main()函数的代码来运行作业。MapReduce应

浏览 0提问于2019-05-15得票数 1

1回答

如何了解amazon emr集群上的地图站点值？

amazon-web-services、hadoop、amazon-emr

我遇到了内存问题，所以我查找了参数的默认值，比如： mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts 在Amazon文档上，并计算出默认值很低。因此，我在创建EMR集群时添加了配置，如下所示： classification=mapred-site,properties=[mapreduce.map.memory.mb=4096,mapreduce.reduce.memory.mb=4096,mapreduce.map.java.opts=-Xmx3072m] 并创建了集群。现在，我如何检查这些值

浏览 0提问于2019-03-27得票数 0

4回答

可用于使用Hadoop/MapReduce框架的群集

mapreduce、cluster-computing、distributed-computing

有谁知道任何免费访问的集群，这些集群对公众开放，并且使用Hadoop/MapReduce框架？有很多关于如何使用MapReduce的教程，但是有没有一种方法可以在不使用本地单机并安装所需框架的情况下测试这些示例呢？谢谢!

浏览 0提问于2011-03-17得票数 3

回答已采纳

1回答

数据库sql上映射步骤上的Java堆大小内存

java、memory、hive

我运行以下hql： select new.uid as uid, new.category_id as category_id, new.atag as atag, new.rank_idx + CASE when old.rank_idx is not NULL then old.rank_idx else 0 END as rank_idx from ( select a1.uid, a1.category_id, a1.atag, row_number() over(distribute by a1.uid, a1.category_id sort by a1.cmt_

浏览 2提问于2016-01-19得票数 2

8回答

亚马逊网络服务上的MapReduce

hadoop、amazon-web-services、mapreduce

有人在亚马逊网络服务上玩过MapReduce吗？有什么想法吗？它的实现情况如何？

浏览 0提问于2009-04-02得票数 5

1回答

Hadoop映射/减少显示错误: com.mongodb.connection.SslSettings$Builder.context(Ljavax/net/ssl/SSLContext;)

java、mongodb、hadoop、mapreduce

我定期运行map/reduce作业，最近我得到了这样的日志： 17/09/27 10:38:03信息mapreduce.Job: map 27%减少0% 17/09/27 10:38:07 INFO mapreduce.Job:任务Id： com.mongodb.connection.SslSettings$Builder.context(Ljavax/net/ssl/SSLContext;)Lcom/mongodb/connection/SslSettings$Builder；，状态:失败错误: attempt_1494368272823_5583_m_000014_0 17/09/27

浏览 3提问于2017-09-27得票数 2

回答已采纳

6回答

MapReduce/Hadoop入门

java、hadoop、mapreduce

最近，我读了很多关于MapReduce/Hadoop的文章，我认为这是行业当前发展的方向。我想开始学习MapReduce/Hadoop，我认为最好的开始方式是实现一些小项目。然而，我试着用谷歌搜索了一下，但什么也找不到。你们能给我一些链接吗，或者是一些书，可以让我对这项技术有一个实际的介绍。可能是一个小项目，我可以自己实现，以更好地了解这项技术。谢谢，钱德

浏览 3提问于2010-09-01得票数 9

回答已采纳

2回答

如何在Amazon EMR上配置Hadoop参数？

hadoop、amazon-web-services、hadoop2、emr、amazon-emr

我在Amazon上使用one Master和two slavers运行了一个MR作业，但收到了很多错误消息，比如map 100% reduce 35%之后的running beyond physical memory limits. Current usage: 3.0 GB of 3 GB physical memory used; 3.7 GB of 15 GB virtual memory used. Killing container 我修改了我的代码，在Hadoop2.6.0 MR配置中添加了以下几行，但我仍然得到相同的错误消息。 Configuration conf = new C

浏览 4提问于2015-11-10得票数 3

1回答

在us-east-2中将DynamoDB导出到S3亚马逊网络服务数据管道

amazon-web-services、amazon-s3、amazon-dynamodb

我想备份(然后导入)一个dynamodb表到S3。dynamodb表存在于us-east-2中，但这是aws数据管道不支持的区域。AWS文档似乎表明这应该不是问题，但我似乎不能让数据管道在us-east-2中查找表。这是我的数据管道的导出。当我运行此命令时，在查找dynamodb表时，我得到一个'resource not found error‘。如果我在运行此数据管道的us-west-2中临时创建了一个同名的表，作业将工作，但会从us-west-2中的表中提取数据，而不是从us-east-2中提取数据。有什么方法可以让这个作业从配置中指定的区域中拉出？ { "objec

浏览 1提问于2018-04-12得票数 1

2回答

返回空上下文的Google python map-reduce库

python、google-app-engine、python-2.7、mapreduce

class DeleteOldObservationsMapper(object): """Mapper for deleting old observations.""" def __init__(self): logging.info('DeleteOldObservationsMapper init') ctx = mapreduce.context.get() when = ctx.mapreduce_spec.mapper.params.get('before_ti

浏览 1提问于2013-05-25得票数 3

4回答

关于在线分布式环境

hadoop、amazon-web-services、mapreduce、distributed-computing

我现在正在学习Mapreduce和Hadoop。我知道我可以在单个节点上进行一些测试和运行一些示例。但我真的很想在一个真正的分布式环境中做一些实践。所以我想问:有没有一个网站可以提供一个分布式的环境让我做一些实验？有人告诉我，我可以使用Amazon web服务来构建分布式环境。这是真的吗？有人有过这样的经历吗？在工作中使用hadoop之前，我想知道你们是如何学习hadoop的？谢谢!

浏览 6提问于2013-05-21得票数 2

1回答

如何为亚马逊网络服务MapReduce准备和售后服务数据

python、amazon-s3、amazon-web-services、mapreduce、amazon-rds

我正在与亚马逊的MapReduce网络服务的一个大学项目。为了将数据用于MapReduce，我需要将它们从关系数据库(AWS RDS)转储到S3中。在MapReduce完成后，我需要拆分输出文件并将其中的一大块加载到它们自己的S3存储桶中。在Amazon Web服务环境中执行此操作的好方法是什么？最好的情况:除了用于RDS和MapReduce的实例之外，是否可以在不使用额外的EC2实例的情况下实现这一点？我将python用于映射器和reducer函数，并将json说明符用于MapReduce作业流。否则，我不会受到语言或技术的限制。

浏览 2提问于2011-01-12得票数 0

回答已采纳

1回答

spark.dynamicAllocation的EMR配置与火花官方文档不匹配

hadoop、apache-spark、emr、amazon-emr

根据官方的火花文件()，当你在纱线上使用"spark.dynamicAllocation“选项时，你需要：在每个节点上的sert-site.xml中，将spark_shuffle添加到yarn.nodemager.aux-services中. 将yarn.nodemanager.aux-services.spark_shuffle.class设置为org.apache.spark.network.yarn.YarnShuffleService 尽管AWS的EMR文档显示， "..Spark洗牌服务由电子病历自动配置。() 我注意到，EMR节点上的“纱线-站点”

浏览 2提问于2016-07-05得票数 2

回答已采纳

1回答

在亚马逊网络服务上使用弹性MapReduce的微型实例

amazon-web-services、amazon-ec2

因为亚马逊收费一个小时，即使我使用它几分钟。做我的学校项目或者玩EMR变得越来越贵了。由于有免费的微型实例，我想利用这些实例来运行我的mapreduce作业，似乎没有这样做的选项，因此在这方面的任何帮助都将是很好的。另外，如果这完全不可能，我想知道如何为mapreduce作业挑选任何运行中的实例(可能是EMR提供了通过控制台选择的小实例)？我基本上计划运行几个小实例，并让我所有的小mapreduce作业使用这些实例，这样我就可以赚到我支付的大部分钱。提前感谢:)

浏览 0提问于2013-10-15得票数 0

1回答

在Spring上运行作业时的问题

spring、hadoop、spring-data、spring-data-hadoop

我使用Mahout创建了下面的Mapper和Reducer package mypackage.ItemSimilarity; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import org.apache.mahou

浏览 1提问于2014-02-13得票数 0

1回答

/mapreduce/workerCallback生成http 429响应

google-app-engine、mapreduce、task-queue、http-status-code-429

我在Java工作，能够启动mapreduce的工作。这项工作通过了ShardedJob阶段，但现在仍停留在ExamineStatusAndReturnResult阶段。在任务队列中，我看到了许多作业，如:/mapreduce/workerCallback/map-十六进制，这些作业都是重新排队的，因为返回代码是429太多请求()。我觉得我好像达到了某种配额限制，但我不知道在哪里/为什么。我如何知道为什么这些任务正在接收一个429响应代码？

浏览 0提问于2014-06-09得票数 0

1回答

word.set()方法在映射减少hadoop中抛出空指针异常

java、hadoop、nullpointerexception、mapreduce、word-count

我是新的地图，减少编程，并开始我的教训与简单的单词计数的例子。然而，我正在尝试一种不同的方法。我的hdfs输入文件夹中有两个输入文件。我试着生成输出，比如 anyword1 --> filename1 2 anyword2 --> filename2 3 我编写了一个mapper类，在键处将单词和文件名连接在一起，但是当我在文本中设置键值时，它会抛出空指针异常。有人能帮我告诉我哪里做错了吗。我的地图课 public static class TokenizerMapper extends Mapper<Object, Text, Text,I

浏览 0提问于2017-06-09得票数 1

回答已采纳

2回答

重写MapReduce的fileInputFormat不能输出结果

java、hadoop、file-io、mapreduce

我只是最近学习hadoop (我使用hadoop2.7.3 &java 1.7.0.89 )。我写了一些代码来分析不同的电视广播和评论在不同的网站。我重写了文件输入格式类。但是当我在eclipse.there上运行我的代码时，有很多例外。我试着在eclipse上调试。只要找到地图或减速机有问题。但我不知道哪里出了问题..。这里是日期示例，次要数据是网站的昵称。 truelove 3 3678 0 0 0 1 truelove 2 39155 0 0 173 438 truelove 1 142208 1 2 1

浏览 2提问于2017-06-20得票数 0

回答已采纳

1回答

MongoDB:使用java驱动程序3.0.x执行mapreduce和过滤器

java、mongodb、mapreduce、driver

我在一个java小项目中工作，并使用java 3.0.1进行mongoDB。需要执行一个MapReduce算法并在映射函数之前，执行一个查询来减少数据，提高性能。我见过api驱动程序，并使用方法存在类，但只以map和reduce函数作为参数。它没有任何查询参数。 dbConnection.getCollection("test").mapReduce(mapFunction, reduceFunction) 在旧API中，有MapReduceCommand来执行此操作。 MapReduceCommand cmd = new MapReduceCommand("test

浏览 3提问于2015-05-22得票数 4

回答已采纳

1回答

无法在2.3中从TaggedInputSplit转换为FileSplit

hadoop、mapreduce、hadoop-yarn

当我在我的job中使用MultipleInput时，我会得到这个类转换异常。 Error: java.lang.ClassCastException: org.apache.hadoop.mapreduce.lib.input.TaggedInputSplit cannot be cast to org.apache.hadoop.mapreduce.lib.input.FileSplit at com.capitalone.integratekeys.mapreduce.mapper.IntegrationKeysMapperInput.setup(IntegrationKeysMa

浏览 7提问于2015-02-20得票数 2

回答已采纳

2回答

在Amazon的弹性mapreduce实例上推出了什么AMI？

amazon-ec2、amazon-web-services

我还没有找到在Amazon弹性mapreduce实例上运行的AMI。您不能指定一个实例，但是可以通过运行一个引导操作来自定义mapreduce实例。不过，我想知道我是怎么开始的。

浏览 0提问于2011-03-30得票数 2

回答已采纳

1回答

在hadoop中定义数据类型

java、hadoop

我使用Java编写Hadoop程序，我想在Java程序中定义自己的数据类型。这是这是我的密码： import java.io.IOException; import java.util.HashSet; import java.util.Set; import java.util.StringTokenizer; import java.util.HashMap; import java.util.Iterator; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import o

浏览 1提问于2015-03-27得票数 0

回答已采纳

1回答

HBase地图还原作业-多个扫描-如何设置每次扫描的表

hadoop、mapreduce、hbase

我使用HBase 1.2。我想使用多个扫描在HBase上运行一个HBase作业。在API中，有：TableMapReduceUtil.initTableMapperJob(List<Scan> scans, Class<? extends TableMapper> mapper, Class<?> outputKeyClass, Class<?> outputValueClass, org.apache.hadoop.mapreduce.Job job)。但是如何指定每个扫描的表呢？我使用以下代码： List<Scan> scans

浏览 3提问于2017-03-15得票数 1

1回答

使用我自己的类作为输出值时，Reducer不调用reduce方法MapReduce Hadoop

java、hadoop、mapreduce

我试图使用我自己的class对象作为映射器的输出值，并在Reducer中使用它们，但是如果我删除DateIncome类的默认构造函数，reduce()方法不会被调用，我的应用程序将被终止。我写的代码如下：驱动程序： package it.polito.bigdata.hadoop.lab; import com.sun.xml.internal.ws.policy.privateutil.PolicyUtils; import org.apache.commons.io.FileUtils; import org.apache.hadoop.conf.Configuration; impo

浏览 10提问于2020-05-14得票数 0

回答已采纳

1回答

Hadoop -线程"main“java.lang.NullPointerException中的异常

java、eclipse、apache、hadoop

我试图通过本教程使用平台：，eclipse部分。直到最后一步，一切都很顺利。运行我得到的程序:log4j:警告没有为记录器(org.apache.hadoop.metrics2.lib.MutableMetricsFactory).找到任何附加程序 log4j:WARN Please initialize the log4j system properly. log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. Exception in thread "main"

浏览 2提问于2014-11-29得票数 4

1回答

AWS EMR - Java Runtime内存不足

java、amazon-web-services、memory、mapreduce、emr

我正在AWS EMR上运行一个MapReduce作业。除了一个非常大的文件外，映射作业将完成。我得到以下错误： OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000611280000, 1521483776, 0) failed; error='Cannot allocate memory' (errno=12) # # There is insufficient memory for the Java Runtime Environment to continue. # Native memor

浏览 2提问于2015-11-23得票数 1

2回答

当多个MapReduce作业链接在一起时，是否将每个作业的输出写入HDFS？

java、hadoop、mapreduce

假设多个MapReduce作业链接在一起，如下所示。 Map1-Reduce1 -> Map2-Reduce2 -> ... -> MapN-ReduceN 是否将每个MapReduce作业的输出写入HDFS？例如，Map1-Reduce1的输出是否会写入HDFS？并且在Map2-Reduce2中的任务失败的情况下，可以通过读取已经在HDFS中的Map1-Reduce1的输出来重新启动Map2-Reduce2。

浏览 1提问于2016-10-25得票数 0

1回答

找到接口org.apache.hadoop.mapreduce.TaskAttemptContext，，但需要类

java、hadoop、jar、executable-jar、hadoop2

我的hadoop应用程序在执行它时遇到了一些错误，每当它开始执行map0%reduce 0%时，它都会给出某种错误 17/06/02 16:21:44信息mapreduce.Job:任务Id : attempt_1496396027749_0015_m_000000_0，状态:失败错误:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext，但需要类我被困在这里，任何能帮上忙的人.. hduser@master:/home/mnh/Desktop$ hadoop jar 13.jar /usr/local/hadoop/input/cars.m

浏览 2提问于2017-05-28得票数 0

1回答

大容量倾斜数据集上的Hive排序操作

hadoop、hive、mapreduce、hortonworks-data-platform、skew

我正在Hortonworks 2.6.5上处理一个大小约为3TB的大型数据集，该数据集的布局非常简单。数据的层次结构如下： -Country -Warehouse -Product -Product Type -Product Serial Id 我们在上面的层次结构中有30个国家的交易数据，每个国家都有超过200个仓库，单个国家美国贡献了整个数据集的75%左右。问题： 1)对于每个仓库的上述数据集，我们有事务日期列(trans_dt)的事务数据，我需要使用配置单元(1.1.2版本) MapReduce对每个仓库中的tran

浏览 18提问于2019-08-01得票数 2

2回答

什么是MapReduce应用程序主程序？

apache-hadoop、map-reduce

来自Hadoop的权威指南 📷 整个过程如图7-1所示.在最高级别，有五个独立的实体：·客户端，它提交MapReduce作业。·纱线资源管理器，负责协调集群上计算资源的分配。·纱线节点管理器，用于在集群中的机器上启动和监视计算机容器。·MapReduce应用程序主程序，它协调运行Map的任务--减少作业。应用程序主任务和MapReduce任务在由资源管理器调度并由节点管理器管理的容器中运行。什么是MapReduce应用程序主程序？在用Java编写的MapReduce程序中，我们需要三种条件:一个映射函数、一个约简函数和一些带有main()函数的代码来运行作业。MapReduce应用程序是

浏览 0提问于2019-05-15得票数 0

4回答

排序Hadoop WordCount Java

java、sorting、hadoop、mapreduce、bigdata

我正在用Java语言运行Hadoop的WordCount程序，我的第一项工作(获取所有单词和它们的计数)运行良好。然而，当我做第二项工作时，我遇到了一个问题，应该由谁来按其出现次数进行排序。我已经阅读了这期()，以了解如何做第二份工作，但我没有同样的问题。我的代码： import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.*; import org.ap

浏览 0提问于2015-05-01得票数 0

4回答

是否可以使用.NET为亚马逊弹性MapReduce编写map/reduce作业？

.net、amazon-ec2、mapreduce

是否可以使用.NET语言为Amazon Elastic MapReduce ()编写map/reduce作业？特别是，我想使用C#。初步研究表明并非如此。上述网址的营销文本建议您可以“选择Java、Ruby、Perl、Python、PHP或C++"，而无需提及.NET语言。这个亚马逊线程( --“支持C# / F#映射/缩减”)明确表示“目前Amazon Elastic MapReduce不支持单声道平台或C#或F#等语言”。上面的情况表明这是不可能的。不过，我想知道是否有任何变通方法。例如，我可以修改我的账户的弹性MapReduce机器镜像，并在上面安装Mono吗？亚马逊常见问

浏览 4提问于2009-07-27得票数 13

回答已采纳

2回答

java驱动程序3.2的mapReduce内联结果

mongodb、mongodb-java

如何使用mongodb驱动程序3.2实现mapReducet的内联结果？对于驱动程序2.x版本，我所做的是： DBColleciont coll = client.getDB(dbName).getCollection(collName); coll.mapReduce(map, reduce, null, OutputType.INLINE, query); 新的3.x驱动程序有两个mapReduce()方法返回MapReduceIterable，它缺少一个方法来指定内联输出模式。 MongoCollection<Documetn> coll = client.getDatab

浏览 2提问于2016-06-13得票数 2

回答已采纳

1回答

HadoopImageProcessingInterface (HIPI) SamplePrograms

hadoop、mapreduce、hipi

我在HIPI上工作，并开始对一个样本程序。我无法执行它，因为它总是给出以下异常： hadoop jar Desktop/edureka/workspace/jars/SampleProgramHIPI.jar hdfs:/video/sampleimages.hib hdfs:/video/sampleimages.output 15/10/16 15:59:53 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes wh

浏览 4提问于2015-10-16得票数 0

2回答

使用oozie为mapreduce作业写入多个输出流的正确方式是什么？

java、hadoop、mapreduce、oozie

我正在使用新的Hadoop API编写一系列map-reduce作业。我计划使用将所有这些都放在一起，但我似乎找不到一种方法来从工作流中的map-reduce节点执行多个输出流。我遇到过一个讨论在Oozie中使用多个输出的，但是除了创建一个Java任务并将其直接添加到Oozie pipline之外，没有其他解决方案。有没有办法通过workflow.xml中的map-reduce节点来实现这一点编辑： Chris的解决方案确实奏效了，尽管我希望有更好的方法。以下是我所做的确切更改。我在workflow.xml文件中添加了以下内容： <property> <na

浏览 4提问于2012-03-22得票数 5

回答已采纳

2回答

是否在非默认版本上运行Map Reduce？

google-app-engine、mapreduce

我有几个关于App Engine Map Reduce API的问题。首先，SDK中有一个mapreduce包，这里有一个单独的mapreduce包：我应该使用哪一个？我应该使用捆绑包吗，或者文档已经过时了，我应该实际使用SDK版本？其次，我希望能够在非默认版本上运行mapreduce，以确保来自mapreduce的请求不会干扰用户请求。做这件事最好的方法是什么？是否可以使用任务队列启动管道，并将该队列的目标版本设置为我的非默认版本？

浏览 2提问于2013-03-01得票数 1

回答已采纳

5回答

云中的MapReduce

database、mapreduce、google-bigquery、large-data

除了亚马逊MapReduce，我还可以选择哪些选项来处理大量数据？

浏览 0提问于2010-06-06得票数 0

2回答

亚马逊MapReduce与cronjob +API

amazon-web-services、mapreduce、elastic-map-reduce

我有一个网站设置在一个EC2实例，让用户查看他们的4个社交网络的信息。一旦用户加入，网站应该每晚更新他们的信息，以显示最新和第二天的相关信息。最初，我们有一个cron-job，它遍历每个用户并对API进行必要的调用，然后将数据存储在DB (amazon rds实例)上。此操作每人需要2到30秒，这意味着逐个执行此操作将需要数天时间才能更新。我一直在看MapReduce，我想知道它是否适合我正在尝试做的事情，但目前我不能确定。我可以给MapReduce一个包含我想要更新的所有记录的.sql文件，再加上一个脚本，告诉MapReduce如何处理每条记录，并让它同时处理所有记录吗？如果不是

浏览 0提问于2011-05-21得票数 3

回答已采纳

6回答

MapReduce作业陷入可接受状态

hadoop、mapreduce

我有自己的MapReduce代码，我试图运行，但它只是停留在接受的状态。我试着运行我以前运行过的另一个示例job，它成功了。但现在，这两份工作都保持在公认的状态。我尝试更改mapred-site.xml和yar-site.xml中的各种属性，就像提到的和一样，但这也没有帮助。有人能指出可能出了什么问题吗？我正在使用hadoop-2.2.0 我为各种属性尝试了许多值，下面是一组值-在mapred-site.xml中 <property> <name>mapreduce.job.tracker</name> <value>localhost:5431

浏览 11提问于2013-11-25得票数 21

回答已采纳

1回答

理解Python代码的执行流程

python

我试图做家庭作业，从数据操作的比例:系统和算法在Curesra与python有关。通常，我在理解基本代码方面存在问题，这是作为MapReduce alogorythm的一个例子。我希望能在以下两个地方帮助我理解它。我厌倦了在运行命令之后一步一步地遍历下面两个文件的代码流： python wordcount.py 'data/books.json' 打开文件wordcount.py 创建了mr = MapReduce.MapReduce() - me对象。执行来自def __init__(self):的MapReduce.py部件我们回到wordcount.

浏览 2提问于2015-12-11得票数 0

回答已采纳

1回答

亚马逊弹性MapReduce中的容量调度器

hadoop、scheduler、amazon-emr、dynamic-sizing

我对亚马逊弹性MapReduce完全是个新手。我需要使用我的自定义调度器来调度Amazon Elastic MapReduce中的作业，该调度器是基于Hadoop容量调度器实现的。根据我目前的理解，要实现这一点，我只能在作业流中定义一个阶段，并通过SSH连接将我的自定义jar文件提交到主节点。但是，我找不到如何编辑xml配置文件，如主节点中的capacity-scheduler.xml。有人知道怎么做吗？此外，如果我想在其上添加动态大小调整属性，当作业当前正在运行时，我是否可以动态调整集群中的任务节点数量？或者在每个阶段，集群的大小应该保持不变？非常感谢。

浏览 2提问于2014-08-28得票数 0

2回答

MapReduce是否需要与HDFS一起使用？

java、hadoop、mapreduce、hdfs

我希望使用Hadoop MapReduce获得更好的数据处理性能。那么，我是否需要与Hadoop一起使用它呢？或者MapReduce可以与其他类型的分布式数据一起使用？请给我带路..。

浏览 1提问于2015-01-20得票数 0

回答已采纳

3回答

如何将mapreduce库启动的数据存储写入最小化？

python、google-app-engine、google-cloud-datastore、mapreduce

我有三个部分来回答这个问题：我有一个应用程序，用户创建对象，其他用户可以在5分钟内更新。5分钟后，对象超时，无效。我以实体的形式存储这些对象。要执行超时，我有一个cron作业，每分钟运行一次，以清除过期的对象。现在大部分时间，我没有任何活动对象。在本例中，mapreduce处理程序检查它得到的实体，如果它不是活动的，就什么也不做，不写。然而，在大约7个小时后，我的免费数据存储写入配额将从mapreduce调用中耗尽。根据我的粗略估计，它看起来就像只运行mapreduce导致了~ 120写/调用。(粗略计算，60次调用/小时*7小时= 420次调用，50k操作限制/ 420次调用~ 120次

浏览 3提问于2012-02-22得票数 4

回答已采纳

1回答

我在完成mapreduce代码时需要NoSuchMethodException map<init>method

mapreduce

我试着从我输入的文本文件中找出Top单词，但是我无法编译代码，我得到了一个在mapper中找不到的运行时异常()。请帮助我在这方面，我是非常新的hadoop试图在这一领域的专业知识。专家们的任何建议和建议都能帮助我成功。 import java.io.IOException; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.LinkedHashMap; import java.util.LinkedList; import java.uti

浏览 3提问于2015-05-21得票数 0

回答已采纳

1回答

ClassNotFoundException在ec2实例上运行MissingPokerCards时

hadoop

当我试图运行jar文件时，我得到了以下错误- Exception in thread "main" java.lang.ClassNotFoundException: finalPoker.MissingPokerCards at java.net.URLClassLoader$1.run(URLClassLoader.java:360) at java.net.URLClassLoader$1.run(URLClassLoader.java:349) at java

浏览 1提问于2020-03-08得票数 1

2回答

建议的处理google cloud sql的方法

google-app-engine、google-cloud-sql

我需要运行的任务是处理我的google云sql中的所有数据，并将文件从blobstore复制到google云存储。我正在考虑使用任务队列，但它有10分钟的时间限制，但我的任务必须比这更长。我不确定是否可以使用mapreduce，因为我不需要并行运行，而且我还没有找到任何mapreduce对云sql的支持。那么，在应用程序引擎上进行这种数据处理的建议方法是什么，尤其是对于云sql？

浏览 0提问于2014-02-23得票数 0

1回答

Fiware-Cosmos MapReduce

hadoop、mapreduce、fiware、fiware-cygnus

关于这里解释的MapReduce示例，我有一个问题：它确实是hadoop MapReduce最常见的例子，即WordCount。我可以在Cosmos的全局实例上毫无问题地执行它，但即使我给它一个很小的输入(一个两三行的文件)，执行它也需要花费很多时间(大约半分钟)。我假设这是它的正常行为，但我的问题是:为什么即使是很小的输入也要花费这么长的时间？我猜这种方法提高了它对更大的数据集的有效性，其中这种最小延迟可以忽略不计。

浏览 1提问于2015-03-04得票数 0

1回答

用于Hadoop的Google连接器不适用于Pig

hadoop、apache-pig、google-hadoop

我在HDFS 2.7.1.2.4和Pig 0.15.0.2.4 (Hortonworks HDP 2.4)中使用Hadoop，并尝试使用 (GitHub上的bigdata-interop)。当我试着，比如说， hadoop fs -ls gs://bucket-name 但是，当我在Pig (在mapreduce模式下)尝试以下内容时： data = LOAD 'gs://softline/o365.avro' USING AvroStorage(); data = STORE data INTO 'gs://softline/o366.avro' USING

浏览 4提问于2016-04-13得票数 0

回答已采纳