Amazon Elastic MapReduce - python map和reduce代码的格式或示例 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Amazon Elastic MapReduce - python地图和reduce代码的格式或示例

python、hadoop、mapreduce、amazon-emr、elastic-map-reduce

也许Hadoop也是如此，但我只是找不到编写地图的格式或示例，并在地图示例旁边减少python代码：和Hadoop是一样的吗？格式是什么，有没有什么例子？

浏览 1提问于2011-06-30得票数 2

回答已采纳

2回答

是否可以在Hadoop 0.20中使用Avro？

api、hadoop、hdfs

我对使用Avro从Hadoop HDFS保存和读取文件很感兴趣，我在Hadoop问题跟踪器中看到了一些关于实现对Avro的支持的Jira，但没有关于如何在Hadoop中启用Avro支持的示例。此外，我也不能完全确定当前的0.20版本是否支持Avro，因为一些Jira版本已经关闭了0.21版本。有没有可能获得最新的0.21并以某种方式结束打开Avro并使用它？

浏览 2提问于2010-06-28得票数 0

1回答

我正在编写一个外部脚本，以便在我的笔记本电脑上(不是在Amazon Elastic Compute Cloud或任何大型集群上)通过Python mrjob模块运行mapreduce作业。我从上了解到，我应该使用MRJob.make_runner()从单独的python脚本运行mapreduce作业，如下所示。但是，我如何指定要使用的输入文件？我想使用与mapreduce脚本和运行

浏览 0提问于2012-09-25得票数 6

回答已采纳

4回答

是否可以使用.NET为亚马逊弹性MapReduce编写map/reduce作业？

.net、amazon-ec2、mapreduce

是否可以使用.NET语言为Amazon Elastic MapReduce ()编写map/reduce作业？特别是，我想使用C#。初步研究表明并非如此。上述网址的营销文本建议您可以“选择Java、Ruby、Perl、Python、PHP或C++"，而无需提及.NET语言。这个亚马逊线程( --“支持C# / F#映射/缩减”)明确表示“目前Amazon Elastic <e

浏览 4提问于2009-07-27得票数 13

回答已采纳

2回答

如何在Amazon EMR上配置Hadoop参数？

hadoop、amazon-web-services、hadoop2、emr、amazon-emr

我在Amazon上使用one Master和two slavers运行了一个MR作业，但收到了很多错误消息，比如map 100% reduce 35%之后的running beyond physicalKilling container 我修改了我的代码，在Hadoop2.6.0 MR配置中添加了以下几行，但我仍然得到相同的错误消息。conf.set("mapreduce.reduce.memory.mb&

浏览 4提问于2015-11-10得票数 3

1回答

如何使用红移查询S3公共数据集

mysql、amazon-web-services、amazon-s3

Amazon AWS文档非常糟糕，完全没有帮助。感觉很好，现在我们可以开始讨论实际问题了。我正在使用SQL工作台连接到我的redshift集群，我可以正常连接，但不能运行任何命令…… 如何查询常见的爬网s3数据集？

浏览 0提问于2015-06-30得票数 0

1回答

Hadoop入门的最简单方法

hadoop、elastic-map-reduce

我正在寻找提交MapReduce作业的最简单方法。我正在寻找一个在复杂性(或简单性)方面类似的平台，这样的Heroku (是给Ruby)或picloud.com是地图。在这个想法中，初学者可以提交MapReduce作业，而不必处理设置Hadoop集群的复杂性。Elastic Map Reduce很接近，但设置实例的启动时间却很慢。所以基本上我在找一个做过类似MapReduce<e

浏览 2提问于2012-11-03得票数 1

回答已采纳

3回答

Amazon云实例之间的Python多处理

python、amazon-ec2、multiprocessing、python-multithreading

我希望在一些亚马逊EC2实例上运行一个长时间运行的python分析流程。代码已经使用python multiprocessing模块运行，并且可以利用单个机器上的所有内核。分析是完全并行的，每个实例都不需要与其他任何实例通信。所有的工作都是“基于文件的”，每个进程独立地处理每个文件……因此，我计划在所有节点上装载相同的S3卷。我想知道是否有人知道设置多处理环境的任何教程(或有任何建议)，以便我可以在任意数量的计算实例

浏览 2提问于2011-06-24得票数 4

回答已采纳

2回答

Hadoop/Elastic Map Reduce与二进制可执行文件？

python、matlab、amazon-web-services、hadoop、mapreduce

我正在使用hadoop streaming、python、matlab和elastic map reduce编写分布式图像处理应用程序。我已经使用matlab编译器编译了我的matlab代码的二进制可执行文件。我想知道如何将它合并到我的工作流程中，这样二进制文件就成为Amazon的弹性地图reduce处理的一部分？代码非常复杂(不是我写的

浏览 3提问于2010-11-05得票数 1

3回答

试图在MongoDB MapReduce调用中包含查询

c#、mongodb、mapreduce

我正在尝试创建一个非常基本的map--reduce示例，该示例还在MapReduce api调用中集成了一个查询。我的集合有很多条目，格式如下： "firstname(map,

浏览 3提问于2011-04-05得票数 5

回答已采纳

1回答

MapReduce未排序

python、sorting、mapreduce

当我通过命令行使用map.py和reduce.py时，我正在使用python开发一个mapreduce程序：结果是好的。passengers.dat -output /out -file map.py -file reduce.py -mapper <

浏览 4提问于2014-11-06得票数 2

1回答

以文件名为关键字，以内容为值的MapReduce，许多小文件

java、hadoop、elastic-map-reduce

我看过、和，但我在起步时遇到了麻烦。我以前没有使用Hadoop做过任何事情，所以如果别人看到我犯了错误，我会小心地从错误的方向开始。我有一个目录，其中包含大约100K的小文件，其中包含超文本标记语言，我想使用Amazon Elastic MapReduce创建一个倒排索引，用Java语言实现。一旦我有了文件内容，我就知道我想让map和reduce函数做什么了。看过之后，我的理解是我需要继承FileInputForm

浏览 1提问于2015-12-07得票数 0

1回答

我应该在哪里写mapreduce程序

mapreduce、elastic-map-reduce

我应该在哪里写map-reduce程序-在文本文件或任何其他文件中？在java中，文本文件，将java代码保存为filename.java，但对map-reduce程序将是什么呢？因为我非常需要，所以请回答。

浏览 1提问于2013-03-23得票数 0

3回答

mapReduce模式的最好的python实现是什么？

python、mapreduce

什么是最好的MapReduce实现，一个框架或一个库，可能和Apache hadoop one一样好，但如果它是用Python语言编写的，最好是文档良好且易于理解，完全实现为MapReduce模式，高可伸缩性，高稳定性和轻量级。我在谷歌上搜索了一个叫mincemeat的，不太确定，但还有其他人很出名吗？谢谢

浏览 2提问于2011-09-01得票数 4

1回答

我可以用不同的语言编写映射器和归约器程序吗

perl、python-3.x、mapreduce、elastic-map-reduce

我感觉在Perl脚本中执行Mapper操作，但后来我意识到用Python编写Reducer会更容易。Mapper和Reducer可以在不同的编程语言中工作吗？

浏览 0提问于2013-09-15得票数 1

2回答

Hadoop Containder的运行超出了物理内存限制。

hadoop

我还是有错误的。我当前的mapred-site.xml文件如下：<property> <value>yarn</value><property> <name>mapreduce.map.java.opts</

浏览 1提问于2017-05-01得票数 0

回答已采纳

1回答

EMR - Hive和Java的结合

java、hive、emr

我使用的是Amazon Elastic-Map-Reduce。是否可以运行使用java代码的配置单元查询(使用转换功能)？当我创建一个新的作业流时，我需要在一个自定义jar和一个配置单元程序之间进行选择，而我同时需要这两个程序... 感谢大家的支持！

浏览 0提问于2012-07-29得票数 1

2回答

如何使用Amazon的EMR在CLI中指定带有自定义jar的映射配置& java选项？

java、hadoop、mapreduce、elastic-map-reduce、emr

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如mapred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言(如ruby或python)运行时，我们可以使用以下方式指定这些配置：我尝试了以下几种方法，但都没有奏效： jar S3://somepathinput -arg s3://somepath/output -args -m，mapred.min.split.size=528

浏览 3提问于2012-02-14得票数 7

回答已采纳

1回答

如果数据对于1个减速器(RHadoop)来说变得很大，该怎么办？

r、hadoop、mapreduce、rhadoop

我是大数据和hadoop的新手。我试着用mapreduce找到中位数。据我所知，映射器将数据传递给1个reducer，然后1个reducer使用median()函数排序并找到中间值。R在内存中运行，那么如果数据太大而无法存储在一台计算机上运行的一个reducer中怎么办？以下是我使用RHadoop查找median的代码示例。map <- function(k,v) { k

浏览 15提问于2019-12-23得票数 1

1回答

在EC2上运行mapreduce作业时如何获取文件名？

python、amazon-ec2、mapreduce、amazon-emr

我正在学习elastic mapreduce，并从Amazon教程部分提供的Word Splitter示例开始(代码如下所示)。该示例为提供的所有输入文档中的所有单词生成字数统计。但是我想通过文件名得到字数统计的输出，也就是一个特定文档中的字数。由于字数统计的python代码接受来自stdin的输入，我如何辨别哪个输入行来自哪个

浏览 2提问于2011-11-10得票数 1

回答已采纳

点击加载更多

Amazon Elastic MapReduce - python地图和reduce代码的格式或示例

是否可以在Hadoop 0.20中使用Avro？

如何从Python中为runner指定输入文件？

是否可以使用.NET为亚马逊弹性MapReduce编写map/reduce作业？

如何在Amazon EMR上配置Hadoop参数？

如何使用红移查询S3公共数据集

Hadoop入门的最简单方法

Amazon云实例之间的Python多处理

Hadoop/Elastic Map Reduce与二进制可执行文件？

试图在MongoDB MapReduce调用中包含查询

MapReduce未排序

以文件名为关键字，以内容为值的MapReduce，许多小文件

我应该在哪里写mapreduce程序

mapReduce模式的最好的python实现是什么？

我可以用不同的语言编写映射器和归约器程序吗

Hadoop Containder的运行超出了物理内存限制。

EMR - Hive和Java的结合

如何使用Amazon的EMR在CLI中指定带有自定义jar的映射配置& java选项？

如果数据对于1个减速器(RHadoop)来说变得很大，该怎么办？

在EC2上运行mapreduce作业时如何获取文件名？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐