Python中的MRJob排序

文章/答案/技术大牛

发布

1回答

使用mrjob读取多个HDFS文件或S3文件？

、

我有大量数据存储在HDFS系统中(或者，在亚马逊S3中)。不幸的是，当运行mrjob并给出HDFS文件名或包含的目录名时，我得到一个错误。例如，这里我将数据存储在目录hdfs://user/hadoop/in1/中。为了测试我的文件是hdfs://user/hadoop/in1/BCES_FY2014_clean.csv，

浏览 2提问于2015-12-07得票数 1

1回答

在Mac上使用pip安装的ImportError

、、、

我使用mrjob安装了一个名为sudo pip install mrjob的模块。当我启动python并尝试导入它时，我会得到ImportError: No module named mrjob。使用iname，我发现mrjob安装在/lib/python2.7/site-packages/中，而我的所有Python模块都安装在/usr/local/

浏览 1提问于2013-08-29得票数 0

2回答

无法在python中使用mapreduce

、、、

我正在尝试学习使用python mrjob的mapreduce程序。() mr_job.execute() File "/usr/local/lib/python2.7/d

浏览 0提问于2013-10-04得票数 2

1回答

我将mrjob.conf文件放在/home目录中，并试图通过命令运行作业，我得到了以下错误：文件"/Users/bimalthapa/anaconda/lib/python2.7/site-packages/mrjob-0.4.6- py2.7.EGG/mrjob/conf.py. or“，第283行，在conf_object_at_path with (Conf_path)中</em

浏览 1提问于2016-06-14得票数 0

回答已采纳

2回答

映射/减少计数的两阶段排序

、、

此python3程序尝试使用map/reduce从文本文件中生成单词的频率列表。我想知道如何对单词count进行排序，在第二个reducer的appear语句中表示为'count‘，以便最大的计数值出现在最后。"python MapReduceWordFreqCounter.py book.txt 以下是MapReduceWordFreqCoun

浏览 16提问于2017-02-04得票数 1

2回答

Python模块导入错误"ImportError:没有名为mrjob.job的模块“

、、、

系统: Mac OSX 10.6.5，Python 2.6from mrjob.job import MRJob MRWordCounter.run():~ vskarich$ pythonmrjob_test.py &

浏览 0提问于2010-11-17得票数 4

回答已采纳

1回答

在Hadoop上使用mrjob启动作业时出错

、、、

我是hadoop和mrjob的新手，这本书对我的学习帮助很大。我试图在hadoop上运行mrSVM.py，因为它在本地运行得很好。local/lib/python2.7/dist-packages/mrjob-0.4.3_dev-py2.7.egg/mrjob/job.py", line 480, in executeFile "&

浏览 2提问于2014-08-18得票数 2

1回答

如何从warc文件中读取记录子集

、、

我试图用Python解析来自.warc的文件。如何截断文件，使其只包含第一个X行，同时保留已到位的换行符/回车？/local/lib/python2.7/site-packages/mrjob/launch.py"，第214行中，在"/var/cc-mrjob/venv&#

浏览 4提问于2015-05-20得票数 0

回答已采纳

1回答

、、

我有一个任务，需要我在python中使用mapper/reducer来完成客户数据的MapReduce。我有一个CSV文件，其中包含CustomerID、ProductID和花费的金额。第一个任务是确定每个客户的总花费，我很容易就完成了。接下来的部分要求我接受这个列表，并按总花费按降序排序。我在这里挣扎..。建议在另一个MapReduce之上使用MapReduce。以下是我的代码：from mrjob.job import <e

浏览 11提问于2018-01-30得票数 1

1回答

Map-减少/Hadoop按整数值排序(使用MRJob)

、、、、

这是一个MRJob实现的一个简单的地图减少排序功能。在beta.py中 def mapper(self, _, line):现在的问题是，如果键的类型是string (这里可能就是这种情况)，那么输出就会排序。中</em

浏览 1提问于2013-11-23得票数 1

1回答

使用mrjob* subprocess.CalledProcessError的Python作业*

、、

我正试图在我的自定义数据上从mrjob的网站上运行基本示例。我已经使用流成功地运行了Hadoop映射还原，我也成功地尝试了没有Hadoop的脚本，但是现在我尝试通过mrjob命令在Hadoop上运行它。 def mapper

浏览 2提问于2014-08-24得票数 2

回答已采纳

1回答

MrJob会花费大量时间将本地文件复制到hdfs中

、、

我遇到的问题是:已经将我的input.txt (50MB)文件放入HDFS后，我正在运行MrJob似乎花费了大量时间将文件复制到hdfsCopying local files into hdfs:///user/mysel

浏览 1提问于2015-09-27得票数 1

3回答

如何将EMR流作业的输出写入HDFS？

、、、

我看到人们将EMR输出写到HDFS的，但是我还没有找到它是如何实现的例子。最重要的是，似乎说，EMR流作业的-输出参数必须是一个S3桶。当我实际尝试运行一个脚本(在本例中，使用python和mrJob)时，它会引发一个“无效的S3 URI”错误。/mrjob/job.py", line 501, in execute

浏览 6提问于2013-05-08得票数 3

1回答

从崇高文本2运行Map/Reduce程序

、、

我刚刚开始了一个关于map，还原和Hadoop的教程系列。设置指令要求在MRjob中使用名为Canopy的IDE。我安装了这两种设备，而且一切正常。但是..。如果Canopy只是一个Python，那么我不能用任何东西代替它(例如intellij或崇高文本)吗？当我在崇高文本中运行相同的python脚本时，我会得到以下错误： File "..我有多个版本的pyt

浏览 3提问于2016-01-11得票数 1

2回答

所有的reducers是如何得到一个单一的答案的？

、

我开始使用mrjob python包学习MapReduce。mrjob文档列出了以下代码片段作为示例MapReduce脚本。"""The classic MapReduce job: count the frequency of words.from mrjob.job import MRJob import re组合器(不需要运行)做什么，以及归约器是如何对来自映射器和组合器的混洗和排序的<

浏览 0提问于2012-09-17得票数 1

1回答

mrjob add_file_arg() csv文件

、、

我在理解如何使用mrjob的add_file_arg()时遇到了问题。我正在尝试向我的映射器传递一个带有person属性的csv，并在映射器中查找每个人的属性。这是我到目前为止的代码： def configure_args(self): super(MRPeopleScores,/mrjob/job.py", line 46

浏览 0提问于2018-05-19得票数 0

1回答

如何在EMR上运行mrjob

、、

我将mrjob.conf、readme.txt和word_count.py文件上传到了~/hello_mapreduce文件夹中的EC2实例中，并尝试运行以下命令： mr_job.execute() File "/usr/local/lib/<

浏览 3提问于2014-08-09得票数 1

回答已采纳

3回答

在Ubuntu 14.04上安装Anaconda -安装mrjob

、、、

安装进行得很顺利，除了最后三个包外：我可以从终端安装它们，但是它们安装在我以前的Python环境中，而不是安装在anaconda环境中。如何将这些软件包安装到我的anaconda环境中？

浏览 4提问于2015-04-10得票数 0

回答已采纳

1回答

cloudera cdh 5群集的mrjob* NoFIleFound异常*

、、、

当我试图在hadoop集群上运行mrjob示例时，我得到了这个错误。我已经设置了我的hadoop_home，我还可以在hdfs文件系统上创建一个新的dir。如果我使用hadoop流，我可以运行python map-reduce。只有在mrjob的情况下，我才会遇到这个问题。/mrjob/job.py", line 512, in execute super(MRJob, self).execute() File

浏览 1提问于2015-02-27得票数 0

1回答

Python3 MRJob输出未排序的键值对。

、、、

上下文没有自定义配置的mrjob==0.6.2 我正在为本地地图减少作业实现基本单词计数示例。我的映射器使用简单的regex将书中的每一行单词从.txt文件中的1映射到1。减速机计算每个单词的次数，即按每个单词分组的1的数目。但键值对没有全局排序。结果似乎只是按字母顺序排列在数据块中。获得

浏览 0提问于2018-05-09得票数 1

点击加载更多

使用mrjob读取多个HDFS文件或S3文件？

在Mac上使用pip安装的ImportError

无法在python中使用mapreduce

在AWS上运行MRJOB时出错

映射/减少计数的两阶段排序

Python模块导入错误"ImportError:没有名为mrjob.job的模块“

在Hadoop上使用mrjob启动作业时出错

如何从warc文件中读取记录子集