如何在Python中通过Hortonworks Sandbox运行MapReduce脚本？

在Python中通过Hortonworks Sandbox运行MapReduce脚本，可以按照以下步骤进行操作：

安装Python：确保你的系统中已经安装了Python。你可以从Python官方网站（https://www.python.org）下载并安装最新版本的Python。
下载和配置Hortonworks Sandbox：访问Hortonworks官方网站（https://www.cloudera.com/downloads/hortonworks-sandbox.html）下载Hortonworks Sandbox。安装和配置Sandbox，确保它在你的本地环境中正常运行。
编写MapReduce脚本：使用Python编写MapReduce脚本。MapReduce是一种用于处理大规模数据集的编程模型。你可以使用Hadoop Streaming工具来运行Python脚本。确保你的脚本遵循MapReduce的编程模型，包括map函数和reduce函数。
上传脚本到Hortonworks Sandbox：将编写好的MapReduce脚本上传到Hortonworks Sandbox中。你可以使用scp命令或者其他文件传输工具将脚本从本地上传到Sandbox中。
运行MapReduce脚本：通过SSH连接到Hortonworks Sandbox，并使用hadoop命令来运行MapReduce脚本。在命令行中执行以下命令：
运行MapReduce脚本：通过SSH连接到Hortonworks Sandbox，并使用hadoop命令来运行MapReduce脚本。在命令行中执行以下命令：
其中，/path/to/hadoop-streaming.jar是Hadoop Streaming工具的路径，/path/to/input是输入数据的路径，/path/to/output是输出结果的路径，/path/to/mapper.py和/path/to/reducer.py分别是你编写的Map和Reduce脚本的路径。
查看运行结果：等待MapReduce任务完成后，你可以通过Hadoop的Web界面或者命令行查看运行结果。根据你的脚本逻辑，结果可能会保存在指定的输出路径中。

请注意，以上步骤仅适用于使用Hortonworks Sandbox运行MapReduce脚本的基本流程。具体的操作可能会因你的环境和需求而有所不同。此外，腾讯云提供了一系列与大数据和云计算相关的产品和服务，例如腾讯云EMR（https://cloud.tencent.com/product/emr）和腾讯云CVM（https://cloud.tencent.com/product/cvm），你可以根据实际需求选择适合的产品来支持你的MapReduce任务。

如何在Python中通过Hortonworks Sandbox运行MapReduce脚本？

、、、

我有Hortonworks Sandbox并运行命令： ssh root@127.0.0.1 -p 2222; 登录后，我想对位于Documents下的两个HDFS文件RatinsBreakdown.py和u.data运行MapReduce，如下所示： python RatingsBreakdown.py -r hadoop hdfs:///user/[username]/u.data --hadoop-streaming-jar

浏览 31提问于2021-09-13得票数 0

3回答

Oozie在shell操作中将hadoop命令作为yarn执行

环境: Hortonworks Sandbox HDP 2.2.4 问题:无法以root用户身份运行shell脚本中的hadoop命令。oozie作业是以root用户的身份触发的，但是当hadoop fs或任何mapreduce命令被执行时，它将以yarn用户的身份运行。作为yarn，无法访问某些文件系统，因此shell脚本无法执行。让我知道我需要做哪些更改，才能让它以root用户身份运行hadoop命令。

浏览 0提问于2015-09-03得票数 1

3回答

Ambari服务器无法添加新主机

、、、、

我正在尝试让Ambari在运行Hortonworks HDP 2.3沙箱的2台硬件机器之间工作。这两台机器都可以在没有密码的情况下成功地从终端进入彼此。我试图在主计算机(server1.hortonworks.com)上向Ambari添加一个新的数据节点(sandbox.hortonworks.com)。

浏览 1提问于2016-03-02得票数 1

1回答

通过Hadoop Streaming运行Python脚本时，得到"ValueError: No Json object via be decoded“

、、、

我正在尝试通过流在Hadoop上运行一个简单的python mapreduce脚本。映射器部分加载一个json文档，从一个属性中读取文本，并将文本中的每个单词用1表示，稍后将由脚本的缩减部分求和。代码在Hadoop之外运行得很好。一旦提交到Hadoop，映射就会失败，并显示"ValueError: No Json object map be decoded“。我正在尝试运行的Hadoop生态系统是安装了<e

浏览 1提问于2015-11-04得票数 0

1回答

从本地web应用调用MapReduce

、、

此外，我在pc的hortonworks沙箱中有一个MapReduce作业(cleandata.jar)。如何从我的web应用调用我的MapReduce .jar？

浏览 1提问于2017-04-30得票数 0

1回答

错误:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

、、

我正在使用hadoop来设计mapreduce作业。我决定创建一个自定义InputFormat。当我想在Hortonworks Sandbox上运行作业时，我得到了以下错误：根据论坛上的一些主题(如)，这是一个版本问题:在Hadoop2.x中，TaskAttemptContext是一

浏览 0提问于2014-05-08得票数 3

回答已采纳

1回答

在MAC M1上的码头上部署Hortonworks沙箱-安装错误arm64

、、、

/sandbox-hdp/tagsdocker pull hortonworks/sandbox-hdp:3.0.1 --platform linux/amd64#!/sandbox-hdp:3.0.1+ docker pull hortonworks/sandb

浏览 32提问于2022-03-15得票数 1

2回答

从外部连接kafka时出现的问题

、、、

我正在使用hortonwork Sandbox for kafka服务器，试图用java代码连接eclipse中的kafka。使用此配置连接到生产者以发送消息serializer.class=kafka.serializer.DefaultEncoderzk.connect=sandbox.hortonworks.com:2181pro

浏览 1提问于2015-03-20得票数 4

2回答

我可以在Azure虚拟机上执行类似Azure HdInsight的设置吗？

、、、

我希望在Azure VM上有一个像Azure HDInsight这样的设置，在那里我必须安装和配置Hadoop来维护整个Hadoop和spark生态系统，最重要的是，我只能为虚拟机付费，而不是为我安装的软件付费，我应该获得与HDInsight相同的性能。

浏览 1提问于2019-07-19得票数 0

1回答

使用使用mongo-hadoop和python的hadoop流的空输出集合

、、

我正在尝试使用hadoop流与mongo和python。从mongodb集合中读取工作，写入不会。如下图所示，作业成功运行，但输出集合保持为空。Hadoop分发版是带有HDP 2.2.4.2的Hortonworks Sandbox，但HDP 2.3也不能工作。已经过时了，因此我不确定是否使用了正确的参数、遗漏了什么或观察到了一个bug。: The url to track the job: http://sandbox.hortonworks.co

浏览 1提问于2015-09-24得票数 3

回答已采纳

1回答

在azure上提交用python编写的批处理作业

、、、、

如何在azure上提交用python编写的批处理作业。我正在寻找类似于此，但不是为java，而是为python。 curl -k --user "admin:mypassword1!"

浏览 0提问于2016-04-02得票数 1

1回答

如何在macOS目录中的应用程序包中运行外壳脚本

、、、、

我目前正在开发一个macOS AppKit应用程序，该应用程序依赖于运行包含在应用程序包中的shell脚本。仅当在Catalina中运行时，通过Task运行脚本时才会产生以下错误 Traceback (most recent call last): File "/System/Library/Frameworks/Python.framework/Versions

浏览 21提问于2019-11-04得票数 1

4回答

Apache Ambari不是从hortonworks沙箱开始的

、、

正如您所看到的，当访问Hortonworks沙箱的欢迎页面时，我收到一条消息说：[root@sandbox ~]# service ambari-server status Using python /usr/bin/python<

浏览 7提问于2016-04-06得票数 0

回答已采纳

1回答

如何从Python中为runner指定输入文件？

、、

我正在编写一个外部脚本，以便在我的笔记本电脑上(不是在Amazon Elastic Compute Cloud或任何大型集群上)通过Python mrjob模块运行mapreduce作业。我从上了解到，我应该使用MRJob.make_runner()从单独的python脚本运行mapreduce作业，如下所示。我想使用与mapreduce脚本和运行map reduce的其他

浏览 0提问于2012-09-25得票数 6

回答已采纳

1回答

Hortonworks HDP如何设置支持Kerberos的Kafka

、、、、

我最近下载了Hortonworks HDP VM。我能在上面运行卡夫卡。我可以通过security-protocol=PLAINTEXT.生成/使用消息如何在HDP沙箱VM

浏览 0提问于2018-12-28得票数 1

1回答

在HDP Virtualbox上连接到Hive的Apache配置

、、、

其想法是能够将其连接到在Ubuntu20.04的Virtualbox上本地运行的远程Hortonworks 2.6.5服务器。在我看来，现在似乎有一种更简单的解决方案将较新的笔记本版本连接到虚拟服务器，不幸的是，尽管这里的线程有许多尝试和解决方案，但我无法通过JDBC连接到Hive。我使用了齐柏林飞艇网站上的描述： hive.driver org.apache.hive.jdbc.HiveDriver hive.url jdbc:hive2://sandb

浏览 16提问于2022-02-19得票数 0

回答已采纳

1回答

Lupa可以用来在python中运行不可信的lua代码吗？

、、

假设我用register_eval=False和一个attribute_filter创建了LuaRuntime，它可以防止访问除几个python函数之外的任何内容。

浏览 0提问于2013-07-04得票数 5

回答已采纳

1回答

SQOOP将HDFS导出到MYSQL db

、、、

我找到了各种不同的解决方案，但没有一个有效，我甚至试图从文件中删除WINDOWS-1251字符。作为一个小的总结-我使用virtualbox和Hortonworks图像来进行这个操作。请注意，可以通过在单元中查询SELECT * FROM airqualitydata来可视化这些数据。hdfs://sandbox-hdp.hortonworks.com:8020/hadoop/airqualitydata --table airqualityda

浏览 11提问于2021-09-12得票数 1

回答已采纳

2回答

如何使用Amazon的EMR在CLI中指定带有自定义jar的映射配置& java选项？

、、、、

我想知道如何在使用自定义jar运行流作业时指定mapreduce配置，例如mapred.task.timeout、mapred.min.split.size等。当我们使用外部脚本语言(如ruby或python)运行时，我们可以使用以下方式指定这些配置：我尝试了以下几种方法，但都没有奏效： jar S3://somepathinput -arg s3://somepath/outpu

浏览 3提问于2012-02-14得票数 7

回答已采纳

2回答

按时运行脚本

、、

我试图运行一个脚本，一旦我按下电源按钮，而不是让我的机器关闭。我正在运行UbuntuServer13.04，但任何答案也需要在服务器14.04上运行。因此，在阅读了这个页面https://wiki.archlinux.org/index.php/acpid之后，我按照指示运行了sudo journalctl -f，但是这不起作用。当按下电源按钮时，我需要编辑哪些文件来执行我的脚本？我也尝试过sudo xev，这也让我没有电源按钮的输出。编辑:我还

浏览 0提问于2014-05-28得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Python中通过Hortonworks Sandbox运行MapReduce脚本？

相关·内容

如何在Python中通过Hortonworks Sandbox运行MapReduce脚本？

Oozie在shell操作中将hadoop命令作为yarn执行

Ambari服务器无法添加新主机

通过Hadoop Streaming运行Python脚本时，得到"ValueError: No Json object via be decoded“

从本地web应用调用MapReduce

错误:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext

在MAC M1上的码头上部署Hortonworks沙箱-安装错误arm64

从外部连接kafka时出现的问题

我可以在Azure虚拟机上执行类似Azure HdInsight的设置吗？

使用使用mongo-hadoop和python的hadoop流的空输出集合

在azure上提交用python编写的批处理作业

如何在macOS目录中的应用程序包中运行外壳脚本

Apache Ambari不是从hortonworks沙箱开始的

如何从Python中为runner指定输入文件？

Hortonworks HDP如何设置支持Kerberos的Kafka

在HDP Virtualbox上连接到Hive的Apache配置

Lupa可以用来在python中运行不可信的lua代码吗？

SQOOP将HDFS导出到MYSQL db

如何使用Amazon的EMR在CLI中指定带有自定义jar的映射配置& java选项？

按时运行脚本

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐