在EMR中的所有从节点上运行自定义shell脚本_在bash脚本内的自定义shell实例中运行命令_在Dockerfile中的入口点上运行java程序和shell脚本 - 腾讯云开发者社区

python-2.7、boto3、amazon-emr

我是AWS EMR的新手，我从EMR中的shell脚本安装我的python库依赖项。但此安装不影响从节点(核心/任务)，依赖项安装在主节点中。因此，现在我正在尝试编写一个在从节点上安装依赖项的脚本。使用boto3框架，我能够检索ID。 response = emr_client.list_instances( ClusterId=cluster_id ) instances =[] for i in xrange(len(response["Instances"])): print response["Instances"][i]["

浏览 2提问于2018-03-27得票数 0

1回答

在电子病历从设备上运行命令？

apache-spark、hadoop-yarn、emr、amazon-emr

我正在尝试使用pip install在所有从机器上更新正在运行的EMR集群。我该怎么做呢？我不能使用bootstrap步骤来完成它，因为它是一个长时间运行的EMR，我不能将其删除。 EMR集群正在运行Spark & Yarn，所以我通常会使用spark slaves.sh，但我在主节点上找不到该脚本。是不是安装在我找不到的地方？或者有什么方法可以安装它吗？我见过其他问题，说使用yarn分布式shell，但我找不到如何做到这一点的工作示例。顺便说一句，我相信集群使用的是EMR 4.8.0，Spark 1.6.1。

浏览 0提问于2016-12-01得票数 9

1回答

如何确保所有EMR核心节点在任何时候都包含密钥存储文件？

amazon-web-services、amazon-emr

我需要一个EMR上的所有核心节点在/usr/local/spark/conf/目录中包含一个keystore文件。当核心节点继续调整大小时，这就特别具有挑战性，因为任何新提出的核心节点都将没有keystore文件，甚至没有/usr/local/spark/conf/目录。我需要自动化在任何新启动的核心节点上使用keystore文件填充这个目录的过程。我已经创建了一个shell脚本，用于创建/usr/local/ S3 /conf目录，然后从Amazon中获取密钥存储文件，从而填充该目录。问题是让这个shell脚本在任何新提出的EMR核心节点上自动运行。 mkdir -p /usr/local

浏览 0提问于2019-06-27得票数 2

回答已采纳

2回答

当我使用自定义AMI时AWS EMR配置失败

amazon-web-services、amazon-ec2、amazon-emr、amazon-ami

问题：I在cloudformation模板中定义了一个EMR集群(以及许多其他资源)。我使用api来提供堆栈。它能工作，我可以成功地提供堆栈。然后，我做了一个更改:我为我的EMR集群指定了一个自定义AMI。现在，当我提供堆栈时，EMR配置失败了。现在，由于EMR配置失败，我的堆栈创建失败了。我能找到的唯一信息是控制台上的一个错误：null: Error provisioning instances.。深入了解每个实例，我发现主节点由于错误Status: Terminated. Last state change reason:Time out occurred during bootstr

浏览 0提问于2019-02-07得票数 0

回答已采纳

2回答

使用aws emr脚本运行器运行脚本与从bash运行脚本有何不同？

bash、amazon-web-services、emr

我在aws emr上使用了脚本运行程序，并且考虑到它看起来可能是非常基本的(可能是stuid)问题，但是我阅读了许多文档，没有人回答我们为什么需要emr中的脚本运行程序，而它所做的就是在主节点中执行脚本。不能使用bash运行相同的脚本吗？

浏览 4提问于2015-12-28得票数 1

回答已采纳

1回答

将文件从FTP下载到amazon EMR

amazon-emr

我需要从FTP服务器下载文件到amazon EMR，我有一个shell脚本来下载文件，但它在linux计算机上工作，而不是在amazon EMR namenode中。我没有收到任何错误，终端在运行shell脚本后没有显示任何内容。注意:我已经在主安全组上启用了端口。我知道将FTP下载到s3然后再下载amazon EMR的另一种方法，但我需要直接将文件下载到Amazon EMR。

浏览 1提问于2014-06-23得票数 0

1回答

在AWS EMR从节点中找不到模块

python、amazon-web-services、apache-spark、pyspark、emr

我目前正在AWS EMR集群上运行spark-submit作业。我开始遇到python包问题，在导入过程中找不到模块。一个显而易见的解决方案是进入每个单独的节点并安装我的依赖项。如果可能的话，我想避免这种情况。我可以做的另一个解决方案是编写一个bootstrap脚本并创建一个新集群。最后一个可行的解决方案是，我还可以pip install我的依赖项并将它们压缩，然后通过--py-files将它们传递给spark-submit作业。尽管随着我的需求增加，这可能会变得很麻烦。我可能忽略了任何其他建议或简单的修复方法？

浏览 7提问于2018-01-25得票数 4

3回答

如何在Amazon EMR上重新启动HDFS

hadoop、hdfs、emr

我在Amazon EMR群集上对HDFS的设置进行了一些更改。我想重新启动namenode和datanode以使更改生效。我在namenode(master)和datanodes上都找不到任何这样做的启动和停止脚本。重启集群的方式应该是什么？

浏览 4提问于2015-08-25得票数 2

1回答

有什么好的方法可以把Talend的工作和亚马逊的EMR结合起来吗？

hadoop、talend、emr

目前，我正试图将AWS EMR与Talend集成起来。我的目的是在AWS EMR上运行Talend作业(由Talend studio导出)。我已经尝试过“添加步骤作为自定义jar"，但是似乎Talend作业也使用了导出的lib文件夹和脚本来运行。我想用fat jar运行它，但是这个问题表明我们不能这样做，因为缺少一个将jar文件导出为fat JAR的特性。-> 有什么好的方法可以把Talend的工作和亚马逊的EMR结合起来吗？

浏览 3提问于2017-04-24得票数 0

回答已采纳

2回答

如何将文件上载到新的EMR群集

python、amazon-web-services、apache-spark、emr

我想要创建一个新的EMR集群，运行一个PySpark作业并销毁它。理想情况下，我希望通过在创建集群时添加一个步骤来做到这一点。在本地运行以启动作业的命令如下所示： spark-submit calculate.py --input x.csv --output output 我不明白的是如何确保calculate.py已经在主节点上可用。我看到了从S3桶中读取python脚本的引用，但我无法做到这一点。现在，我有了单独的命令来创建集群，将脚本放在主节点上并添加步骤。这方面的问题是，集群在作业步骤完成后继续运行。

浏览 2提问于2015-09-28得票数 6

回答已采纳

2回答

使用亚马逊弹性MapReduce的Numpy和Scipy

python、numpy、scipy、mrjob

使用mrjob在亚马逊的Elastic MapReduce上运行python代码，我已经成功地找到了一种方法来升级EMR镜像的numpy和scipy。从控制台运行以下命令： tar -cvf py_bundle.tar mymain.py Utils.py numpy-1.6.1.tar.gz scipy-0.9.0.tar.gz gzip py_bundle.tar python my_mapper.py -r emr --python-archive py_bundle.tar.gz --bootstrap-python-package numpy-1.6.

浏览 2提问于2011-11-12得票数 9

1回答

显示状态的EMR群集步骤被取消

shell、amazon-web-services、amazon-ec2、amazon-emr

我正在尝试通过shell脚本创建一个EMR集群&我已经添加了一些步骤(通过shell脚本)，这些步骤将在EMR集群获得我的脚本的created...Some运行和显示状态"Complete“时执行，而一些显示出来的EMR集群浏览了”Canced“one的日志，它能够打印出我想要的变量，为什么这个步骤显示它的状态为”Canced“？

浏览 4提问于2016-10-05得票数 3

1回答

在AWS EMR中不导入Python包

python、python-3.x、amazon-emr、livy

我正在尝试通过Livy向EMR集群提交作业。我的Python脚本(提交作业)需要导入一些包。我已经在EMR的主节点上安装了所有这些包。主脚本驻留在S3上，脚本调用该脚本将作业从EC2提交给Livy。每次我尝试在远程机器(EC2)上运行作业时，它死于声明导入错误(没有模块名为mod name ) 我已经被困在这个问题上一个多星期了，也找不到可能的解决方案。任何帮助都将不胜感激。谢谢。

浏览 7提问于2020-03-30得票数 1

回答已采纳

1回答

关于EMR的Apache Gi相图

hadoop、emr、giraph

有没有在EMR上尝试过Apache Gi相术？在我看来，在EMR上运行的唯一要求是向作业流配置中添加适当的引导脚本。然后，我应该只需要使用一个标准的自定义JAR启动步骤来启动Giraph，并为我的Gi相图程序提供适当的参数。任何文档/教程，或如果您可以分享您的经验与Gi相册关于EMR，这将是非常感谢。

浏览 1提问于2014-02-28得票数 2

回答已采纳

2回答

基于Jenkins的B机A机运行生成

maven、selenium-webdriver、jenkins、testng

我有两台电脑。Com-A，Com-B。我在Com-A上使用selenium、Testng和maven构建了自动化功能脚本。 Com-A已经安装了Jenkins的所有东西，但是Com-B只有jenkins，我可以从Com-B运行部署在Com-A的构建吗？或者我也要把所有必要的软件安装到Com-B？

浏览 6提问于2016-05-13得票数 11

回答已采纳

1回答

如何在EMR任务/从节点上安装hive？

amazon-web-services、mapreduce、hive、emr

我让hive在EMR主节点上运行，但我需要在EMR任务/从节点上运行hive命令行。有谁知道怎么做吗？谢谢!

浏览 0提问于2017-03-21得票数 1

3回答

AWS EMR如何调整尺寸

hadoop、amazon-web-services、apache-spark、emr、amazon-emr

今天我在使用AWS电子病历时，想到了一些问题。 EMR为我们调整集群的大小提供了非常简单的方法，添加删除一些节点是很容易的。在apache中，我们可以修改slaves文件以更改添加或删除节点。但是我在电子病历中找到了slaves文件，它只包含localhost，我找不到任何其他配置来指示从服务器在哪里。 EMR如何在主节点中添加或删除节点而不重新启动节点？

浏览 8提问于2016-03-29得票数 1

回答已采纳

1回答

如何在EMR中向任务节点添加自定义节点标签

apache-spark、hadoop-yarn、amazon-emr、spot-instances、cost-optimization

我只想在AWS EMR集群中的任务节点上运行我的火花执行器，而纱线标签是实现这一目标的方法之一。我可以在提交火花时指定标签。我想实现以下目标在群集start-up.Associate期间，向在自动缩放.期间加入我的集群的任何节点添加自定义标签。我想这样做，这样我就可以通过确保所有的执行者都能在现场运行来降低集群的成本。

浏览 7提问于2021-05-28得票数 0

1回答

在电子病历中获取s3密钥名

amazon-web-services、hive、amazon-emr

我正在EMR上运行一个EMR脚本，从s3键中提取数据。我可以得到所有的数据并把它放在一张桌子上。问题是，我需要的一些数据都在密钥名中。如何从hive内部获取密钥名并将其放入hive表中？

浏览 4提问于2015-04-27得票数 0

回答已采纳

4回答

Amazon -当我们有核心节点时，任务节点的需求是什么？

hadoop、hadoop2、amazon-emr

我最近正在学习Amazon，据我所知，EMR集群允许我们选择3个节点。 Master，它运行主要的Hadoop守护进程，如NameNode、作业跟踪器和资源管理器。核心，运行Datanode和Tasktracker守护进程。只运行TaskTracker的任务。我问你们为什么EMR会提供任务节点？正如hadoop所建议的，我们应该在同一个节点上拥有Datanode守护进程和Tasktracker守护进程。亚马逊这么做背后的逻辑是什么？您可以将数据保存在S3流中，将其保存到核心节点上，在HDFS上进行处理，而不是将数据从HDFS共享到任务节点，这样会增加头上的IO。因为就

浏览 6提问于2017-01-07得票数 23

1回答

Spark - on电子病历saveAsTextFile不会将数据写入本地目录

hadoop、apache-spark、emr

在EMR上运行Spark (AMI 3.8)。在尝试将RDD写入本地文件时，我在name/master节点上没有得到任何结果。在我之前的EMR集群上(使用bootstrap脚本安装了相同版本的Spark，而不是作为EMR的附加组件)，数据将写入name节点上的本地目录。现在我可以看到它出现在集群中其他节点上的"/home/hadoop/test/_temporary/0/task*“目录中，但只出现在主节点上的”成功“文件中。如何才能让文件只写入name/master节点？下面是我使用的命令的一个示例： myRDD.saveAsTextFile("file:///home

浏览 2提问于2015-08-06得票数 0

2回答

如何使用SDK在EMR集群上运行Scala代码？

scala、amazon-web-services、amazon-emr

我用Scala编写了在EMR中运行集群的代码。另外，我还有一个用Scala编写的Spark应用程序。我想在EMR集群上运行此Spark应用程序。但我可以在第一个脚本(启动EMR集群)中执行此操作吗？我想用SDK完成所有这些操作，而不是通过控制台或CLI。它必须是一种自动化，而不是单一的手工作业(或最小化手动作业)。基本上；启动电子病历群集->在电子病历->上运行Spark作业完成后终止如果可能的话，我该怎么做？谢谢。

浏览 1提问于2020-03-23得票数 0

1回答

AWS EMR集群或namenode快照的可能性

amazon-web-services、snapshot、elastic-map-reduce

我刚开始使用AWS服务，并尝试了一些用例。我希望根据需要创建EMR集群，并安装一些预定义的配置和应用程序/脚本。我计划最初创建一个现有EMR集群或至少namenode的快照，然后每次创建其他集群时都使用它。但经过谷歌搜索后，我找不到任何方法来捕捉EMR集群的快照。是否可以创建快照？或者任何其他的替代方法，可以帮助我解决我的用例。感谢任何帮助。谢谢

浏览 3提问于2014-11-12得票数 5

回答已采纳

2回答

如何从glue Dev端点运行胶脚本

amazon-web-services、aws-glue

我在编辑器中写了一个胶水脚本(test.py)。我连接到glue端点并将脚本复制到端点，或者我可以存储在S3桶中。基本上胶水端点是一个EMR集群，现在我如何从dev端点终端运行脚本？我可以使用火花提交并运行它吗？我知道我们可以从胶水控制台运行它，但更感兴趣的是我是否可以从胶水终端运行它。

浏览 3提问于2018-05-20得票数 4

回答已采纳

1回答

AWS EMR引导作为sudo的引导操作

amazon-web-services、hadoop、sudo、amazon-emr

我需要更新我的EMR集群中所有实例的/etc/hosts (EMRAm4.3)。整个脚本只不过是： #!/bin/bash echo -e 'ip1 uri1' >> /etc/hosts echo -e 'ip2 uri2' >> /etc/hosts ... 这个脚本需要以sudo的形式运行，否则就会失败。出发地：默认情况下，引导操作作为Hadoop用户执行。您可以使用sudo使用根权限执行引导操作。好消息..。但我不知道该怎么做，也找不到一个例子。我试过很多东西..。包括..。以Hadoop的形式运行，并在脚

浏览 1提问于2018-08-29得票数 4

回答已采纳

2回答

当通话程序从启动时运行时，主服务器上没有收到消息。

bash、ros

我和ROS一起工作。我在一台Ubuntu16.04机器上有一个检测节点充当对话者(det_talker.py)，而另一个节点充当侦听器(det_listener.py)。我打算在主(一台Ubuntu14.04机器)上运行侦听器来接收从说话者发送的消息。当我从主程序上的侦听器后面的终端运行对话器时，我可以看到在主机上接收到的消息。但是，当我运行同一个talker节点时，我会在bash脚本中放置必要的命令来获取setup.bash文件，并为主服务器配置IP，然后从启动时(通过在启动应用程序中添加脚本)运行这个脚本，我无法在主服务器上看到任何消息。计算机上具有talker节点的配置： ROS

浏览 2提问于2018-07-03得票数 1

回答已采纳

1回答

更新引导程序操作时，如何在AWS EMR上重新运行引导程序操作？

amazon-web-services、amazon-emr

我需要在EMR集群上安装一些python包，在创建集群时，我可以在EMR的bootstrap操作中写下一些pip install blabla...命令，这些安装命令将在为集群分配机器时运行。好的，如果现在创建了集群，稍后我需要安装一些没有在引导程序操作中写入的其他新包，该怎么办？我没有找到任何针对这种情况的方法，我是否必须使用新的引导操作重新创建一个新的集群？

浏览 1提问于2017-04-05得票数 1

1回答

AWS EMR在集群中所有已运行的计算机上执行"bootstrap“脚本

python、amazon-web-services、boto、emr、amazon-emr

我有一个全天候运行的EMR集群，我不能关闭它并启动新的集群。我想要做的是在已经运行的集群上执行像bootstrap操作这样的操作，最好使用Python和boto或AWS CLI。我可以想象在两个步骤中做到这一点： 1)在所有正在运行的实例上运行该脚本(如果可以这样做的话就更好了，例如在boto中) 2)将脚本添加到引导操作中，以防我想要调整集群大小。所以我的问题是:使用boto或至少使用AWS CLI可以实现这样的事情吗？我正在浏览github上的文档和源代码，但我不知道如何在集群已经运行的情况下添加新的"bootstrap“操作。

浏览 1提问于2014-10-27得票数 17

2回答

在EC2上使用Spark分发集群创建中的文件

amazon-ec2、amazon、apache-spark

我正在亚马逊的EC2基础设施上与斯派克合作。在执行我的Spark应用程序之前，我需要将一个自定义文件(在我的例子中是一个本机库)分发并发送到所有的工作节点上。我正在寻找类似于亚马逊的弹性MapReduce (EMR)提供的引导功能，开发人员可以在启动阶段在每个节点上运行自定义脚本。到目前为止，我已经使用了copy-dir脚本(位于spark-ec2文件夹上)，该脚本将确定的文件复制到集群中的所有可用节点中，这些节点的工作方式如下：假设需要在所有节点中存在一个本机库(myLib.so)。第一步是将文件定位到我们希望在集群中传播的确切目录中。之后，我们可以按如下方式运行copy-dir脚本：

浏览 1提问于2014-08-30得票数 4

1回答

在EMR中的所有从节点上运行自定义shell脚本

hadoop、amazon-emr、aws-step-functions

AWS步骤文档说步骤只在主节点上执行，这是否意味着即使我登录到任何从节点并在其上执行add - Step命令，该命令也只会将步骤添加到主节点上？那么，我如何在所有从节点上执行自定义shell脚本呢？引导不是一个选项，因为shell脚本要求已经创建了emrf-site.xml，这在EMR完全启动并运行之前不会发生。

浏览 6提问于2019-10-18得票数 2

2回答

设置Jupyter Pyspark在EC2和EMR之间工作

amazon-web-services、apache-spark、amazon-ec2、pyspark、jupyter-notebook

我在EMR里运行了一个spark集群。我还有一台运行在第二台EC2机器上的jupyter笔记本电脑。我想通过jupyter在我的EC2实例上使用spark。我正在寻找有关如何配置spark以从EC2访问EMR集群的参考资料。搜索给我的只是关于如何在EMR或EC2上设置spark的指南，而不是如何从另一个上访问它们。我在这里看到了类似的问题：然而，那里的设置使用引导操作来设置齐柏林飞艇，我不确定如何在EC2上编辑我的hadoop配置。

浏览 18提问于2017-06-28得票数 0

1回答

AWS EMR任务节点的Flink

apache-flink、amazon-emr、flink-streaming

是否可以在AWS EMR的任务节点上运行Flink任务管理器？如果是，它与在核心节点上运行任务管理器有什么不同？

浏览 2提问于2020-11-01得票数 0

回答已采纳

1回答

从EMR中的Spark默认类路径中删除JAR

apache-spark、amazon-emr、spark-submit

我在EMR步骤中执行一个spark-submit脚本，它将我的超级JAR作为主类，如下所示 spark-submit \ .... --class ${MY_CLASS} "${SUPER_JAR_S3_PATH}" ..。等但是Spark默认加载JAR文件:/usr/lib/spark/jars/Guice-3.0.jar，其中包含com.google.inject.internal.InjectorImpl，这个类也在我的超级jar中的Guice-4.x jar中。这会在我的服务启动时产生一个java.lang.IllegalAccessError。

浏览 0提问于2019-05-22得票数 1

3回答

如何将EMR中的自定义环境变量设置为可用于spark应用程序

amazon-web-services、hadoop、apache-spark、environment-variables、emr

我需要在EMR中设置一个自定义环境变量，以便在运行spark应用程序时可用。我已经尝试添加以下内容： ... --configurations '[ { "Classification": "spark-env",

浏览 1提问于2017-02-22得票数 12

1回答

如何启用EMR核心节点上的python库启动EMR spark应用程序步骤

python、amazon-web-services、apache-spark、hadoop、amazon-emr

我正在尝试使用一个非常简单的python脚本运行一个EMR (1个主节点和2个核心节点)步骤，我将该脚本上传到s3中，用于EMR应用程序步骤。此脚本读取data.txt文件中的S3并将其保存回去，如下所示， import pyspark import boto3 sc = SparkContext() text_file = sc.textFile('s3://First_bucket/data.txt') text_file.repartition(1).saveAsTextFile('s3://First_bucket/logdata') sc.stop(

浏览 1提问于2020-02-08得票数 1

1回答

爬行脚本中的Nutch numSlaves参数

nutch、emr

我正在使用Nutch 1.9来抓取一套500个网站。我在Amazon集群中运行nutch，并将数据索引到Solr。在启动EMR集群时，我已经从5个从节点开始。我已经在爬行脚本中将numSlaves参数指定为5。我想把我的奴隶增加到10个，以加快这个过程。我可以将AWS控制台中的从节点数量增加到10个。nutch会利用所有10个从节点而不重新启动我的爬行或修改爬行脚本。谢谢

浏览 1提问于2015-09-21得票数 0

回答已采纳

1回答

将文件从s3移动到电子病历并解压(Scala)

scala、amazon-web-services、apache-spark、amazon-s3

我在S3上有一个很大的.tar.gz文件，我想把它移动到EMR HDFS (或临时S3存储桶)并解压缩，这样我就可以读取里面的一些小文件了。我现在正在做的是有一个外壳脚本将文件从S3下载到本地(使用AWS CLI)，并让scala/spark作业在未压缩的下载文件上运行以生成一些结果。我想要做的是在一个Scala/Spark作业中做所有的工作，它应该将文件从S3移动到EMR (或另一个S3临时位置)解压缩并处理文件。我知道我们有可以在S3和EMR之间移动文件的，但是我如何在Scala代码中使用它(目前我只能在EMR shell中运行S3DistCp )？我们是否有任何库来使用该命令？另

浏览 1提问于2018-02-21得票数 1

1回答

启动动作EMR后应用程序安装

amazon-emr

我试图提供一个电子病历与一个引导的行动。我可以看到标准的日志，它完成的很好。最后一个操作是安装boto3。 Installing collected packages: jmespath, python-dateutil, botocore, s3transfer, boto3 Successfully installed boto3-1.18.28 botocore-1.21.28 jmespath-0.10.0 python-dateutil-2.8.2 s3transfer-0.5.0 但是，在该EMR失败后，“在主实例上，应用程序配置失败”。见下面的日志。我认为这可能是因为我在引导程

浏览 6提问于2021-08-25得票数 1

1回答

如何在AWS集群上运行TensorFlow？

python、amazon-web-services、amazon-ec2、tensorflow

我试图在EMR/EC2集群上运行分布式tensorflow，但是我不知道如何在集群中指定不同的实例来运行部分代码。在文档中，他们使用tf.device("/gpu:0")来指定gpu。但是，如果我有一个主CPU和5个不同的从级GPU实例在EMR集群中运行，并且我想指定那些GPU来运行一些代码，该怎么办？我无法使用实例的公共DNS名称输入tf.device()，因为它会引发一个错误，说明名称无法解析。

浏览 3提问于2016-07-13得票数 17

1回答

在Amazon AWS上使用python从另一台EC2服务器处理HBase电子病历

python、amazon、hbase

我在Amazon AWS上创建了一个服务器EC2，并安装了用于使用HBASE的HappyBase python库。另外，我在EMR中创建了一个工作集群Hbase。然后我尝试在EC2上的第一个服务器上运行该脚本： import happybase connection = happybase.Connection('….us-west-2.compute.amazonaws.com') connection.open () print connection.tables () 但我得到一个错误，服务器找不到。作为主机，我有Hbase集群公共dns。使用python happyba

浏览 0提问于2013-11-24得票数 1

2回答

在EMR上运行pyspark脚本

python、apache-spark

目前，我使用EC2s集群使用预配置的./ec2目录自动化了Apache脚本。出于自动化和调度的目的，我想使用Boto EMR模块向集群发送脚本。我能够引导并在EMR集群上安装Spark。我还可以在EMR上启动一个脚本，方法是使用本地机器的火花放电版本，并像这样设置主程序： $: MASTER=spark://<insert EMR master node of cluster here> ./bin/pyspark <myscriptname.py> 但是，这需要我在本地运行该脚本，因此我无法充分利用Boto的能力来启动集群2)添加脚本步骤和3)停止集群。我已经找到了

浏览 4提问于2014-04-25得票数 25

3回答

使用Airflow dag创建EMR群集运行，一旦任务完成，EMR将终止

apache-spark、hadoop、airflow、amazon-emr

我有Airflow作业，它们在EMR集群上运行得很好。我需要的是，假设我有4个airflow作业，需要EMR集群20分钟才能完成任务。为什么不呢?我们可以在DAG运行时创建一个EMR集群，一旦作业完成，它将终止创建的EMR集群。

浏览 4提问于2019-03-19得票数 2

1回答

配置单元13.0 UDF实现类'...‘不存在于类路径中

hive

在Amazon EMR上使用Hive 13.0.1时，我遇到了奇怪的行为。当我尝试使用UDF并运行运行配置单元-e "...“的外部外壳脚本时，就会出现这种情况。命令我们一直在使用shell脚本将分区动态添加到表中，并且在Hive 0.11中从未遇到过任何问题然而，在配置单元0.13.1中，以下简化示例中断： add jar myjar; create temporary function myfunc as '...'; create external table mytable... !hive -e ""; select myfunc(some

浏览 0提问于2015-06-23得票数 1

2回答

如何在aws上已运行的EMR群集上安装apache drill

amazon-web-services、amazon-emr、apache-drill

我有一个持久的正在运行的EMR集群。我不想毁了你。如何在aws上已运行的EMR群集上安装apache drill？

浏览 6提问于2017-08-20得票数 1

1回答

在EMR上运行python spark

apache-spark、pyspark、emr

我们很难在EMR上运行python spark任务。 aws emr add-steps --cluster-id j-XXXXXXXX --steps \ Type=CUSTOM_JAR,Name="Spark Program",\ Jar="command-runner.jar",ActionOnFailure=CONTINUE,\ Args=["spark-submit",--deploy-mode,cluster,--master,yarn,s3://XXXXXXX/pi.py,2] 我们正在运行相同的这个脚本会运行，但它会一直运行来

浏览 18提问于2016-09-21得票数 0

回答已采纳

1回答

在AWS中使用weka将主机名分配给hadoop作业

hadoop、amazon-web-services、hdfs、weka、emr

我一直在本地机器上使用wekaDistributedHadoop1.0.4和wekaDistributedBase1.0.2包来运行一些基本作业。必须填写"HDFS主机“字段才能运行作业。自从我在本地机器上测试以来，我一直在使用"localhost“，它工作得很好。在AWS EMR上运行时，我盲目地尝试使用"localhost“，但作业失败。我想知道的是，我应该在字段中输入什么主机名，以便weka可以调用正确的主机？是启动集群时提供的公共DNS名称，还是API中有为我获取该地址的方法？

浏览 2提问于2014-01-22得票数 1

1回答

AWS EMR -如何在所有从节点上自动编辑文件？

python、matplotlib、edit、amazon-emr、worker

我正在AWS EMR集群的所有从节点上运行Python脚本。我需要在每个从节点上配置matplotlib使用非交互后端，否则会出错() 我当前的解决方案是手动ssh到每个从节点，并手动编辑/usr/local/lib64/python2.7/site-packages/matplotlib/mpl-data/matplotlibrc： backend : agg 显然，这种方法非常耗时且效率低下。有没有人能提供一个在所有从节点上自动执行此任务的小(伪)代码片段？

浏览 0提问于2018-03-27得票数 0

3回答

EMR5上的S3-Dist-Cp故障

amazon-web-services、amazon-emr、s3distcp

我在emr-5.0.0版本中遇到了s3-dist-cp命令的问题。在我的应用程序中，我需要将一些文件从hdfs推送到S3。我使用s3-dist-cp命令来实现这一点。它在emr-4.2.0中运行良好。但它在emr-5.0.0中不起作用。如果我手动运行该命令，它工作得很好。但它在我的应用程序中失败了。我没有在我的应用程序中做任何更改来在emr-5上运行它。如果我需要使用emr-5，我需要做任何更改吗？我们在emr-5中使用s3-dist-cp命令的方式有什么变化吗？我正在使用以下命令： s3-dist-cp --src /user/hive/warehouse/abc.text --dest

浏览 2提问于2016-10-02得票数 4

2回答

如何在远程星火库集群上运行本地Python脚本？

python、amazon-web-services、amazon-ec2、pyspark、amazon-emr

我在一个木星笔记本上运行了一个本地Python脚本，它在我的机器上运行我的本地Spark集群上的作业： sc = pyspark.SparkContext(appName="test") sqlCtx = pyspark.SQLContext(sc) 如何将此更改为连接字符串，以便在AWS中运行我的EMR集群上的作业？这是可能的，还是当SSH‘’ing进入远程集群时，我必须使用spark-submit函数？

浏览 0提问于2018-11-02得票数 0

回答已采纳

1回答

AWS EMR step Vs命令行火花-提交

apache-spark、amazon-emr

在EMR集群的主节点上提交EMR步骤与运行火花提交步骤有什么区别？ EMR step aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10] 火花提交 spark-submit --master yarn --deploy-mode c

浏览 5提问于2021-11-09得票数 1

回答已采纳