在Amazon EMR中将Zeppelin笔记本作为循环作业执行 - 腾讯云开发者社区

、、、、

我正在从Databricks迁移到Amazon EMR，并计划使用Zeppelin笔记本取代Databricks笔记本。目前，许多Databricks笔记本都被安排为作业。有没有办法在Amazon EMR中创建定期作业或添加Zeppelin笔记本作为定期步骤运行。任何对文档的引用也会很有帮助。

浏览 5提问于2019-03-13得票数 1

6回答

如何让Zeppelin在EMR集群上干净地重启？

、、、、

我正在运行一个EMR集群，并尝试使用Zeppelin笔记本进行数据分析。版本:版本标签:emr-5.2.1 Hadoop发行版: Amazon 2.7.3 配置单元2.1.0 Spark 2.0.2 Zeppelin 0.6.2 我总是在运行查询时遇到Zeppelin挂起的问题，而且我永远也无法恢复它。我试过了：将interpreterSSH'ing重新启动到主节点并运行zeppelin_daemon.sh restart (我曾尝试以hadoop //身份运行，并使用选项reload、start/stop、upstart)运行脚本每次我使用守护程序shell脚本时，它都会告诉我

浏览 2提问于2017-02-04得票数 10

2回答

是否升级EMR集群？

、、

我在EMR上使用Spark、Zeppelin、Hue等配置了一个小的、长期运行的集群。我已经配置了色调用户，我在Zeppelin中有几个我正在使用的笔记本。一切都运行良好。但是，我运行的是emr-4.3.0，我想升级到emr-4.5.0映像。我不想重新创建集群，因为我需要重新配置所有应用程序，并弄清楚如何传输用户数据(保存的笔记本、色调保存的查询等)。如何将已运行的群集升级到最新的EMR映像？

浏览 3提问于2016-04-12得票数 2

1回答

依赖项未添加到Spark + Zeppelin

、、

我不能从zeppelin向spark类路径添加自定义依赖项。环境: AWS EMR: Zeppelin 0.8.0，Spark 2.4.0 spark解释器的额外配置： spark.jars.ivySettings /tmp/ivy-settings.xml spark.jars.packages my-group-name:artifact_2.11:version 来自my-group-name的文件出现在 spark.yarn.dist.jars spark.yarn.secondary.jars 但不能通过齐柏林飞艇笔记本访问(由import my.lab._检查) 但是，当我为

浏览 23提问于2019-03-21得票数 0

1回答

有没有办法在EMR中加载install-interpreter.sh文件，以便加载第三方解释器？

、、

我正在运行一台Apache Zeppelin笔记本，我正在尝试将jdbc和/或postgres解释器加载到我的笔记本中，以便从Zeppelin写入postgres DB。加载新解释器的主要资源here告诉我运行下面的代码来获得其他解释器： ./bin/install-interpreter.sh --all 但是，当我在EMR终端中运行此命令时，我发现EMR集群没有附带install-preparter.sh可执行文件。建议的路径是什么? 1.我是否应该找到install-interpreter.sh文件并将其加载到./bin/下的EMR群集? 2.在启动时是否有启用install-in

浏览 4提问于2019-05-16得票数 0

3回答

如何从AWS EMR下载齐柏林谱仪笔记本

、、

我正在运行一个预装的齐柏林飞艇沙箱在AWS EMR4.3与火花。我已经在齐柏林飞艇上创建了一本笔记本(在EMR集群上)，现在我想导出该笔记本，以便下次我旋转EMR集群时可以快速运行它。事实证明，齐柏林飞艇还不支持笔记本电脑的输出，因为 (?) 这很好，因为很明显，如果您可以访问Zeppelin‘安装’的文件夹，那么您可以保存包含笔记本的文件夹，然后可能会将该文件夹放置在另一台计算机上的齐柏林飞艇安装中，以访问该笔记本。 (所有这些都来自) 问题是我找不到齐柏林飞艇的“安装文件夹”在EMR上的位置。 ps -“安装文件夹”可能有点不正确，根据上面的帖子，我应该在/opt/zeppelin中查

浏览 6提问于2016-03-03得票数 2

2回答

启动集群时在EMR上配置齐柏林飞艇的火花解释器

、、、

我正在电子病历上创建集群，并将齐柏林飞艇配置为从S3读取笔记本。要做到这一点，我使用的json对象如下： [ { "Classification": "zeppelin-env", "Properties": { }, "Configurations": [ { "Classification": "export", "Properties": { "ZEPPELIN_NOTEB

浏览 7提问于2017-07-26得票数 7

回答已采纳

2回答

EMR上Zeppelin中的Presto解释器

、、

可以将Presto解释器添加到AWS EMR 4.3上的Zeppelin中吗?如果可以，有人可以发布说明吗？我在EMR上运行了Presto-Sandbox和Zeppelin-Sandbox。

浏览 2提问于2016-03-08得票数 5

1回答

无法从亚马逊S3笔记本json文件中获取URL

、、、

嗨，我无法从亚马逊的S3导入笔记本后，在网站上的教程和说明。具体来说，我有一个由齐柏林飞艇( Zeppelin )在S3中创建的笔记本，2。我制作了一个安装了Zepplin、Spark等的集群。我提供了一个创建EC2集群的JSON配置文件，以便齐柏林飞艇能够将文件保存到我的S3桶中： [{“分类”：“齐柏林-env”，“属性”：{ }, "Configurations": [ { "Classification": "export", "Properties": { "ZEPPELIN_NOTE

浏览 0提问于2017-02-21得票数 0

回答已采纳

1回答

GeoSpark齐柏林飞艇helium插件

、、、

我正在尝试启用地理公园-齐柏林飞艇the插件，但无法看到地理公园-齐柏林飞艇按钮，如此link所述。我使用AWS EMR集群中提供的Zeppelin (0.8.0)。下面是我放在/usr/lib/zeppelin/helium/文件夹下的geospark-zeppelin.json { "type": "VISUALIZATION", "name": "geospark-zeppelin", "description": "Zeppelin visualization support fo

浏览 10提问于2019-03-06得票数 0

1回答

EMR上的Apache Zeppelin登录错误

、

我已经设置了一个配置了Zeppelin/Spark的EMR 4.4集群。我成功地在本地主机上安装了Zeppelin，并以匿名身份登录。我添加了一个用户和密码，并继续使用我的笔记本电脑。我后来启动了一个新的集群，现在我看到了Zeppelin的登录屏幕，它不接受我的用户名和密码。有没有办法刷新权限或找出我输入了什么？非常感谢！

浏览 2提问于2016-08-03得票数 0

回答已采纳

1回答

Amazon EMR上的sqoop安装

、、

我正在尝试按照Kyle Mulka的博客"“中描述的步骤在Amazon EMR集群上安装Sqoop。在将所需的文件上传到S3位置后，我尝试通过命令行界面运行以下EMR作业。 ./elastic-mapreduce --create --name SQOOP-INSTALL --jar s3://<YOUR-REGION>.elasticmapreduce/libs/script-runner/script-runner.jar --arg s3://<YOUR-BUCKET>/sqoop-install/install_sqoop.sh。我可以看到一个名为S

浏览 3提问于2013-11-04得票数 2

2回答

如何在亚马逊弹性MapReduce中读取外部文件

、、、

您好，我刚开始使用Amazon EMR和Hadoop。我想知道如何从电子病历作业中读取外部文件(存储在S3中)。例如，我有一个包含一长串黑名单的文件。当我的EMR作业正在处理我的输入时，我如何让作业预先读取此黑名单字符串列表，以便在处理期间使用它？我尝试使用常规的Java Scanner类并硬编码文件的S3路径，但似乎不起作用，尽管我可能只是做错了……

浏览 0提问于2012-11-17得票数 2

回答已采纳

1回答

在EMR中如何在引导期间配置Zeppelin-env.sh

、、、

我有一个通过CLI使用Spark和Zeppelin启动EMR的脚本，以及一个安装Anaconda python的引导操作。 aws emr create-cluster --applications Name=Hadoop Name=Hive Name=Spark \ Name=Zeppelin-Sandbox \ ...... \ --bootstrap-actions \ '[{"Path":"s3://mybucket/python_config.sh","Name":"Python_Config"},\ {"

浏览 3提问于2016-04-28得票数 4

2回答

如何从非EMR节点访问S3上的Hbase

、、

我正在尝试访问EMR上的hbase，以便从运行在EMR集群节点之外的java应用程序中进行读写。在ECS集群/EC2实例上运行的坞应用程序。hbase根文件夹类似于s3://<bucketname/。我需要获得hadoop和hbase配置对象，以便使用core-site.xml、hbase-site.xml文件访问hbase数据进行读写。如果hbase数据存储在hdfs中，我可以访问相同的数据。但是，当它是hbase在S3上，并试图实现同样的，我得到了以下例外。 Caused by: java.lang.RuntimeException: java.lang.ClassNotFound

浏览 3提问于2021-03-29得票数 0

回答已采纳

1回答

齐柏林飞艇[0.7.2]：关于执行新笔记本中段落的NullPointerException

、

每当我创建一个新笔记本并运行一个段落，我就会得到NullPointerException错误。如果我从现有的笔记本上跑，那就没问题了。 java.lang.NullPointerException at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:38) at org.apache.zeppelin.spark.Utils.invokeMethod(Utils.java:33) at org.apache.zeppelin.spark.SparkInterpreter.createSparkContex

浏览 2提问于2017-07-05得票数 4

2回答

用于打开防火墙的Apache Zeppelin + EMR(Spark)集群

、

我尝试在EMR(Spark)集群中使用apache zeppelin。我得到了一些使用开放防火墙的apache zeppelin + EMR集群的要求。在工作场所，有被防火墙拦截的静态ip。如您所知，EMR群集每次使用aws cli命令创建时都应更改其IP和DNS名称。那么，您知道如何使用固定IP连接apache zeppelin服务器(EC2实例)和EMR集群吗？提前谢谢。

浏览 4提问于2015-07-20得票数 0

2回答

Amazon EMR S3A支持

、、、

Amazon EMR does not currently support use of the Apache Hadoop S3A file system, The s3a:// URI is not compatible with Amazon EMR说:我和Spark一起开发了Amazon EMR，基于亚马逊()的这篇文档。但是，我可以使用"s3a://“在spark作业中进行读写，而不会出现问题。(注意:我使用的是"com.amazonaws" % "aws-java-sdk-s3" % "1.11.286"，EMR版本是emr

浏览 2提问于2018-07-31得票数 0

2回答

我能告诉齐柏林飞艇使用我的Python env吗？(pyenv/venv)

、

我正在寻找从JupyterLab到Apache的转换。我喜欢JupyterLab的一件事是，我可以使用pipenv install jupyter，然后我笔记本中的Python代码本机使用了我的应用程序的Python环境。这使我能够运行一个shell，它可以直接与我的应用程序的模型和视图进行对话。然而，与木星生态系统的ipython小部件/ and扩展相比，我更喜欢氦包(Spark/离子束/Neo4j/Bash)和Zeppelin的动态形式。我如何告诉齐柏林飞艇在运行%python细胞时使用我的pyenv/venv？关于我的python 的信息 $ pyenv activate MY_

浏览 0提问于2019-07-20得票数 2

回答已采纳

1回答

Apache Zeppelin不能使用https for maven repo

、

我在Amazon EMR中运行Apache Zeppelin 0.8.0。最近，spark解释器开始无法下拉库依赖项。这是因为zeppelin.interpreter.dep.mvnRepo配置参数被设置为，并且maven代码库最近停止了对http的支持，如下所示：根据maven文档，我将此参数的值更新为，但这并没有解决问题。相反，将值更新为解决了这个问题。看起来齐柏林飞艇并没有在maven repo中使用https。有没有人能确认是这种情况，还是需要一些额外的设置才能使其正常工作？

浏览 0提问于2020-02-04得票数 6

3回答

Amazon Elastic Map Reduce -让服务器保持活动状态？

、、

我正在测试EMR中的作业，每次测试都需要花费大量时间才能启动。有没有办法让Amazon EMR中的服务器/主节点保持活动状态？我知道这可以通过API来完成。但是，我想知道这是否可以在aws控制台中完成？

浏览 0提问于2010-03-25得票数 4

3回答

与s3的Emrfs文件同步不起作用

、、

在Amazon EMR集群上运行spark作业后，我直接从s3中删除了输出文件，并再次尝试重新运行该作业。在尝试使用sqlContext.write在s3上写入拼图文件格式时，我收到以下错误： 'bucket/folder' present in the metadata but not s3 at com.amazon.ws.emr.hadoop.fs.consistency.ConsistencyCheckerS3FileSystem.getFileStatus(ConsistencyCheckerS3FileSystem.java:455) 我试着跑步 emrfs syn

浏览 1提问于2016-10-03得票数 14

回答已采纳

1回答

用户代理解析器(ua- parser )减慢EMR上的Spark

、、、、

我在我的UDF中使用来解析用户代理信息。我注意到，与没有解析器的作业相比，这些作业非常慢。下面是一个示例： import org.uaparser.scala.Parser val parser: Parser = Parser.default val parseDeviceUDF = udf((ua: String) => Try(parser.parse(ua).device.family).toOption.orNull) 奇怪的是，当我提交作业作为EMR步骤时，它很慢，但当我在Zeppelin或Spark shell中运行相同的代码时，它工作得很好。我将数据写入拼图文件。这就是它

浏览 0提问于2019-12-03得票数 0

2回答

Amazon如何设置一个步骤的超时

、、、

是否有方法为Amazon EMR中的步骤设置超时？我正在EMR上运行一个批处理Apache作业，如果它没有在3小时内结束的话，我希望这个任务停止。我找不到一种方法来设置超时而不是在火花，或在亚恩，或在EMR配置。谢谢你的帮忙!

浏览 1提问于2017-04-21得票数 11

3回答

Boto:如何在完成/失败后保持EMR作业流运行？

、、

如何使用boto将步骤添加到正在等待的Amazon EMR作业流，而作业流在完成后不会终止？我已经在Amazon的Elastic Map Reduce上创建了一个交互式作业流，并加载了一些表。当我使用Boto的emr_conn.add_jobflow_steps(...)向作业流传递新步骤时，作业流在完成或失败后终止。我知道可以使用带有keep_alive参数的run_jobflow使用boto启动一个作业流--但我希望使用已经在运行的流。

浏览 6提问于2011-11-01得票数 1

回答已采纳

1回答

mrjob -源目录的自动tar

、、、

我已经使用mrjob创建了一个Amazon EMR作业。我的mapreduce作业继承自一个通用的助手类，以使我更容易解析我正在解析的apache日志，我继承的类在几个mapreduce作业之间共享，所以这是我的文件结构： __init__.py count_ip.py (mapreduce job) common/apache.py (base class count_ip.py inherits from) 我想自动从本地机器上压缩我的完整src目录，并让mrjob将其上传到Amazon EMR。现在，我有一个包含公共目录common.tar.gz的tar文件。这是我在mrjob.co

浏览 2提问于2013-12-19得票数 0

1回答

从ECS码头集装箱运行EMR作业

、

我已经将用python编写的ML作业代码包含到一个码头容器中，并能够使用Amazon作为码头服务运行。我想使用星星之火以分布式方式运行，并在亚马逊EMR.Can上部署，建立ECS和EMR之间的连接？

浏览 3提问于2017-05-25得票数 9

回答已采纳

3回答

PySpark访问胶水数据目录

、、

在EMR上，我很难使用Hue/Zeppelin中的pySpark访问Glue数据目录中的表。我试过emr-5.13.0和emr-5.12.1。我试着遵循，但是当试图导入GlueContext时，会出错，并声明为No module named awsglue.context. 另一个注意事项是，在执行spark.sql("SHOW TABLES").show()时，它对于Hue/Zeppelin来说是空的，但是当使用主节点上的pyspark时，我能够从Glue数据目录中看到和查询该表。任何帮助都是非常感谢的，谢谢！

浏览 1提问于2018-04-16得票数 2

回答已采纳

3回答

将大型数据集放到amazon elastic map reduce上

、、

我想使用Amazon EMR处理一些大型数据集(25gb+，可以在互联网上下载)。与其将数据集下载到我自己的计算机上，然后重新上传到Amazon上，那么将数据集上传到Amazon上的最佳方法是什么？我是否要启动一个EC2实例，将数据集(使用wget)从该实例中下载到S3中，然后在运行EMR作业时访问S3？(我以前没有使用过亚马逊的云基础设施，所以我不确定我刚才说的是否有意义。)

浏览 1提问于2011-04-27得票数 1

回答已采纳

1回答

如何从Python中为runner指定输入文件？

、、

我正在编写一个外部脚本，以便在我的笔记本电脑上(不是在Amazon Elastic Compute Cloud或任何大型集群上)通过Python mrjob模块运行mapreduce作业。我从上了解到，我应该使用MRJob.make_runner()从单独的python脚本运行mapreduce作业，如下所示。 mr_job = MRYourJob(args=['-r', 'emr']) with mr_job.make_runner() as runner: ... 但是，我如何指定要使用的输入文件？我想使用与mapreduce脚本和运行map re

浏览 0提问于2012-09-25得票数 6

回答已采纳

1回答

在AWS EMR中作为avro导入时Sqoop失败

、、

我正在尝试在Amazon EMR(Hadoop2.8.5sqoop 1.4.7)中执行sqoop import。当未指定avro选项(--as-avrodatafile)时，导入会进行得很好。但是一旦设置好，作业就会失败，因为 19/10/29 21:31:35 INFO mapreduce.Job: Task Id : attempt_1572305702067_0017_m_000000_1, Status : FAILED Error: org.apache.avro.reflect.ReflectData.addLogicalTypeConversion(Lorg/apache/avr

浏览 27提问于2019-10-30得票数 0

2回答

在Amazon EMR中设置配置单元属性？

、、、、

我正在尝试使用Amazon EMR运行配置单元查询，并尝试让Apache Tez使用它，根据我的理解，这需要根据将hive.execution.engine属性设置为tez 我知道配置单元属性通常可以使用set hive.{...}设置，也可以在hive-site.xml中设置，但我不知道这两个属性如何与Amazon EMR交互/在Amazon EMR中如何实现。那么:有没有办法在Amazon EMR中设置配置单元配置属性?如果有，如何设置？谢谢!

浏览 4提问于2015-08-01得票数 0

2回答

amazon EMR配置单元执行错误

、

我正在尝试使用amazon EMR控制台运行一个简单的配置单元作业。每次我收到一个错误，指出"Error missing argument base-path“，配置单元作业失败。有没有人能建议我怎么解决它。我已将输入文件插入到s3:// bucket / input位置，脚本位于s3://bucket/ script，我的配置单元查询如下： create external table table_name( string var 1, string var 2....) Row format delimited fields terminated by &

浏览 0提问于2015-04-09得票数 0

2回答

将数据存储到本地文件系统将导致结果为空。

、

我们在AWS EMR上运行spark 2.3.0。以下DataFrame "df“是非空的，大小适中： scala> df.count res0: Long = 4067 下面的代码可以很好地将df编写到hdfs scala> val hdf = spark.read.parquet("/tmp/topVendors") hdf: org.apache.spark.sql.DataFrame = [displayName: string, cnt: bigint] scala> hdf.count res4: Long = 4067 但是，使用

浏览 0提问于2018-07-30得票数 18

回答已采纳

1回答

您能从S3加载标准的齐柏林飞艇解释器设置吗？

、、、

我们公司正在建立一套通用的内部火花功能和工作，我想确保我们的数据科学家在齐柏林飞艇的原型中能够访问所有这些功能。理想情况下，我希望他们能够在AWS EMR上启动Zeppelin笔记本，并将我们构建的依赖jar自动加载到它上，而不必每次手动输入maven信息(私有回购位置/凭据、包信息等)。现在，我们已经在S3上加载了依赖jar，通过一些工作，我们可以获得一个私有maven存储库来托管它。我看到ZEPPELIN_INTERPRETER_DIR保存了解释器设置，但我不认为它可以从常见的默认位置加载(比如S3之类的)。有没有一种方法可以告诉EMR集群上的齐柏林飞艇从公共位置加载它的解释器设置

浏览 0提问于2019-05-28得票数 0

1回答

AWS EMR脚本-运行器访问错误

、、、

我正在运行emr-5.12.0，亚马逊2.8.3、Hive 2.3.2、Hue 4.1.0、Livy 0.4.0、Spark 2.2.1和Zeppelin 0.7.3分别作为我的主节点和核心节点。我正在尝试执行一个引导程序操作来配置集群的某些部分。其中之一包括以下行： sudo sed -i '/zeppelin.pyspark.python/c\ \"zepplin.pyspark.python\" : \"python3\",' /etc/alternatives/zeppelin-conf/interpreter.json 它确

浏览 4提问于2018-03-15得票数 0

1回答

EC2 (永久) HDFS和EMR (瞬时) HDFS如何通信

、、、、

我已经在亚马逊EC2上建立了一个Hadoop集群，提供了NameNode/DataNode和其他一些服务。我的摄取作业将数据带入EC2 HDFS集群(比方说hdfs://ec2-hdfs/)。现在我有了一个以每周批处理的方式运行的管道。我正在启动一个新的Amazon EMR集群来运行我的计算。一旦处理完成，我将终止EMR集群。我需要在EMR中运行的spark作业的输入是在EC2 HDFS (hdfs://ec2-hdfs/)中。如何从新创建的EMR集群访问？我相信在EMR集群启动期间应该会有一些选项(引导/VPC/子网)可用。

浏览 10提问于2019-07-16得票数 0

2回答

如何修复AWS EMR Spark和Zeppelin版本不匹配？

、、、

AWS EMR5.0预打包了Spark: Spark 2.0.0 on Hadoop 2.7.2 YARN with Ganglia 3.7.2 and Zeppelin 0.6.1，但是Zeppelin0.6.1只支持Spark1.6.x。有没有办法在不构建和部署Zeppelin的自定义版本的情况下解决版本差异？

浏览 10提问于2016-09-21得票数 0

回答已采纳

1回答

记事本不会在码头上的火花中执行

、

我使用齐柏林0.10.0运行火花作业，我已经安装在码头上，一旦我打开齐柏林飞艇运行笔记本，我得到以下错误。 org.apache.zeppelin.interpreter.InterpreterException: java.io.IOException:未能检测scala版本，原因是:无法运行程序“null/bin/火花提交”：error=2，在org.apache.zeppelin.interpreter.remote.RemoteInterpreter.open(RemoteInterpreter.java:129) at org.apache.zeppelin.interpreter.

浏览 8提问于2022-09-20得票数 0

3回答

在Java应用程序中，如何等待弹性MapReduce作业流的完成？

、、、

最近我一直在使用Amazon Web Services (AWS)，我注意到关于这个主题的文档并不多，所以我添加了我的解决方案。我正在使用Amazon Elastic MapReduce (Amazon EMR)编写应用程序。计算结束后，我需要对他们创建的文件执行一些工作，因此我需要知道作业流何时完成其工作。以下是检查作业流是否已完成的方法： AmazonElasticMapReduce mapReduce = new AmazonElasticMapReduceClient(credentials); DescribeJobFlowsRequest jobAttributes = ne

浏览 3提问于2012-05-26得票数 12

1回答

EMR无服务器无法连接到另一个区域的s3

、、

我有一个EMR无服务器应用程序，不能连接到另一个地区的S3桶。有解决办法吗？可能是在提交新作业时在“作业参数”或“星火参数”中设置的参数。错误是： ExitCode: 1. Last few exceptions: Caused by: java.net.SocketTimeoutException: connect timed out Caused by: com.amazon.ws.emr.hadoop.fs.shaded.org.apache.http.conn.ConnectTimeoutException

浏览 4提问于2022-07-06得票数 0

回答已采纳

2回答

AWS EMR spark-scala作业失败，出现AWS Datapipeline:线程"main“org.apache.spark.SparkException中出现异常

、、、

我正在尝试使用Amazon Data-Pipeline在Amazon EMR集群上运行spark scala应用程序。在EMRActivity中添加的步骤如下所示： command-runner.jar,spark-submit,--deploy-mode,cluster,--class,com.demo.GettingStarted,s3://myBucket/sampleApps/HelloWorld.jar 查看EMR日志后，作业始终失败，并显示以下堆栈跟踪：线程“主”应用程序中出现异常:org.apache.spark.SparkException application_15170

浏览 1提问于2018-01-28得票数 1

1回答

Amazon EMR问题

、、

我必须将自定义Linux应用程序的输出提供给Hadoop，而Amazon EMR似乎是一个很好的实验方法。我真的刚刚开始研究Hadoop和Amazon文档，所以一些建议将不胜感激…… 我可以在SELinux环境中运行我的应用程序吗？我是否可以在Amazon EMR节点上部署/执行我的应用程序(用C++编写)？在这种环境下，将app (字符串，双对)的输出导入Hadoop的方法是什么？谢谢。

浏览 0提问于2013-10-02得票数 0

2回答

Amazon EMR Flink上的Scala版本不匹配

、

正在尝试在Amazon EMR Flink(5.21.0)上运行Flink(v1.7.0)作业。我得到了异常 java.lang.NoSuchMethodError: scala.Product.$init$(Lscala/Product;)V 异常看起来像是SCALA版本问题。我发现flink库是SCALA 2.11，而我的工作是使用2.12构建的。Flink 1.7.0支持SCALA 2.12。问题是，如何让Amazon EMR支持SCALA 2.12而不是2.11？或者，除了我的代码回到2.11之外，还有更好的解决方案吗？

浏览 12提问于2019-03-01得票数 0

1回答

EMR 5.13: SPAR2.3.0 UI显示执行者仍然活着

、、、

自从我升级到EMR 5.13之后，我就在Spark & YARN UI上看到了奇怪的度量标准。在这种情况下： YARN显示这一过程已经完成 Ganglia显示，自上次(第118次)作业完成以来，集群一直处于空闲状态。 Spark用户界面还告诉我，我的118个任务已经完成即使如此，Executor**s UI仍然报告说，所有的Spark在完成最后一项工作后都是活的**，很长(编写时超过1小时)。这可能是UI故障，还是发生了其他事情？框架/平台： EMR 5.13 Spark 2.3.0 Hive 2.3.2 Hado

浏览 0提问于2018-04-16得票数 0

回答已采纳

1回答

为什么亚马逊网络服务CloudFormation抛出“遇到不支持的属性InstanceGroups"？

、、、

当我部署下面的AWS CloudFormation脚本时，我得到了以下错误：“遇到不支持的属性InstanceGroups” 我过去使用过InstanceGroups，没有任何问题。下面是其他人如何使用它的示例：https://noise.getoto.net/tag/amazon-emr/ 我使用的是EMR 5.17.0，这是我以前设置过的。 { "Description": "Spark ETL EMR CloudFormation", "Resources": { "EMRCluster": {

浏览 28提问于2019-06-18得票数 1

回答已采纳

1回答

无法在Apache Zeppelin中打开cron功能

、

我在$ZEPPELIN_HOME/conf/zeppelin-site.xml中将属性zeppelin.notebook.cron.enable设置为true，以启用Cron特性。我看不到日程安排按钮。我正在使用标记为0.8.2的docker图像我检查了旧笔记本和新笔记本

浏览 2提问于2019-11-06得票数 1

2回答

Spark on Amazon EMR：“等待来自池的连接超时”

、

我在一个有三个服务器的小型Amazon EMR 5 (Spark 2.0)集群上运行Spark作业。我的作业运行了一个小时左右，失败了，错误如下。我可以手动重新启动，它可以工作，处理更多的数据，最终再次失败。我的Spark代码相当简单，没有直接使用任何亚马逊或S3 API。我的Spark代码将S3文本字符串路径传递给Spark，而Spark在内部使用S3。我的Spark程序只是在循环中执行以下操作:从S3加载数据，->进程->将数据写入S3上的不同位置。我的第一个怀疑是，某些Amazon或Spark内部代码没有正确处理连接，连接池变得耗尽。 com.amazon.ws.emr

浏览 5提问于2016-08-28得票数 17

3回答

齐柏林飞艇:如何在齐柏林飞艇中重启sparkContext

、

我正在使用zeppelins spark解释器的隔离模式，在这种模式下，它将为spark集群中的每个笔记本启动一个新作业。当笔记本执行完成时，我想通过zeppelin终止作业。为此，我做了sc.stop，这会停止sparkContext，作业也会从spark集群中停止。但下次当我尝试运行笔记本电脑时，它不会再次启动sparkContext。那么如何做到这一点呢？

浏览 3提问于2016-11-11得票数 16

1回答

如何在AWS EMR上安装Java 11

、、、

我正试图在EMR及以下安装java 11，这是我的docker文件。 FROM 711395599931.dkr.ecr.us-east-2.amazonaws.com/spark/emr-6.2.0:latest ARG GIT_COMMIT=unspecified LABEL git_commit=$GIT_COMMIT USER root CMD apt-get update && \ apt-get install -y java-11-amazon-corretto && \ apt-get install -y ant &&

浏览 10提问于2022-08-01得票数 1