在Amazon EMR上运行rdd.write.csv时，如何处理S3内部服务器错误？_在Heroku上运行从浏览器访问的Django时发生内部服务器错误_当尝试在我的不一致机器人上运行ban命令时，总是得到一个“内部服务器错误”的消息 - 腾讯云开发者社区

apache-spark、amazon-s3、pyspark、amazon-emr

我有一个pyspark Amazon Elastic Map Reduce (EMR)应用程序，它正在使用rdd.write.csv方法写入S3。这在99.999%的情况下都是有效的。不幸的是，0.001%的时间我们会在写入过程中得到一个内部S3错误。错误发生在EMR工作节点上。我们不能用Python try/catch语句捕获这个问题。以下是我们收到的错误消息的示例： Caused b

浏览 32提问于2020-03-30得票数 0

回答已采纳

1回答

在所有spark executors和驱动程序上执行脚本或小函数，而不使用DataFrame或RDD

apache-spark、ssl、apache-kafka、spark-structured-streaming、data-partitioning

因此，我需要将私有CA证书安装/导入到spark驱动程序和执行器上的TrustStore文件中。我不能在主spark submit命令之前使用单独的步骤导入证书，因为spark脚本是动态提交的(从s3下载)。s3中的这个spark脚本包含有关私有CA证书文件(.pem)所在位置(在单独的s3位置上)的信息。我查找了一些方法来做到这一点。我可以创建一个虚拟的DataFrame，并尝试将它们分发到所有的执行器上，但这种解决方案并不总是有效的(例如，如果一个执行器

浏览 6提问于2020-07-12得票数 0

1回答

将文件从FTP下载到amazon EMR

amazon-emr

我需要从FTP服务器下载文件到amazon EMR，我有一个shell脚本来下载文件，但它在linux计算机上工作，而不是在amazon EMR namenode中。我没有收到任何错误，终端在运行shell脚本后没有显示任何内容。注意:我已经在主安全组上启用了端口。我知道将FTP下载到s3然后再下载amazon EMR的另一种方法，但我需要直接将文件下载到<em

浏览 1提问于2014-06-23得票数 0

3回答

与s3的Emrfs文件同步不起作用

amazon-s3、pyspark、amazon-emr

在Amazon EMR集群上运行spark作业后，我直接从s3中删除了输出文件，并再次尝试重新运行该作业。在尝试使用sqlContext.write在s3上写入拼图文件格式时，我收到以下错误：at com.

浏览 1提问于2016-10-03得票数 14

回答已采纳

1回答

在Amazon上持久化S3

json、amazon-s3、apache-spark

我在Amazon上有一个包含JSON对象的大文本文件。我计划使用亚马逊EMR上的Spark来处理这些数据。如果我能够持久化RDD表示，是否有可能在下次需要分析相同数据时直接以RDD格式加载数据？

浏览 1提问于2014-07-03得票数 4

1回答

EMR_EC2_DefaultRole和EMR_DefaultRole有什么不同？

amazon-web-services、amazon-emr

在aws emr启动后，我注意到它有一个ec2实例配置文件EMR_EC2_DefaultRole和一个emr角色EMR_DefaultRole，它们具有类似的权限，那么EMR_EC2_DefaultRole和EMR_DefaultRole之间有什么不同呢？

浏览 0提问于2019-01-10得票数 11

回答已采纳

3回答

将大型数据集放到amazon* elastic map reduce上*

amazon-s3、amazon-ec2、amazon-emr

我想使用Amazon EMR处理一些大型数据集(25gb+，可以在互联网上下载)。与其将数据集下载到我自己的计算机上，然后重新上传到Amazon上，那么将数据集上传到Amazon上的最佳方法是什么？我是否要启动一个EC2实例，将数据集(使用wget)从该实例中下载到S3中，然后在运行EMR作业时访问S3？(我以前没有使用过亚马逊的云基础设施，所以我不确定我刚才说的

浏览 1提问于2011-04-27得票数 1

回答已采纳

2回答

Spark on Amazon* EMR：“等待来自池的连接超时”*

apache-spark、amazon-emr

我在一个有三个服务器的小型Amazon EMR 5 (Spark 2.0)集群上运行Spark作业。我的作业运行了一个小时左右，失败了，错误如下。我可以手动重新启动，它可以工作，处理更多的数据，最终再次失败。我的

浏览 5提问于2016-08-28得票数 17

1回答

如何在aws EMR集群上设置python spark作业的相关组件

pyspark、amazon-emr

我写了一个spark程序，需要在EMR集群上执行。但是python程序使用了一些依赖文件和模块。那么有没有办法在一个正在运行的集群上设置依赖组件呢？我们是否可以挂载s3存储桶并挂载该集群节点，并且可以将所有依赖组件放在s3上？这是一个好主意吗，以及如何使用Python将s3存储桶挂载到电子病历上？

浏览 0提问于2018-10-25得票数 0

1回答

EMR与S3集成故障

amazon-web-services、hadoop、amazon-s3、emr、amazon-iam

我很难将EMR与S3集成，即实现EMRFS当我运行hdfs dfs -ls s3://pathto/bucket/时，我会得到以下错误 ls:拒绝com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:访问(服务: S3；状态

浏览 0提问于2017-04-03得票数 3

回答已采纳

2回答

如何在Amazon实例中安装s3cmd

amazon-s3、emr、amazon-emr、s3cmd

我正在构建一个Apache 应用程序，该应用程序在创建集群的实例.For中执行，然后将步骤添加到集群中以执行Spark应用程序。请向我提供适当的资料

浏览 1提问于2015-09-03得票数 2

2回答

“EMR服务角色在创建EMR群集时无效”

amazon-web-services、amazon-s3、hive

在创建了Amazon，my_bucket之后，我通过cli创建了一个弹性地图减少集群：创建-集群-名为"Hive测试“--ami-version 3.3 --应用程序Name=Hive --使用默认角色--实例类型m3.xlarge -实例-count 3-steps Type=Hive，Name="Hive Program"，Args=-d，emr =s3://my_bucket/input，d.OUTPUT生成S3和EMR</em

浏览 0提问于2015-01-14得票数 11

回答已采纳

2回答

您应该如何在Spark EMR集群上运行jupyter笔记本

amazon-web-services、apache-spark、amazon-s3、amazon-emr、spark-submit

编辑:这个问题是关于您应该如何定义python/jupyetr-notebook文件的参数，以便在EMR Amazon Spark Cluster上进行spark-submit ...我已经在Amazon AWS (EMR)上创建了Spark Yarn集群，有一个主服务器和3个从服务器。我在上面创建了一个jupyter笔记本(并且能够使用PySpark内核运行和查看输出)。然而，当我尝试运行</em

浏览 1提问于2020-07-10得票数 1

1回答

不使用aws凭据连接Redshift和Python (运行在emr上)

python、database、amazon-web-services、amazon-redshift

嗨，我是AWS世界的新手，我在连接Python到Redshift数据库方面需要帮助。在没有使用任何第三方服务的情况下，我如何才能不提供凭据，因为我正在电子病历上运行它。

浏览 2提问于2021-12-06得票数 0

2回答

电子病历上的用例HBase

hadoop、amazon-web-services、hbase、storage、emr

S3是EMR集群的主要存储区吗？或者数据是在EC2中，而S3只是一个副本？在医生里：运行在Amazon上的Hadoop集群使用EC2实例作为主节点和从节点的虚拟Linux服务器，使用 S3作为输入的大容量存储.通过启动emr集群，每月只更新我的表三到两次。表存储<em

浏览 1提问于2015-06-12得票数 0

回答已采纳

1回答

将电子病历配置为使用s3a而不是s3进行spark.sql调用

amazon-web-services、apache-spark、amazon-iam、amazon-emr、aws-iam

我对spark.sql("")的所有调用都失败了，在下面的堆栈跟踪(1)中出现了错误User:to perform: sts:AssumeRole on resource: arn:aws:iam::00000000000:role/EMR_XXXXXX_XXXXXX_POLICY 访问相同位置时但是相同的堆栈跟踪(1)在访问s3:而不是s3a:方案时

浏览 0提问于2018-12-21得票数 2

1回答

将数据从EMR读取到物理服务器的最佳实践

amazon-web-services、amazon-s3、pyspark、apache-spark-sql、amazon-emr

但是，如果EMR集群完全被占用，我可以在群集管理器上看到所有的内存都被某个ETL作业占用，我还能在物理服务器上运行这个脚本来将来自EMR集群的数据传输到物理服务器上吗？最佳实践建议是什么？从EMR到物理服务器读取数据需要同样的时间吗？当在电子病历上被完全占用时，如果请求读取数据，它如何处理请求？当通过s3实用程序从物理

浏览 7提问于2021-12-17得票数 -1

1回答

Amazon EMR上的sqoop安装

amazon-s3、sqoop、amazon-emr

我正在尝试按照Kyle Mulka的博客"“中描述的步骤在Amazon EMR集群上安装Sqoop。./elastic-mapreduce --create --name SQOOP-INSTALL --jar s3://<YOUR-REGION>.elasticmapreduce/libs

浏览 3提问于2013-11-04得票数 2

1回答

如何过滤S3文件作为Amazon* EMR的输入？*

amazon-web-services、amazon-emr

我正在尝试运行Amazon EMR Hadoop进程，该进程将处理S3存储桶中的CloudFront日志。由于CloudFront在同一存储桶中生成了大量日志，如何在不产生额外带宽访问S3的情况下过滤日志文件？

浏览 24提问于2015-11-07得票数 0

回答已采纳

2回答

如何正确地使用AWS EMR* (Pyspark)执行增量负载？*

amazon-s3、pyspark、amazon-emr

我在S3 location s3://sample/input_data中有我所有的数据PySpark脚本非常简单。我加载s3://sample/input_data作为火花数据。将其划分为一列。将dataframe保存为Parquet文件，在“追加”模式下使用写选项将其保存到S3 location s3://sample/

浏览 3提问于2021-11-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云