腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Amazon
EMR
上
运行
rdd.write.csv
时
,
如何
处理
S3
内部
服务器
错误
?
apache-spark
、
amazon-s3
、
pyspark
、
amazon-emr
我有一个pyspark
Amazon
Elastic Map Reduce (
EMR
)应用程序,它正在使用
rdd.write.csv
方法写入
S3
。这在99.999%的情况下都是有效的。不幸的是,0.001%的时间我们会在写入过程中得到一个
内部
S3
错误
。
错误
发生在
EMR
工作节点
上
。我们不能用Python try/catch语句捕获这个问题。以下是我们收到的
错误
消息的示例: Caused b
浏览 32
提问于2020-03-30
得票数 0
回答已采纳
1
回答
在所有spark executors和驱动程序
上
执行脚本或小函数,而不使用DataFrame或RDD
apache-spark
、
ssl
、
apache-kafka
、
spark-structured-streaming
、
data-partitioning
因此,我需要将私有CA证书安装/导入到spark驱动程序和执行器
上
的TrustStore文件中。我不能在主spark submit命令之前使用单独的步骤导入证书,因为spark脚本是动态提交的(从
s3
下载)。
s3
中的这个spark脚本包含有关私有CA证书文件(.pem)所在位置(
在
单独的
s3
位置
上
)的信息。 我查找了一些方法来做到这一点。我可以创建一个虚拟的DataFrame,并尝试将它们分发到所有的执行器
上
,但这种解决方案并不总是有效的(例如,如果一个执行器
浏览 6
提问于2020-07-12
得票数 0
1
回答
将文件从FTP下载到
amazon
EMR
amazon-emr
我需要从FTP
服务器
下载文件到
amazon
EMR
,我有一个shell脚本来下载文件,但它在linux计算机上工作,而不是
在
amazon
EMR
namenode中。我没有收到任何
错误
,终端在
运行
shell脚本后没有显示任何内容。 注意:我已经
在
主安全组
上
启用了端口。我知道将FTP下载到
s3
然后再下载
amazon
EMR
的另一种方法,但我需要直接将文件下载到<em
浏览 1
提问于2014-06-23
得票数 0
3
回答
与
s3
的Emrfs文件同步不起作用
amazon-s3
、
pyspark
、
amazon-emr
在
Amazon
EMR
集群
上
运行
spark作业后,我直接从
s3
中删除了输出文件,并再次尝试重新
运行
该作业。
在
尝试使用sqlContext.write
在
s3
上
写入拼图文件格式
时
,我收到以下
错误
:at com.
浏览 1
提问于2016-10-03
得票数 14
回答已采纳
1
回答
在
Amazon
上
持久化
S3
json
、
amazon-s3
、
apache-spark
我
在
Amazon
上有一个包含JSON对象的大文本文件。我计划使用亚马逊
EMR
上
的Spark来
处理
这些数据。 如果我能够持久化RDD表示,是否有可能在下次需要分析相同数据
时
直接以RDD格式加载数据?
浏览 1
提问于2014-07-03
得票数 4
1
回答
EMR
_EC2_DefaultRole和
EMR
_DefaultRole有什么不同?
amazon-web-services
、
amazon-emr
在
aws
emr
启动后,我注意到它有一个ec2实例配置文件
EMR
_EC2_DefaultRole和一个
emr
角色
EMR
_DefaultRole,它们具有类似的权限,那么
EMR
_EC2_DefaultRole和
EMR
_DefaultRole之间有什么不同呢?
浏览 0
提问于2019-01-10
得票数 11
回答已采纳
3
回答
将大型数据集放到
amazon
elastic map reduce
上
amazon-s3
、
amazon-ec2
、
amazon-emr
我想使用
Amazon
EMR
处理
一些大型数据集(25gb+,可以
在
互联网上下载)。与其将数据集下载到我自己的计算机上,然后重新上传到
Amazon
上
,那么将数据集上传到
Amazon
上
的最佳方法是什么?我是否要启动一个EC2实例,将数据集(使用wget)从该实例中下载到
S3
中,然后在
运行
EMR
作业
时
访问
S3
?(我以前没有使用过亚马逊的云基础设施,所以我不确定我刚才说的
浏览 1
提问于2011-04-27
得票数 1
回答已采纳
2
回答
Spark on
Amazon
EMR
:“等待来自池的连接超时”
apache-spark
、
amazon-emr
我
在
一个有三个
服务器
的小型
Amazon
EMR
5 (Spark 2.0)集群
上
运行
Spark作业。我的作业
运行
了一个小时左右,失败了,
错误
如下。我可以手动重新启动,它可以工作,
处理
更多的数据,最终再次失败。我的
浏览 5
提问于2016-08-28
得票数 17
1
回答
如何
在aws
EMR
集群
上
设置python spark作业的相关组件
pyspark
、
amazon-emr
我写了一个spark程序,需要在
EMR
集群
上
执行。但是python程序使用了一些依赖文件和模块。那么有没有办法
在
一个正在
运行
的集群
上
设置依赖组件呢?我们是否可以挂载
s3
存储桶并挂载该集群节点,并且可以将所有依赖组件放在
s3
上
?这是一个好主意吗,以及
如何
使用Python将
s3
存储桶挂载到电子病历
上
?
浏览 0
提问于2018-10-25
得票数 0
1
回答
EMR
与
S3
集成故障
amazon-web-services
、
hadoop
、
amazon-s3
、
emr
、
amazon-iam
我很难将
EMR
与
S3
集成,即实现EMRFS当我
运行
hdfs dfs -ls
s3
://pathto/bucket/
时
,我会得到以下
错误
ls:拒绝com.
amazon
.ws.
emr
.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception:访问(服务:
S3
;状态
浏览 0
提问于2017-04-03
得票数 3
回答已采纳
2
回答
如何
在
Amazon
实例中安装s3cmd
amazon-s3
、
emr
、
amazon-emr
、
s3cmd
我正在构建一个Apache 应用程序,该应用程序
在
创建集群的实例.For中执行,然后将步骤添加到集群中以执行Spark应用程序。请向我提供适当的资料
浏览 1
提问于2015-09-03
得票数 2
2
回答
“
EMR
服务角色
在
创建
EMR
群集
时
无效”
amazon-web-services
、
amazon-s3
、
hive
在
创建了
Amazon
,my_bucket之后,我通过cli创建了一个弹性地图减少集群: 创建-集群-名为"Hive测试“--ami-version 3.3 --应用程序Name=Hive --使用默认角色--实例类型m3.xlarge -实例-count 3-steps Type=Hive,Name="Hive Program",Args=-d,
emr
=
s3
://my_bucket/input,d.OUTPUT生成
S3
和
EMR</em
浏览 0
提问于2015-01-14
得票数 11
回答已采纳
2
回答
您应该
如何
在Spark
EMR
集群
上
运行
jupyter笔记本
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
、
spark-submit
编辑:这个问题是关于您应该
如何
定义python/jupyetr-notebook文件的参数,以便在
EMR
Amazon
Spark Cluster上进行spark-submit ...我已经
在
Amazon
AWS (
EMR
)
上
创建了Spark Yarn集群,有一个主
服务器
和3个从
服务器
。我在上面创建了一个jupyter笔记本(并且能够使用PySpark内核
运行
和查看输出)。然而,当我尝试
运行</em
浏览 1
提问于2020-07-10
得票数 1
1
回答
不使用aws凭据连接Redshift和Python (
运行
在
emr
上
)
python
、
database
、
amazon-web-services
、
amazon-redshift
嗨,我是AWS世界的新手,我
在
连接Python到Redshift数据库方面需要帮助。
在
没有使用任何第三方服务的情况下,我
如何
才能不提供凭据,因为我正在电子病历
上
运行
它。
浏览 2
提问于2021-12-06
得票数 0
2
回答
电子病历
上
的用例HBase
hadoop
、
amazon-web-services
、
hbase
、
storage
、
emr
S3
是
EMR
集群的主要存储区吗?或者数据是
在
EC2中,而
S3
只是一个副本?
在
医生里:
运行
在
Amazon
上
的Hadoop集群使用EC2实例作为主节点和从节点的虚拟Linux
服务器
,使用
S3
作为输入的大容量存储.通过启动
emr
集群,每月只更新我的表三到两次。表存储<em
浏览 1
提问于2015-06-12
得票数 0
回答已采纳
1
回答
将电子病历配置为使用s3a而不是
s3
进行spark.sql调用
amazon-web-services
、
apache-spark
、
amazon-iam
、
amazon-emr
、
aws-iam
我对spark.sql("")的所有调用都失败了,在下面的堆栈跟踪(1)中出现了
错误
User:to perform: sts:AssumeRole on resource: arn:aws:iam::00000000000:role/
EMR
_XXXXXX_XXXXXX_POLICY 访问相同位置
时
但是相同的堆栈跟踪(1)
在
访问
s3
:而不是s3a:方案
时
浏览 0
提问于2018-12-21
得票数 2
1
回答
将数据从
EMR
读取到物理
服务器
的最佳实践
amazon-web-services
、
amazon-s3
、
pyspark
、
apache-spark-sql
、
amazon-emr
但是,如果
EMR
集群完全被占用,我可以
在
群集管理器
上
看到所有的内存都被某个ETL作业占用,我还能在物理
服务器
上
运行
这个脚本来将来自
EMR
集群的数据传输到物理
服务器
上
吗?最佳实践建议是什么?从
EMR
到物理
服务器
读取数据需要同样的时间吗?当在电子病历
上
被完全占用时,如果请求读取数据,它
如何
处理
请求? 当通过
s3
实用程序从物理
浏览 7
提问于2021-12-17
得票数 -1
1
回答
Amazon
EMR
上
的sqoop安装
amazon-s3
、
sqoop
、
amazon-emr
我正在尝试按照Kyle Mulka的博客"“中描述的步骤
在
Amazon
EMR
集群
上
安装Sqoop。./elastic-mapreduce --create --name SQOOP-INSTALL --jar
s3
://<YOUR-REGION>.elasticmapreduce/libs
浏览 3
提问于2013-11-04
得票数 2
1
回答
如何
过滤
S3
文件作为
Amazon
EMR
的输入?
amazon-web-services
、
amazon-emr
我正在尝试
运行
Amazon
EMR
Hadoop进程,该进程将
处理
S3
存储桶中的CloudFront日志。由于CloudFront
在
同一存储桶中生成了大量日志,
如何
在不产生额外带宽访问
S3
的情况下过滤日志文件?
浏览 24
提问于2015-11-07
得票数 0
回答已采纳
2
回答
如何
正确地使用AWS
EMR
(Pyspark)执行增量负载?
amazon-s3
、
pyspark
、
amazon-emr
我
在
S3
location
s3
://sample/input_data中有我所有的数据PySpark脚本非常简单。我加载
s3
://sample/input_data作为火花数据。 将其划分为一列。将dataframe保存为Parquet文件,
在
“追加”模式下使用写选项将其保存到
S3
location
s3
://sample/
浏览 3
提问于2021-11-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用 AWS Lake Formation 配合 Amazon EMR 控制数据访问与权限
AWS EMR在搭建大数据平台ETL中的应用实践
AWS推出Apache Airflow全托管工作流MWAA
Komodo Health 公司如何在 EKS 与 EMR 6 上使用多租户 Notebook 平台建立自助服务分析方案
如何构建智能湖仓架构?亚马逊工程师的代码实践
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券