腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7829)
视频
沙龙
1
回答
S3
前缀中
的
回滚写入失败-通过
Spark
进行分区
apache-spark
、
amazon-s3
、
amazon-emr
我们通过EMR使用Apache
Spark
(2.4.5)作业,它读取存储桶前缀{
S3
}/{ prefix }/*.json,执行一些数据消息,然后在覆盖模式下通过
Spark
作业save()将其重
写回
相同
的
我
的
问题是,如果
Spark
作业在将数据重写到
S3
前缀分区时失败,那么我们是否有办法以任何原子/事务方式恢复该前缀分区中
的
数据。
spark
/EMR/
浏览 11
提问于2020-10-02
得票数 0
1
回答
Spark
-读
写回
相同
的
S3
位置
apache-spark
、
amazon-s3
、
pyspark
、
aws-glue
我正在从
S3
位置
读取数据集dataset1和dataset2。然后我对它们进行转换,并
写回
读取dataset2
的
相同
位置
。No such file or directory '
s3
://<myPrefix>/part-00001-a123a120-7d11-581a-b9df-bc53076d57894-c000.snappy.parquet如果我尝试写到一个新
的
S3
位置</
浏览 7
提问于2019-10-13
得票数 1
回答已采纳
2
回答
编写拼花文件时,
s3
桶将被删除。
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
、
aws-glue
我已经开发了一个用于加载Pyspark Glue数据集
的
complete/incremental作业。它很好用。加载数据集之后,我必须执行少量
的
"overwrite"/"append",并以"overwrite"/"append"模式在单个
位置
写入它。为此,我编写了以下代码: maxDateValuePath = "
s3
://...../maxValue
浏览 4
提问于2021-10-13
得票数 0
回答已采纳
2
回答
AWS作业从
S3
解压缩文件并将其
写回
S3
amazon-web-services
、
amazon-s3
、
aws-glue
我对AWS非常陌生,我想使用AWS解压缩
S3
桶中
的
一个大型文件,并将内容
写回
S3
。我
的
问题是:我正在使用AWS Glue Studio。任何帮助都将不胜感激。
浏览 7
提问于2021-05-21
得票数 3
回答已采纳
1
回答
elastic map reduce超时java.io.IOException:意外
的
流结束
java
、
hadoop
、
elastic-map-reduce
我正在运行MAP reduce作业(弹性map reduce电子病历) service.The作业对于小数据集工作良好,但对于大数据集(文件大小400MB)给出以下异常 at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157) 我有运行
的
另一项工作,具有类似的配置,它可以工作
的
fine.Any输入?
浏览 3
提问于2014-01-30
得票数 4
1
回答
用Snappy压缩用ORC格式编写火花数据
amazon-s3
、
apache-spark
、
dataframe
、
orc
我成功地读取了一个存储在
S3
中
的
文本文件,并使用
Spark
以ORC格式将它
写回
S3
。- inputDf.write().orc(outputPath); 我不能做
的
是转换为ORC格式与snappy压缩。我已经尝试给出选项,而写作为设置编解码器为snappy,但火花仍然是正常
的
兽人写。如何使用
Spark
实现对
S3
的
快速压缩,以ORC格式编写?
浏览 6
提问于2016-04-26
得票数 4
回答已采纳
1
回答
Spark
如何创建从
S3
读取
的
对象
的
分区?
amazon-web-services
、
apache-spark
、
hadoop
、
amazon-s3
、
aws-glue
Spark
如何创建从
S3
读取
的
对象
的
分区? 我在
S3
中有一个118MB大小
的
对象。我将对象读入胶水动态框架。转换为
spark
数据帧并应用了一些转换。然后将数据
写回
S3
。输出文件夹由大小为51MB和39MB
的
两个对象组成。
Spark
如何决定从
S3
读取
的
数据
的
分区方案?
浏览 1
提问于2020-06-26
得票数 1
1
回答
您能使用
Spark
/Hive/Presto直接从Parquet/
S3
复制到Redshift吗?
hadoop
、
amazon-s3
、
apache-spark
、
apache-spark-sql
我们有大量
的
服务器数据存储在
S3
中(很快将以Parquet格式存储)。数据需要一些转换,因此不能直接从
S3
复制。我将使用
Spark
来访问数据,但我想知道
的
是,如果我可以跳过一个步骤,运行一个查询来提取/转换数据,然后直接将其复制到Redshift,那么是否可以代替用
Spark
操作它,将其
写回
S3
,然后复制到Redshift
浏览 1
提问于2016-04-14
得票数 6
回答已采纳
1
回答
从
S3
存储桶中读取
Spark
Dataframe,而另一个进程向其写入?
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
、
bucket
读取
spark
数据帧并通过Jupyter笔记本和另一个并发写入
s3
存储桶
的
进程将其持久化是否会出现任何问题?说,
s3
=
spark
.read.parquet('
s3
://path/to/table')system('s3-dist
浏览 0
提问于2018-09-21
得票数 0
3
回答
如何自动读取火花?
apache-spark
、
pyspark
我需要从我
的
S3
桶里
读
150遍df2 =
spark
.read.json('
s3
://mybucket/f2')df150 =
spark
.read.json('
s3
://mybucket/f150
浏览 13
提问于2020-07-14
得票数 1
回答已采纳
1
回答
为什么在EC2上运行
的
Shark在将数据写入
S3
时给我一个“错误
的
FS”错误
amazon-ec2
、
amazon-s3
、
hive
、
shark-sql
我使用提供
的
安装脚本在亚马逊EC2上运行Shark/
Spark
(0.9.1)。我正在读取
S3
中
的
数据,然后尝试将表
写回
S3
中。可以从
S3
精细地读取数据(因此我
的
凭据是正确
的
),但是当我试图将数据写入
S3
时,会出现以下错误: 14/07/31 16:42:30 scheduler.TaskSetManager:损失是由于java.lang.IllegalArgumentExceptio
浏览 3
提问于2014-07-31
得票数 0
1
回答
读取火花结构流中
的
最新
s3
文件
scala
、
apache-spark
、
spark-streaming
、
spark-structured-streaming
我有一个火花结构流代码,它从
s3
桶中读取JSON文件并将其
写回
s3
。输入文件路径格式:输出文件路径格式:代码: val
spark
= SparkSession.builder().appName("raw_data").en
浏览 1
提问于2022-08-26
得票数 0
1
回答
PySpark
S3
文件读取性能注意事项
apache-spark
、
amazon-s3
、
pyspark
我是pyspark
的
新手。我只是想知道我应该将多大
的
文件写入
S3
,这样
Spark
就可以读取这些文件并进行处理。有没有
读
神
的
链接? 谢谢
浏览 1
提问于2021-04-05
得票数 0
1
回答
AWS EMR Apache
Spark
和VPC中
的
自定义
S3
端点
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
我在VPС中使用Apache
Spark
和Redshift,还使用AWS
S3
作为源数据和临时数据进行Redshift复制。目前,我怀疑对AWS
的
读
/写性能不够好,根据以下讨论中
的
建议,我在VPC内创建了
S3
端点。现在,当我从
S3
加载数据时,我看不到创建
S3
端点之前和之后
的
任何性能差异。在Apache
Spark
中,我以以下方式读取数据:
spark
.read.csv("
浏览 0
提问于2019-04-02
得票数 0
1
回答
减少星火阶段
的
任务数
amazon-web-services
、
apache-spark
、
task
、
amazon-emr
、
stage
我正在aws中运行一个
spark
作业,它从
s3
读取大约100 k小JSON文件,执行一些转换,并将结果
写回
s3
。我已经将洗牌分区和默认并行性设置为20,执行器内存设置为4GB。但是,对于NativeMethodAccessorImpl.java,
的
javaToPython (我理解为写入
s3
的
UI )阶段之一,有将近2.7k个任务,输入数据大小< 1MB。对于使用收集操作
的
阶段,
相同
的
行为。我不明白为什么?我在
浏览 13
提问于2022-02-10
得票数 0
1
回答
如何测试模拟
的
(moto/boto)
S3
读写在PySpark中
amazon-s3
、
pyspark
、
boto
、
moto
我正在尝试统一一个函数,该函数将数据写入
S3
,然后从同一个
S3
位置
读取
相同
的
数据。我正在尝试使用moto和boto (2.x)来实现这个1。问题是服务返回
的
是我被禁止访问密钥2。有没有人在
s3
中成功地测试过模仿PySpark
的
读
/写来分享一些见解?= pytest.mark.usefixtures("
spark
_context") @mock_
浏览 1
提问于2018-07-19
得票数 8
4
回答
如何控制拼图文件在胶水中
的
大小?
apache-spark
、
pyspark
、
parquet
、
aws-glue
我正在将数据集加载到DynamicFrame中,执行转换,然后将其
写回
S3
: frame= someDateFrame, connection_options = { "path": "
s3
://the-bucket首先,我不明白为什么Glue
浏览 2
提问于2019-10-06
得票数 2
1
回答
是什么导致了火花驱动程序
的
maxResultSize限制?
apache-spark
、
memory
、
databricks
、
azure-databricks
在我
的
星火工作中,我发送给司机
的
结果仅仅是几个KBs。of 3021102 tasks (4.0 GB) is bigger than
spark
.driver.maxResultSize (4.0 GB)有关代码/执行
的
更多详细信息: 每个任务从
S3</e
浏览 2
提问于2021-03-30
得票数 0
3
回答
S3
上带有美元标志
的
垃圾火花输出文件
apache-spark
、
amazon-s3
、
pyspark
我有一个简单
的
火花作业,它从
s3
读取一个文件,取5个文件,然后用
s3
写回
去。我看到
的
是,在
s3
中总是有额外
的
文件,在我
的
输出“目录”(称为output_$folder$ )旁边。fi
浏览 4
提问于2016-10-14
得票数 1
回答已采纳
1
回答
没有使用自定义Jar加载MainClass
amazon-web-services
、
apache-spark
、
emr
、
amazon-emr
更新 "Name": "
spark
-program", "Jar"
浏览 1
提问于2018-03-17
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
手把手教你用 NebulaGraph AI 全家桶跑图算法
Spark Streaming与Kafka如何保证数据零丢失
大数据框架之从Hadoop到Spark详解
从Hadoop到Spark,看大数据框架发展之路
ARM系列-ACE(一)
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券