腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3672)
视频
沙龙
1
回答
S3
前缀
中
的
回
滚
写入
失败
-
通过
Spark
进行
分区
apache-spark
、
amazon-s3
、
amazon-emr
我们
通过
EMR使用Apache
Spark
(2.4.5)作业,它读取存储桶
前缀
{
S3
}/{ prefix }/*.json,执行一些数据消息,然后在覆盖模式下
通过
Spark
作业save()将其重写回相同
的
我
的
问题是,如果
Spark
作业在将数据重写到
S3
前缀
分区
时
失败
,那么我们是否有办法以任何原子/事务方式恢复该
前缀</em
浏览 11
提问于2020-10-02
得票数 0
1
回答
write
s3
上
的
重复
分区
列
amazon-web-services
、
apache-spark
、
amazon-s3
、
amazon-emr
我正在处理数据,并使用以下代码将其
写入
s3
:
spark
= SparkSession.builder.config('
spark
.sql.sources.partitionOverwriteMode://bucket_name/location') 基本上,我尝试用数据框
中
的
内容覆盖
分区
,但将之前处理过
的
分区
保留在
s3
中
。这种
写入
浏览 12
提问于2019-09-23
得票数 2
回答已采纳
1
回答
无论如何,写火花
分区
到不同
的
子路径?
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
当我用
Spark
将在“output_ path”指定
的
相同路径下
写入
100是否可以将
分区
写入
不同
的
子目录?例如,前10个
分区
写入
'output_path/01/',第二个
分区
写入
'output_path/02&
浏览 5
提问于2019-12-25
得票数 2
1
回答
Apache使用动态
分区
覆盖和
S3
委员会将Parquet文件
写入
到
S3
amazon-web-services
、
apache-spark
、
amazon-s3
、
pyspark
、
parquet
以
分区
Parquet文件
的
形式将我
的
星火作业
的
结果
写入
S3
。 除了最后
浏览 33
提问于2022-01-17
得票数 2
1
回答
使用
spark
作业写
S3
和雅典娜
进行
查询时如何使数据高可用
apache-spark
、
amazon-s3
、
pyspark
、
amazon-athena
我存储了一个数据流,
通过
firehose传输到
S3
,并在雅典娜
中
创建了表来查询这些数据。
S3
中
的
数据是根据clientID、date等字段
进行
分区
的
。
spark
作业正在处理这些以固定时间间隔传入
的
数据。在每次运行时,
spark
作业获取数据(增量-针对该时间间隔),将其与
S3
中
该
分区
中
已有的基本数据合并(在存在重
浏览 2
提问于2020-02-07
得票数 1
1
回答
如何从EMR
Spark
会话
中
获取数据?
amazon-web-services
、
apache-spark
、
metadata
、
airflow
、
amazon-emr
我正在设计一些有气流
的
ETL数据管道。数据转换是
通过
配置AWS EMR
Spark
集群并向其发送一些作业来完成
的
。这些作业从
S3
读取数据,对其
进行
处理,然后使用date作为
分区
将其写回
S3
。对于我
的
最后一步,我需要使用SQL脚本将
S3
数据加载到数据仓库,这些脚本使用Python脚本提交给Redshift,但是我找不到一种干净
的
方法来获取需要加载
的
数据,即。哪些日期
分区</e
浏览 18
提问于2019-07-09
得票数 0
回答已采纳
1
回答
清理
失败
的
火花作业输出
的
最好方法是什么?
amazon-web-services
、
apache-spark
、
pyspark
、
etl
、
aws-glue
我正在运行一个火花作业,它将Parquet文件
写入
一个
S3
桶。 我
的
输出文件被
分区
为:/year=2020/month=8/day=8/hour=0/等。所有作业运行都会
写入
同一个
S3
前缀
,而作业可能会导致多个
分区
。这项工作可能由于各种原因(OOM、
S3
节流等)而
失败
,当它
失败
时,常常会将数百或数千个part-*.snappy.parquet文件留在
浏览 0
提问于2020-08-10
得票数 0
1
回答
在
spark
/scala
中
读取
s3
时,
分区
id被隐式转换
scala
、
apache-spark
、
amazon-s3
、
apache-spark-sql
、
parquet
我有
s3
中
的
源数据,我
的
spark
/scala应用程序将在一个新
的
partition_id列上对它
进行
分区
之后,读取这些数据并将其写成拼花文件。partition_id
的
值将
通过
从具有字母数字字符串值
的
另一个id列
中
获取前两个字符来导出。例如:将数据
写入
s3
后,将为
浏览 1
提问于2019-09-25
得票数 1
回答已采纳
1
回答
pyspark在输出
中
写入
许多较小
的
文件
amazon-s3
、
pyspark
、
amazon-athena
我正在使用pyspark处理一些数据,并将输出
写入
S3
。我已经在athena
中
创建了一个表,它将用于查询此数据。数据采用json字符串
的
形式(每行一个),
spark
代码读取文件,根据特定字段对其
进行
分区
,并
写入
S3
。
浏览 5
提问于2019-12-16
得票数 2
1
回答
在
Spark
中
通过
合并减少
分区
apache-spark
、
apache-spark-sql
我运行
Spark
查询并使用它们执行数据转换,然后将最终
的
结果集(在一系列转换步骤之后)存储到
S3
。我最近注意到,我
的
工作之一是在编写
S3
时创建大量
分区
文件,并且需要很长时间才能完成(实际上是
失败
的
)。因此,我想知道是否有任何方法在SQL
中
执行类似COALESCE
的
函数来在
写入
S3
之前减少
分区
的
数量? 我知道SQL等效于重新
分区
是
浏览 3
提问于2021-03-30
得票数 0
1
回答
火花
s3
写入
(
s3
与s3a连接器)
amazon-web-services
、
apache-spark
、
amazon-s3
、
parquet
、
amazon-emr
我正在处理一个运行在EMR上
的
作业,它在
s3
上节省了数千个
分区
。
分区
是年/月/日。当我覆盖1000个
分区
时,
s3
与s
浏览 1
提问于2021-11-16
得票数 2
1
回答
为什么延迟加载速度比数组
中
的
通配符或传递文件夹慢?
apache-spark
、
amazon-s3
、
apache-spark-sql
我有一个数据集,它作为一组JSON文件被
分区
并
写入
s3
。在
分区
中有一个JSON文件。)
通过
对所有
分区</
浏览 0
提问于2019-08-13
得票数 0
2
回答
星火蜂巢SQL正在返回空
的
Dataframe
apache-spark
、
hive
、
amazon-emr
、
aws-glue
我正在用Glue作为我
的
蜂巢专卖店。我有一个每小时一次
的
工作,每小时将文件
写入
已注册
的
分区
。-11-13')
分区
和部件文件
的
s3
位置为
s3
://bucket/table_name
浏览 7
提问于2020-04-24
得票数 0
回答已采纳
1
回答
按列和
写入
块划分数据
dataframe
、
apache-spark
、
pyspark
我需要用列
中
的
值将
s3
键分开
写入
拼花文件。列city有数千个值。迭代使用循环,过滤数据
的
每一列值,然后写地板非常缓慢。是否有任何方法
通过
列city对数据
进行
分区
并编写拼花文件?我现在正在做
的
- print(city)
spark
_df.filter(
spark
_df.city == city).write.mode('overwrite
浏览 1
提问于2020-11-23
得票数 2
回答已采纳
1
回答
Spark
结构化流Kafka Writer是否支持将数据
写入
特定
分区
?
apache-spark
、
apache-kafka
、
spark-streaming
Spark
结构化流媒体
的
Kafka Writer是否支持将数据
写入
特定
分区
?在
中
,没有提到不支持向特定
分区
写入
数据。 此外,我看不到在“
写入
数据到Kafka”部分
中
传递“
分区
id”
的
选项。如果不支持,任何未来
的
支持计划或不支持
的
原因。
浏览 0
提问于2018-10-30
得票数 1
回答已采纳
1
回答
从
S3
变换
中
读取并写回
S3
的
火花EMR,需要提高性能
performance
、
apache-spark
、
amazon-s3
、
apache-spark-sql
、
amazon-emr
使用AWS集群
的
.
浏览 5
提问于2021-07-01
得票数 0
1
回答
读取火花结构流
中
的
最新
s3
文件
scala
、
apache-spark
、
spark-streaming
、
spark-structured-streaming
我有一个火花结构流代码,它从
s3
桶
中
读取JSON文件并将其写回
s3
。输入文件路径格式:输出文件路径格式:代码: val
spark
= SparkSession.builder().appName("raw_data").en
浏览 1
提问于2022-08-26
得票数 0
1
回答
写入
拼花文件时能重叠
分区
吗?
apache-spark
、
amazon-s3
、
pyspark
、
parquet
、
hadoop-partitioning
有两个列可以对它们
进行
分区
:MODULE和DATE,如果我用MODULE对它们
进行
分区
,每个模块都可以有相同
的
日期,例如MODULE A可能有日期,2020-07-01 , 2020-07-02和MODULE在完成聚合和按模块连接之后,我将其附加到一个拼花文件
中
,并将整个拼花文件加载到一个数据帧
中
,然后按日期对其
进行
分区
。问题是火花作业由于内存问题而终止。在MODULE
分区
中
,我可以直接按日期<em
浏览 2
提问于2020-07-12
得票数 0
1
回答
Spark
如何在没有额外数据
的
情况下
写入
更大
的
文件?
apache-spark
、
pyspark
、
partitioning
我使用
Spark
EMR处理数据并将其
写入
S3
。数据按日期
进行
分区
。在重新处理相同日期数据
的
情况下,我使用了一个定制
的
函数,该函数将正在处理
的
数据帧与
S3
中
已有的数据
进行
比较。我
的
问题是,在
S3
中
,相同数据
的
第一次
写入
和第二次
写入
之间,数据
的
总大小是不同
的
。
浏览 12
提问于2020-01-29
得票数 0
1
回答
按键星火组并对数据
进行
分区
apache-spark
、
apache-spark-sql
我有一个大
的
csv文件,其数据采用以下格式。cityId2,姓名,地址,.,邮编.将其更改为jsonRDD遍历每个
分区
并将每个键
的
上传到
s3
I由于业务逻辑约束(其他服务如何从
S3
读取)而不能使用数据
分区
浏览 1
提问于2020-10-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
替代 Kafka?Pinterest 推出高效可扩展云原生系统 MemQ
Netflix 的数据基础设施如何兼顾效率和成本?
3分钟带你了解「消息中间件」Kafka、RocketMQ
我们为什么从Kafka迁移至Pulsar?
Spark Streaming与Kafka如何保证数据零丢失
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券