S3前缀中的回滚写入失败-通过Spark进行分区

apache-spark、amazon-s3、amazon-emr

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀</em

浏览 11提问于2020-10-02得票数 0

1回答

write s3上的重复分区列

amazon-web-services、apache-spark、amazon-s3、amazon-emr

我正在处理数据，并使用以下代码将其写入s3： spark = SparkSession.builder.config('spark.sql.sources.partitionOverwriteMode://bucket_name/location') 基本上，我尝试用数据框中的内容覆盖分区，但将之前处理过的分区保留在s3中。这种写入

浏览 12提问于2019-09-23得票数 2

回答已采纳

1回答

无论如何，写火花分区到不同的子路径？

amazon-web-services、apache-spark、amazon-s3、pyspark

当我用 Spark将在“output_ path”指定的相同路径下写入100是否可以将分区写入不同的子目录？例如，前10个分区写入'output_path/01/'，第二个分区写入'output_path/02&

浏览 5提问于2019-12-25得票数 2

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

amazon-web-services、apache-spark、amazon-s3、pyspark、parquet

以分区Parquet文件的形式将我的星火作业的结果写入S3。除了最后

浏览 33提问于2022-01-17得票数 2

1回答

使用spark作业写S3和雅典娜进行查询时如何使数据高可用

apache-spark、amazon-s3、pyspark、amazon-athena

我存储了一个数据流，通过firehose传输到S3，并在雅典娜中创建了表来查询这些数据。S3中的数据是根据clientID、date等字段进行分区的。spark作业正在处理这些以固定时间间隔传入的数据。在每次运行时，spark作业获取数据(增量-针对该时间间隔)，将其与S3中该分区中已有的基本数据合并(在存在重

浏览 2提问于2020-02-07得票数 1

1回答

如何从EMR Spark会话中获取数据？

amazon-web-services、apache-spark、metadata、airflow、amazon-emr

我正在设计一些有气流的ETL数据管道。数据转换是通过配置AWS EMR Spark集群并向其发送一些作业来完成的。这些作业从S3读取数据，对其进行处理，然后使用date作为分区将其写回S3。对于我的最后一步，我需要使用SQL脚本将S3数据加载到数据仓库，这些脚本使用Python脚本提交给Redshift，但是我找不到一种干净的方法来获取需要加载的数据，即。哪些日期分区</e

浏览 18提问于2019-07-09得票数 0

回答已采纳

1回答

清理失败的火花作业输出的最好方法是什么？

amazon-web-services、apache-spark、pyspark、etl、aws-glue

我正在运行一个火花作业，它将Parquet文件写入一个S3桶。我的输出文件被分区为：/year=2020/month=8/day=8/hour=0/等。所有作业运行都会写入同一个S3前缀，而作业可能会导致多个分区。这项工作可能由于各种原因(OOM、S3节流等)而失败，当它失败时，常常会将数百或数千个part-*.snappy.parquet文件留在

浏览 0提问于2020-08-10得票数 0

1回答

在spark/scala中读取s3时，分区id被隐式转换

scala、apache-spark、amazon-s3、apache-spark-sql、parquet

我有s3中的源数据，我的spark/scala应用程序将在一个新的partition_id列上对它进行分区之后，读取这些数据并将其写成拼花文件。partition_id的值将通过从具有字母数字字符串值的另一个id列中获取前两个字符来导出。例如：将数据写入s3后，将为

浏览 1提问于2019-09-25得票数 1

回答已采纳

1回答

pyspark在输出中写入许多较小的文件

amazon-s3、pyspark、amazon-athena

我正在使用pyspark处理一些数据，并将输出写入S3。我已经在athena中创建了一个表，它将用于查询此数据。数据采用json字符串的形式(每行一个)，spark代码读取文件，根据特定字段对其进行分区，并写入S3。

浏览 5提问于2019-12-16得票数 2

1回答

在Spark中通过合并减少分区

apache-spark、apache-spark-sql

我运行Spark查询并使用它们执行数据转换，然后将最终的结果集(在一系列转换步骤之后)存储到S3。我最近注意到，我的工作之一是在编写S3时创建大量分区文件，并且需要很长时间才能完成(实际上是失败的)。因此，我想知道是否有任何方法在SQL中执行类似COALESCE的函数来在写入S3之前减少分区的数量？我知道SQL等效于重新分区是

浏览 3提问于2021-03-30得票数 0

1回答

火花s3写入(s3与s3a连接器)

amazon-web-services、apache-spark、amazon-s3、parquet、amazon-emr

我正在处理一个运行在EMR上的作业，它在s3上节省了数千个分区。分区是年/月/日。当我覆盖1000个分区时，s3与s

浏览 1提问于2021-11-16得票数 2

1回答

为什么延迟加载速度比数组中的通配符或传递文件夹慢？

apache-spark、amazon-s3、apache-spark-sql

我有一个数据集，它作为一组JSON文件被分区并写入s3。在分区中有一个JSON文件。)通过对所有分区</

浏览 0提问于2019-08-13得票数 0

2回答

星火蜂巢SQL正在返回空的Dataframe

apache-spark、hive、amazon-emr、aws-glue

我正在用Glue作为我的蜂巢专卖店。我有一个每小时一次的工作，每小时将文件写入已注册的分区。-11-13') 分区和部件文件的s3位置为 s3://bucket/table_name&#x

浏览 7提问于2020-04-24得票数 0

回答已采纳

1回答

按列和写入块划分数据

dataframe、apache-spark、pyspark

我需要用列中的值将s3键分开写入拼花文件。列city有数千个值。迭代使用循环，过滤数据的每一列值，然后写地板非常缓慢。是否有任何方法通过列city对数据进行分区并编写拼花文件？我现在正在做的- print(city) spark_df.filter(spark_df.city == city).write.mode('overwrite

浏览 1提问于2020-11-23得票数 2

回答已采纳

1回答

Spark结构化流Kafka Writer是否支持将数据写入特定分区？

apache-spark、apache-kafka、spark-streaming

Spark结构化流媒体的Kafka Writer是否支持将数据写入特定分区？在中，没有提到不支持向特定分区写入数据。此外，我看不到在“写入数据到Kafka”部分中传递“分区id”的选项。如果不支持，任何未来的支持计划或不支持的原因。

浏览 0提问于2018-10-30得票数 1

回答已采纳

1回答

从S3变换中读取并写回S3的火花EMR，需要提高性能

performance、apache-spark、amazon-s3、apache-spark-sql、amazon-emr

使用AWS集群的.

浏览 5提问于2021-07-01得票数 0

1回答

读取火花结构流中的最新s3文件

scala、apache-spark、spark-streaming、spark-structured-streaming

我有一个火花结构流代码，它从s3桶中读取JSON文件并将其写回s3。输入文件路径格式：输出文件路径格式：代码： val spark = SparkSession.builder().appName("raw_data").en

浏览 1提问于2022-08-26得票数 0

1回答

写入拼花文件时能重叠分区吗？

apache-spark、amazon-s3、pyspark、parquet、hadoop-partitioning

有两个列可以对它们进行分区：MODULE和DATE，如果我用MODULE对它们进行分区，每个模块都可以有相同的日期，例如MODULE A可能有日期，2020-07-01 , 2020-07-02和MODULE在完成聚合和按模块连接之后，我将其附加到一个拼花文件中，并将整个拼花文件加载到一个数据帧中，然后按日期对其进行分区。问题是火花作业由于内存问题而终止。在MODULE分区中，我可以直接按日期<em

浏览 2提问于2020-07-12得票数 0

1回答

Spark如何在没有额外数据的情况下写入更大的文件？

apache-spark、pyspark、partitioning

我使用Spark EMR处理数据并将其写入S3。数据按日期进行分区。在重新处理相同日期数据的情况下，我使用了一个定制的函数，该函数将正在处理的数据帧与S3中已有的数据进行比较。我的问题是，在S3中，相同数据的第一次写入和第二次写入之间，数据的总大小是不同的。

浏览 12提问于2020-01-29得票数 0

1回答

按键星火组并对数据进行分区

apache-spark、apache-spark-sql

我有一个大的csv文件，其数据采用以下格式。cityId2，姓名，地址，.，邮编.将其更改为jsonRDD遍历每个分区并将每个键的上传到s3 I由于业务逻辑约束(其他服务如何从S3读取)而不能使用数据分区

浏览 1提问于2020-10-22得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

write s3上的重复分区列

无论如何，写火花分区到不同的子路径？

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

使用spark作业写S3和雅典娜进行查询时如何使数据高可用

如何从EMR Spark会话中获取数据？

清理失败的火花作业输出的最好方法是什么？

在spark/scala中读取s3时，分区id被隐式转换

pyspark在输出中写入许多较小的文件

在Spark中通过合并减少分区

火花s3写入(s3与s3a连接器)

为什么延迟加载速度比数组中的通配符或传递文件夹慢？

星火蜂巢SQL正在返回空的Dataframe

按列和写入块划分数据

Spark结构化流Kafka Writer是否支持将数据写入特定分区？

从S3变换中读取并写回S3的火花EMR，需要提高性能

读取火花结构流中的最新s3文件

写入拼花文件时能重叠分区吗？

Spark如何在没有额外数据的情况下写入更大的文件？

按键星火组并对数据进行分区

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐