Spark -读写回相同的S3位置

apache-spark、amazon-s3、amazon-emr

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。spark/EMR/

浏览 11提问于2020-10-02得票数 0

1回答

apache-spark、amazon-s3、pyspark、aws-glue

我正在从S3位置读取数据集dataset1和dataset2。然后我对它们进行转换，并写回读取dataset2的相同位置。No such file or directory 's3://<myPrefix>/part-00001-a123a120-7d11-581a-b9df-bc53076d57894-c000.snappy.parquet如果我尝试写到一个新的S3位置</

浏览 7提问于2019-10-13得票数 1

回答已采纳

2回答

编写拼花文件时，s3桶将被删除。

amazon-web-services、apache-spark、amazon-s3、pyspark、aws-glue

我已经开发了一个用于加载Pyspark Glue数据集的complete/incremental作业。它很好用。加载数据集之后，我必须执行少量的"overwrite"/"append"，并以"overwrite"/"append"模式在单个位置写入它。为此，我编写了以下代码： maxDateValuePath = "s3://...../maxValue&#x

浏览 4提问于2021-10-13得票数 0

回答已采纳

2回答

AWS作业从S3解压缩文件并将其写回S3

amazon-web-services、amazon-s3、aws-glue

我对AWS非常陌生，我想使用AWS解压缩S3桶中的一个大型文件，并将内容写回S3。我的问题是：我正在使用AWS Glue Studio。任何帮助都将不胜感激。

浏览 7提问于2021-05-21得票数 3

回答已采纳

1回答

elastic map reduce超时java.io.IOException:意外的流结束

java、hadoop、elastic-map-reduce

我正在运行MAP reduce作业(弹性map reduce电子病历) service.The作业对于小数据集工作良好，但对于大数据集(文件大小400MB)给出以下异常 at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157) 我有运行的另一项工作，具有类似的配置，它可以工作的fine.Any输入？

浏览 3提问于2014-01-30得票数 4

1回答

用Snappy压缩用ORC格式编写火花数据

amazon-s3、apache-spark、dataframe、orc

我成功地读取了一个存储在S3中的文本文件，并使用Spark以ORC格式将它写回S3。- inputDf.write().orc(outputPath); 我不能做的是转换为ORC格式与snappy压缩。我已经尝试给出选项，而写作为设置编解码器为snappy，但火花仍然是正常的兽人写。如何使用Spark实现对S3的快速压缩，以ORC格式编写？

浏览 6提问于2016-04-26得票数 4

回答已采纳

1回答

Spark如何创建从S3读取的对象的分区？

amazon-web-services、apache-spark、hadoop、amazon-s3、aws-glue

Spark如何创建从S3读取的对象的分区？我在S3中有一个118MB大小的对象。我将对象读入胶水动态框架。转换为spark数据帧并应用了一些转换。然后将数据写回S3。输出文件夹由大小为51MB和39MB的两个对象组成。Spark如何决定从S3读取的数据的分区方案？

浏览 1提问于2020-06-26得票数 1

1回答

您能使用Spark* /Hive/Presto直接从Parquet/S3复制到Redshift吗？*

hadoop、amazon-s3、apache-spark、apache-spark-sql

我们有大量的服务器数据存储在S3中(很快将以Parquet格式存储)。数据需要一些转换，因此不能直接从S3复制。我将使用Spark来访问数据，但我想知道的是，如果我可以跳过一个步骤，运行一个查询来提取/转换数据，然后直接将其复制到Redshift，那么是否可以代替用Spark操作它，将其写回S3，然后复制到Redshift

浏览 1提问于2016-04-14得票数 6

回答已采纳

1回答

从S3存储桶中读取Spark* Dataframe，而另一个进程向其写入？*

amazon-web-services、apache-spark、amazon-s3、amazon-emr、bucket

读取spark数据帧并通过Jupyter笔记本和另一个并发写入s3存储桶的进程将其持久化是否会出现任何问题？说, s3 = spark.read.parquet('s3://path/to/table')system('s3-dist

浏览 0提问于2018-09-21得票数 0

3回答

如何自动读取火花？

apache-spark、pyspark

我需要从我的S3桶里读150遍df2 = spark.read.json('s3://mybucket/f2')df150 = spark.read.json('s3://mybucket/f150&#

浏览 13提问于2020-07-14得票数 1

回答已采纳

1回答

为什么在EC2上运行的Shark在将数据写入S3时给我一个“错误的FS”错误

amazon-ec2、amazon-s3、hive、shark-sql

我使用提供的安装脚本在亚马逊EC2上运行Shark/Spark (0.9.1)。我正在读取S3中的数据，然后尝试将表写回S3中。可以从S3精细地读取数据(因此我的凭据是正确的)，但是当我试图将数据写入S3时，会出现以下错误： 14/07/31 16:42:30 scheduler.TaskSetManager:损失是由于java.lang.IllegalArgumentExceptio

浏览 3提问于2014-07-31得票数 0

1回答

读取火花结构流中的最新s3文件

scala、apache-spark、spark-streaming、spark-structured-streaming

我有一个火花结构流代码，它从s3桶中读取JSON文件并将其写回s3。输入文件路径格式：输出文件路径格式：代码： val spark = SparkSession.builder().appName("raw_data").en

浏览 1提问于2022-08-26得票数 0

1回答

PySpark S3文件读取性能注意事项

apache-spark、amazon-s3、pyspark

我是pyspark的新手。我只是想知道我应该将多大的文件写入S3，这样Spark就可以读取这些文件并进行处理。有没有读神的链接？谢谢

浏览 1提问于2021-04-05得票数 0

1回答

AWS EMR Apache Spark和VPC中的自定义S3端点

amazon-web-services、apache-spark、amazon-s3、amazon-emr

我在VPС中使用Apache Spark和Redshift，还使用AWS S3作为源数据和临时数据进行Redshift复制。目前，我怀疑对AWS的读/写性能不够好，根据以下讨论中的建议，我在VPC内创建了S3端点。现在，当我从S3加载数据时，我看不到创建S3端点之前和之后的任何性能差异。在Apache Spark中，我以以下方式读取数据： spark.read.csv("

浏览 0提问于2019-04-02得票数 0

1回答

减少星火阶段的任务数

amazon-web-services、apache-spark、task、amazon-emr、stage

我正在aws中运行一个spark作业，它从s3读取大约100 k小JSON文件，执行一些转换，并将结果写回s3。我已经将洗牌分区和默认并行性设置为20，执行器内存设置为4GB。但是，对于NativeMethodAccessorImpl.java，的javaToPython (我理解为写入s3的UI )阶段之一，有将近2.7k个任务，输入数据大小< 1MB。对于使用收集操作的阶段，相同的行为。我不明白为什么？我在

浏览 13提问于2022-02-10得票数 0

1回答

如何测试模拟的(moto/boto) S3读写在PySpark中

amazon-s3、pyspark、boto、moto

我正在尝试统一一个函数，该函数将数据写入S3，然后从同一个S3位置读取相同的数据。我正在尝试使用moto和boto (2.x)来实现这个1。问题是服务返回的是我被禁止访问密钥2。有没有人在s3中成功地测试过模仿PySpark的读/写来分享一些见解？= pytest.mark.usefixtures("spark_context") @mock_

浏览 1提问于2018-07-19得票数 8

4回答

如何控制拼图文件在胶水中的大小？

apache-spark、pyspark、parquet、aws-glue

我正在将数据集加载到DynamicFrame中，执行转换，然后将其写回S3： frame= someDateFrame, connection_options = { "path": "s3://the-bucket首先，我不明白为什么Glue

浏览 2提问于2019-10-06得票数 2

1回答

是什么导致了火花驱动程序的maxResultSize限制？

apache-spark、memory、databricks、azure-databricks

在我的星火工作中，我发送给司机的结果仅仅是几个KBs。of 3021102 tasks (4.0 GB) is bigger than spark.driver.maxResultSize (4.0 GB)有关代码/执行的更多详细信息：每个任务从S3</e

浏览 2提问于2021-03-30得票数 0

3回答

S3上带有美元标志的垃圾火花输出文件

apache-spark、amazon-s3、pyspark

我有一个简单的火花作业，它从s3读取一个文件，取5个文件，然后用s3写回去。我看到的是，在s3中总是有额外的文件，在我的输出“目录”(称为output_$folder$ )旁边。fi

浏览 4提问于2016-10-14得票数 1

回答已采纳

1回答

没有使用自定义Jar加载MainClass

amazon-web-services、apache-spark、emr、amazon-emr

更新 "Name": "spark-program", "Jar"

浏览 1提问于2018-03-17得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

S3前缀中的回滚写入失败-通过Spark进行分区