Spark写入多个文件_Spark Streaming writeStream未写入文件_并发写入多个文件 - 腾讯云开发者社区

apache-spark、amazon-s3、amazon-emr

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。spark/EMR/S3中的任何/所有这些都支持它吗？

浏览 11提问于2020-10-02得票数 0

1回答

Spark写入多个文件

scala、apache-spark

我有两个过滤条件不同的数据帧，我需要将这两个数据帧写入hdfs相同的文件夹。我应该如何在一个hugs文件夹中同时写入两个数据帧。

浏览 5提问于2019-10-02得票数 1

2回答

如何在不在pyspark中创建文件夹的情况下写入CSV文件？

python、apache-spark、pyspark、apache-spark-sql

在写入CSV文件时，自动创建文件夹，然后创建具有隐名的csv文件，如何在pyspark中创建具有任何特定名称的CSV，而不是在pandas中创建文件夹。

浏览 7提问于2021-11-09得票数 0

1回答

将数据帧写入现有csv文件scala

scala、dataframe、csv、apache-spark

----++---------------------------+-------+ finalEmojiAnalyzedDataFrame.write.format("com.springml.spark.sftpException in thread &qu

浏览 20提问于2021-02-25得票数 0

1回答

更改spark _temporary目录路径，避免删除parquets

scala、hadoop、spark2.4.4

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：使用其他数据调用相同的spark作业，并在hdfs:/outputFil/0/tm/

浏览 20提问于2020-03-19得票数 1

1回答

在保存到分区拼花文件时实现并发性

scala、apache-spark、parquet

当使用dataframe向parquet写入partitionBy时：我期望所编写的每个分区都由一个单独的任务独立完成一个工作人员正在循环遍历每个分区并依次写出.parquet文件。为什么会出现这种情况--在这个spark.write.parquet操作中是否存在强制并发的方法？

浏览 0提问于2018-06-26得票数 5

回答已采纳

2回答

Spark DataFrameWriter ignoreNullFields不工作

apache-spark、apache-spark-sql

我有一个包含多个具有不同模式的空值的DataFrame+----+----+----+----++----+----+----+----++----+----+----+----+但即使我使用 spark.write.option("ignoreNu

浏览 50提问于2020-02-27得票数 3

1回答

使用scala和spark组合csv文件时，头写了多次

scala、apache-spark

目前，我正在尝试将多个csv文件合并到一个文件中，文件头完全相同，但数据不同，它们被命名为- data__1，data__2。 import org.apache.spark.sql.types._ importorg.apache.spark.sql.，但是如果我保留.option(&

浏览 3提问于2022-06-13得票数 0

1回答

如何在databricks中使用pyspark将所有行数据从spark dataframe获取到文件

python、pyspark、apache-spark-sql、azure-databricks

我正在尝试从spark dataframe中获取所有行数据到databricks中的一个文件中。我能够用很少的计数将df数据写到文件中。假设我在df中得到的计数是100，那么在文件中它的计数是50，所以它跳过了data.How。我可以在不跳过数据的情况下，将完成的数据从dataframe加载到文件中。我已经创建了一个udf，udf将打开文件并将数据附加到其中。我在spark sql df中调用了该udf。有人能在这个问题上帮我吗？

浏览 1提问于2020-09-30得票数 0

1回答

限制从Apache Spark到ES的写入

apache-spark、elasticsearch、throttling

在我们的项目中，我们使用Apache Spark来写入ES。我们运行多个并行写入ES的spark作业。我们处理的数据量太大，导致写入吞吐量高达约5K写入/秒。我们希望限制ES写入，以便将其降低到500到1000写入/秒的范围。我们遇到过像es.batch.size.bytes和es.batch.size.entries这样的ES配置，但我们不确定这些配置如何与Apache Spark一起工作。

浏览 15提问于2020-07-20得票数 1

1回答

与星火历史服务器正在运行的群集通信

apache-spark

我有一个可以工作的Spark集群，其中一个主节点和一些工作节点运行在Kubernetes上。此群集已用于多个星火提交作业，并已开始运行。=truespark.history.fs.logDirectory=...spark.hadoop.fs.s3a.secret.key服务器正在将日志写入外部DB (minIO使用s3a协议)。现在，每当我提交火花

浏览 2提问于2021-09-16得票数 1

回答已采纳

2回答

写入HDFS或S3时是否锁定文件？

apache-spark、apache-spark-sql

我有一个S3位置，目录结构如下，上面创建了一个Hive表：假设我有一个Spark程序，它使用下面的代码行将数据写入上面的表位置，跨越多个分区： Df.write.partitionBy("orderdate").parquet("s3://<Mybucket>/<Table Name>

浏览 0提问于2018-03-19得票数 11

1回答

Delta Lake将多个文件压缩为单个文件

databricks、delta-lake

我正在读取kafka数据，并使用delta lake格式将其写入为流。Delta lake在从kafka进行流式写入的过程中创建了许多文件，我觉得kafka是hdfs文件系统的核心。我已经尝试过将多个文件压缩为单个文件。val spark = SparkSession.builder .appName("spark session example&quo

浏览 16提问于2019-10-13得票数 4

回答已采纳

2回答

触发本地rdd写入到本地Cassandra DB

apache-spark、cassandra、spark-cassandra-connector、dse

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

浏览 3提问于2020-10-20得票数 1

1回答

使用R sparklyr将多个Spark镶木文件加载到Spark表中？

r、apache-spark、sparklyr

我正在尝试使用R sparklyr将多个拼图文件加载到一个Spark表中。附加的代码显示了我是如何做到这一点的。spark_load_data <- function(db_conn, test_period) library(DBI) overwrite <- TRUE"pcidata" pq_path <- paste0("s3://<path>/PciData/trans

浏览 0提问于2019-08-17得票数 0

1回答

PySpark S3文件读取性能注意事项

apache-spark、amazon-s3、pyspark

我只是想知道我应该将多大的文件写入S3，这样Spark就可以读取这些文件并进行处理。有没有读神的链接？谢谢

浏览 1提问于2021-04-05得票数 0

1回答

使用Apache写入HDFS时的输出序列

scala、hadoop、apache-spark、rdd

我正在进行apache中的一个项目，要求将处理后的输出从Spark写入特定的格式，如Header -> Data -> Trailer。为了写入HDFS，我使用.saveAsHadoopFile方法，并使用密钥作为文件名将数据写入多个文件。但是问题是序列的数据是没有维护的，文件都是用Data->Header->Trailer写成的，或者是三个不同的组合。在RDD转换中，我有遗漏什么吗？

浏览 3提问于2016-02-25得票数 0

回答已采纳

2回答

如何用pandas读取Spark写的文件？

python、pandas、apache-spark、parquet

当Spark将dateframe数据写入拼图文件时，Spark将创建一个包含多个独立拼图文件的目录。("dir/to/save/to") IsADirectoryError: [Errno 21] Is a directory: 如何通过简单的方法解决这个问题，两个代码示例可以使用相同的文件路径

浏览 30提问于2019-08-07得票数 1

回答已采纳

2回答

并行写入多个拼图文件

java、apache-spark

我有一个很大的Spark DataSet (Java) &我需要应用过滤器来获得多个数据集，并将每个数据集写入拼花地板。 Java Spark是否提供了可以并行编写所有拼图文件的功能？

浏览 19提问于2020-06-04得票数 0

回答已采纳

1回答

从Spark流作业写入多个ES接收器

apache-spark、elasticsearch

我正在使用Spark streaming来处理Kafka队列中的大量数据，我需要将结果写入设置的两个ES集群。我在我的项目中使用了"org.elasticsearch.elasticsearch- spark -XX“，并且能够通过使用EsSpark.saveJsonToEs()方法写入一个ES集群，该方法在内部从不可变的spark上下文中获取ES的特定属性。因此，如果spark上下文是不可变的，我如何在运行时更改属性并将结果写入多个ES集群

浏览 2提问于2020-01-09得票数 0

点击加载更多