Spark按文件已存在保存DataSet分区错误

是指在使用Spark进行数据处理时，如果尝试将DataSet保存到已存在的文件分区中，会出现保存错误的情况。

Spark是一个开源的分布式计算框架，用于处理大规模数据集的计算任务。它提供了丰富的API和工具，支持在分布式环境中进行数据处理、机器学习、图计算等任务。

DataSet是Spark中的一种数据结构，它是强类型的，类似于关系型数据库中的表。DataSet提供了丰富的操作函数，可以进行数据的转换、过滤、聚合等操作。

在Spark中，我们可以使用save方法将DataSet保存到文件系统中。通常情况下，Spark会自动根据数据的分区进行保存，每个分区对应一个文件。然而，如果尝试将DataSet保存到已存在的文件分区中，就会出现保存错误。

这种错误通常是由于文件已存在而导致的。在保存DataSet时，Spark会检查目标文件分区是否已存在，如果存在，则会抛出错误。这是为了避免数据被覆盖或混乱。

为了解决这个问题，我们可以采取以下几种方法：

删除已存在的文件分区：在保存DataSet之前，可以先删除已存在的文件分区。可以使用文件系统的API或命令行工具来删除文件分区。
更改保存路径：可以将DataSet保存到一个新的路径中，避免与已存在的文件分区冲突。
使用不同的分区列：如果保存的文件分区是基于某些列的，可以尝试使用不同的列进行分区，避免与已存在的文件分区冲突。

总结起来，Spark按文件已存在保存DataSet分区错误是由于尝试将DataSet保存到已存在的文件分区中而导致的保存错误。为了解决这个问题，可以删除已存在的文件分区、更改保存路径或使用不同的分区列。

Spark流到配置单元，每个分区有太多小文件

apache-spark、hadoop、hive、apache-kafka、spark-streaming

我有一个spark流作业，批处理间隔为2分钟(可配置)。此作业读取Kafka主题，创建一个数据集，并在其上应用模式，然后将这些记录插入到Hive表中。 Spark作业在配置单元分区中为每个批处理间隔创建一个文件，如下所示： dataset.coalesce(1).write().mode(SaveMode.Append).insertInto(targetEntityName)；现在传入的数据并不是那么大，如果我将批处理持续时间增加到10分钟左右，那么我最终可能只获得2-3mb的数据，这远远小于块大小。这是Spark Streaming中的预期行为。我正在寻找有效的方法来做一个后期处理

浏览 0提问于2018-03-20得票数 2

1回答

将数据帧写入现有csv文件scala

scala、dataframe、csv、apache-spark

浏览 20提问于2021-02-25得票数 0

1回答

星星之火-我不能在本地模式下增加任务数。

apache-spark、apache-spark-sql

我试图提交我的应用程序并通过不同的组合更改代码中的coalese[k]：首先，我从本地磁盘读取了一些数据： val df = spark.read.option("encoding", "gbk").option("wholeFile",true).option("multiline",true).option("sep", "|+|").schema(schema).csv("file:///path/to/foo.txt") 情况1 我认为局部的*意味着总共有56个核心。我指定

浏览 5提问于2021-04-12得票数 1

回答已采纳

1回答

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

apache-spark、hadoop、hdfs

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？ Spark是用于计算海量数据的分布式数据处理引擎。假设我在mysql中存储了大量数据，我想对这些数据进行处理。Spark从mysql读取数据，并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行spark需要分布式文件存储？

浏览 3提问于2021-03-25得票数 0

1回答

如何在Apache Spark中实现增量MapReduce

apache-spark

在CouchDB和像这样的系统设计中，有一个称为“增量MapReduce”的概念，在这个概念中，以前执行MapReduce算法的结果将被保存，并用于跳过未更改的输入数据部分。假设我有一百万行划分为20个分区。如果我对这些数据运行一个简单的MapReduce，我可以缓存/存储减少每个单独分区的结果，然后将它们组合在一起并再次减少，以产生最终结果。如果我只更改了第19个分区中的数据，那么我只需要对数据的已更改部分运行map & reduce步骤，然后将新结果与来自未更改分区的已保存reduce结果组合在一起，以获得更新的结果。使用这种捕获，我将能够跳过几乎95%的工作，以便在这个假设的数

浏览 0提问于2017-11-22得票数 0

1回答

如何强制spark避免数据集重新计算？

apache-spark、apache-spark-sql

我有一个从spark中的cassandra加载的数据集。在加载这个数据集之后，我将从cassandra中删除一些项，但我希望我的数据集在下一次计算中是第一个。我已经使用了persist(DISK_ONLY)来解决这个问题，但它似乎是最好的方法。如何强制spark避免重新计算？示例： val dataset:Dataset[Int] = ??? // something from cassandra dataset.persist(StorageLevel.DISK_ONLY) // it's best effort dataset.count // = 2n dataset.

浏览 0提问于2017-10-18得票数 0

2回答

如何将代码和数据集分发到工作节点上？

scala、apache-spark、apache-spark-sql、apache-spark-mllib

我一直在使用dataset Movielens (2000万条记录)，并且一直在使用中的Spark。我的环境是VirtualBox上的Ubuntu14.4。我有一个主节点和两个从节点。我使用了已发布的Apache、Apache、Scala、sbt。代码是用Scala编写的。如何将代码和数据集分发到工作节点上？ import java.lang.Math._ import org.apache.spark.ml.recommendation.ALS import org.apache.spark.ml.recommendation.ALS.Rating import org.ap

浏览 0提问于2019-06-29得票数 1

回答已采纳

1回答

Spark:按键迭代数据集的子集(where子句)

java、apache-spark、foreach、dataset、rdd

我希望有人能帮我解决火花问题。我在一个数据集(ds_ids)中有一堆I，假设我的数据集如下所示： ID 1 2 3 我正在收集这些in的进一步数据，并将它们存储在一个新的数据集(ds_combined_data)中，如下所示： ID | Date | Status 1 | 10.01.18 | 10 1 | 11.01.18 | 20 2 | 10.01.18 | 20 3 | 12.01.18

浏览 1提问于2018-08-01得票数 0

1回答

客户端机器中的spark提交

eclipse、scala、hadoop、apache-spark

我在本地系统中运行eclipse中的Spark Twitter情感分析代码。服务器中的所有hadoop和spark集群设置。是否可以在我的本地系统中运行，而集群设置不是他们的？如果是，请指导我怎么做。在运行过程中，我给出的参数是 > --class com.dhruv.Predict \ > --master spark://<spark cluster ip>:7077 \ > --num-executors 2 \ > --executor-memory 512m \ > --executor-cores 2 \ target/twitterse

浏览 0提问于2016-11-24得票数 1

3回答

尝试将Spark SQL Dataframe保存在空目录中

scala、apache-spark、dataframe、apache-spark-sql、jupyter-notebook

假设我有一个名为df的DataFrame。我运行以下命令来尝试将其保存到本地： df.coalesce(1). write. format("com.databricks.spark.csv"). option("header", "true"). parquet("example") } 但是，当我这样做并检查是否创建了该文件时(在目录example中，我看到一个目录中只有两个文件： _SUCCESS ._SUCCESS.crc 如何让DataFrame正确保存文件？如果它很重要，我也是通过Jupyt

浏览 0提问于2016-07-07得票数 1

2回答

使用RStudio中的sparklyr，我是否可以将本地csv文件上传到spark集群

r、apache-spark、rstudio、sparkr

我对集群计算还很陌生，所以我甚至不确定这是否可能。我成功地在Rstudio中创建了一个spark_context (使用sparklyr)来连接到我们本地的Spark集群。使用copy_to我可以将数据帧从R上传到Spark，但我正在尝试使用spark_read_csv将本地存储的CSV文件直接上传到Spark集群，而无需先将其导入R环境(这是一个5 5GB的大文件)。它不工作(甚至用file:///)，作为位置前缀，并且它似乎只能上传已经存储在集群中的文件。如何将本地文件直接上传到spark，而无需先将其加载到R？任何建议都很感谢。

浏览 21提问于2017-01-25得票数 1

回答已采纳

1回答

将机器学习模型保存/覆盖为单个文件

python、apache-spark、machine-learning、pyspark

我有使用LinearRegression的机器学习模型。我有5 vm的星系团。在对模型进行培训之后，我想保存模型，以便以后只需将其加载到内存中即可使用。我试过用 model.save("/tmp/model.pkl"). 这样保存时，它在集群的所有节点中创建名为model.pkl的目录，该目录的文件为data/, metadata/, _SUCCESS, ._SUCCESS.crc, _temporary, .. and some more。有没有一种方法可以将模型保存为像model.pkl这样的单个文件？此外，当我使用新的可用数据对模型进行重新培训时，我使用model.

浏览 4提问于2017-10-03得票数 2

1回答

星火中的分区与数据湖中的分区

apache-spark、pyspark、apache-spark-sql、databricks、data-lake

当将文件写入Data时，特别是通过Databricks，我们可以选择指定分区列。这将根据数据集中该列中可用的值将数据保存在单独的文件夹(分区)中。同时，当我们讨论星火优化时，我们谈到了数据的分区。这两者有什么区别呢？他们之间有关系吗？据我所理解，如果我们只想读取数据的某些部分(当然是基于分区列)，将数据保存在分区中的分布式文件系统中将有所帮助。例如，如果我们按颜色进行分区，并且只对“红色”记录感兴趣，我们只能在该分区中读取，而忽略其余的。这会在读取数据时产生一定程度的优化。然后，为了让Spark执行并行处理，这个“red”分区(来自文件系统)将根据集群中可用的核数划分为分区(Spark

浏览 2提问于2022-05-10得票数 0

回答已采纳

1回答

性能改进节省Spark ORC

performance、apache-spark、spark-dataframe、orc

我使用的是Spark 1.6.1，在Spark的世界里我还是个新手。我正在尝试将文件保存为ORC格式。我正在尝试将相对较大的文本文件(8 GB)解析为ORC。文件通常非常宽，即200+列。列类型是基本的: Int、String、Date。我解析了所有行，然后执行persist()并保存到文件中。以下是基本代码： val schema = StructType( myTableColumns.map( c => StructField( //Field descriptions ~200 fields ))) val rowRDD = rddProcessedLines

浏览 0提问于2016-06-23得票数 0

1回答

查找星火DataFrame.write.csv()调用的目标csv文件名

apache-spark、hadoop、pyspark

当我这样做的时候： df = spark.read.parquet(file) df.write.csv('output') 它使用一堆文件创建一个名为output的目录，其中一个文件是具有不可预知名称的目标csv文件，例如：part-00006-80ba8022-33cb-4478-aab3-29f08efc160a-c000.csv有方法知道.csv()调用后输出文件名是什么吗？

浏览 0提问于2021-07-21得票数 0

4回答

如何在写拼图文件时避免空文件？

apache-spark、pyspark、spark-structured-streaming

我正在使用Spark Structured从Kafka队列中读取。读完卡夫卡之后，我在dataframe上应用了filter。我正在将这个经过过滤的数据帧保存到一个拼图文件中。这将生成许多空拼图文件。有没有什么方法可以让我不再写空文件？ df = spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", KafkaServer) \ .option("subscribe", KafkaTopics) \ .load

浏览 1提问于2017-09-27得票数 2

1回答

Spark Dataframe在性能上如何优于Pandas Dataframe？

python、apache-spark、dataframe、pyspark、databricks

谁能解释一下为什么Spark Dataframe在执行时间上比Pandas Dataframes更好。我正在处理中等容量的数据，并进行python函数供电的转换例如，我的数据集中有一个数字介于1到100,000之间的列，并希望执行基本的数值操作-创建一个新列，该列是现有数值列的多维数据集。 from datetime import datetime import numpy as np import pandas as pd def cube(num): return num**3 array_of_nums = np.arange(0,100000) dataset = pd

浏览 0提问于2019-04-30得票数 3

2回答

Spark:数据帧检查点与显式写入磁盘的效率

scala、apache-spark、apache-spark-sql

检查点版本： val savePath = "/some/path" spark.sparkContext.setCheckpointDir(savePath) df.checkpoint() 写入磁盘版本： df.write.parquet(savePath) val df = spark.read.parquet(savePath) 我认为两者都以同样的方式打破了血统。在我的实验中，磁盘上的checkpoint比parquet大了近30 (689 my对24 my)。在运行时间方面，检查点需要1.5倍的时间(10.5分钟与7.5分钟)。考虑到这一切，使用检查点而不是保存

浏览 1提问于2018-08-10得票数 19

7回答

如何覆盖spark中的输出目录

apache-spark

我有一个spark streaming应用程序，它每分钟都会生成一个数据集。我需要保存/覆盖处理数据的结果。当我试图覆盖dataset时，org.apache.hadoop.mapred.FileAlreadyExistsException停止执行。我设置了Spark属性set("spark.files.overwrite","true")，但是没有成功。如何覆盖或预删除spark中的文件？

浏览 271提问于2014-11-20得票数 124

回答已采纳

1回答

如何使用火花放电获取Delta表的所有当前分区？

apache-spark、pyspark、databricks、delta-lake

我使用的OSS版本的三角洲湖和火花3.0.1。我的当前用例要求我发现给定的增量表中的所有当前分区。我的数据存储在'./data/raw'中，并由列sensorId进行分区(提到的路径是相对于我的python脚本的路径)。我试图使用SHOW PARTITIONS语法，就像中提到的那样。然而，我正在犯错误。我的代码是这样的： from pyspark.sql import SparkSession spark = SparkSession.builder.appName("TestScript").getOrCreate() df=spark.sql("

浏览 4提问于2021-02-22得票数 1

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark按文件已存在保存DataSet分区错误

相关·内容

Spark流到配置单元，每个分区有太多小文件

将数据帧写入现有csv文件scala

星星之火-我不能在本地模式下增加任务数。

是分布式文件存储(HDFS/Cassandra/S3等)是否强制spark在群集模式下运行？若有，原因为何？

如何在Apache Spark中实现增量MapReduce

如何强制spark避免数据集重新计算？

如何将代码和数据集分发到工作节点上？

Spark:按键迭代数据集的子集(where子句)

客户端机器中的spark提交

尝试将Spark SQL Dataframe保存在空目录中

使用RStudio中的sparklyr，我是否可以将本地csv文件上传到spark集群

将机器学习模型保存/覆盖为单个文件

星火中的分区与数据湖中的分区

性能改进节省Spark ORC

查找星火DataFrame.write.csv()调用的目标csv文件名

如何在写拼图文件时避免空文件？

Spark Dataframe在性能上如何优于Pandas Dataframe？

Spark:数据帧检查点与显式写入磁盘的效率

如何覆盖spark中的输出目录

如何使用火花放电获取Delta表的所有当前分区？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐