将数据帧写入hdfs的Spark作业被中止FileFormatWriter.scala:196

apache-spark、apache-spark-sql

对于spark，我们应该如何从HDFS中的一个文件夹中获取数据，进行一些修改，并通过覆盖保存模式将更新后的数据保存到HDFS 中的同一个文件夹中，而不需要FileNotFoundException。 import org.apache.spark.sql.{SparkSession,SaveMode} import org.apache.spark.SparkConf val sparkConf: SparkConf = new SparkConf() val sparkSession = SparkSession.builder.config(sparkConf).getOrCreate(

浏览 4提问于2017-03-21得票数 18

2回答

星星之火:在将大型数据文件写入拼板文件时使用LeaseExpiredException

scala、apache-spark、dataframe、parquet、write-error

我有一个大的数据，我写在HDFS中的拼图文件。从日志中获取以下异常： 2018-10-15 18:31:32 ERROR Executor:91 - Exception in task 41.0 in stage 0.0 (TID 1321) org.apache.spark.SparkException: Task failed while writing rows. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$Fi

浏览 1提问于2018-10-16得票数 0

回答已采纳

1回答

将地板存储到Kerberos安全的Webhdfs中

apache-spark、hdfs、kerberos、webhdfs

我写到一个webhdfs路径，由Kerberos保护，来自Spark。它的一部分实际上是工作的，但当将拼花文件写入(web)hdfs位置时，它会崩溃。身份验证和授权工作以及脚本创建了存储partquet文件所需的路径结构，但是当实际写入开始时，OutputStreams开始失败。星火配置看起来像这样(我让它更详细了一点)： val hadoopConfig = new Configuration() hadoopConfig.set(FS_DEFAULT_NAME_KEY, "webhdfs://hadoop-host:14000/webhdfs/v1") ha

浏览 2提问于2018-06-11得票数 1

回答已采纳

1回答

更改spark _temporary目录路径，避免删除parquets

scala、hadoop、spark2.4.4

当两个或多个Spark作业具有相同的输出目录时，相互删除文件将不可避免。我正在使用spark 2.4.4在append模式下写入一个数据帧，我想在spark的tmp目录中添加一个时间戳，以避免这些删除。示例：我用hdfs:/outputFile/0/tmp/file1.parquet编写的JobSpark 使用其他数据调用相同的spark作业，并在hdfs:/outputFil/0/tm/file2.parquet中写入我希望jobSpark1在hdfs:/outputFile/0/tmp+(timeStamp)/file1.parquet中写入，另一个作业在hdfs:/outputF

浏览 20提问于2020-03-19得票数 1

1回答

覆盖镶木地板时的IOException

scala、apache-spark

我有拼图文件，假设文件名为abc/A。parquet和一些记录根据某些条件被过滤出来，并创建DF，我正在尝试用saveMode overwrite选项用结果过滤的DF覆盖文件，但抛出了以下异常：用于覆盖filterDF.coalesce(1).write.mode("overwrite").parquet("file:/home/psub2/cls_parquet2/file:/home/psub7/abc/A.parquet")的命令写入行时失败。在org.apache.spark.sql.execution.datasources.FileFormatW

浏览 16提问于2019-11-26得票数 0

回答已采纳

1回答

向HDFS写入数据时引发OOM问题

scala、apache-spark、dataframe、hdfs、cloudera

得到这个问题与斯帕克2.3。我在Cloudera集群上运行这个任务，它有7个节点: 64 GB ram，每个16核相关conf：--conf spark.executor.memoryOverhead=5G --executor-memory 30G --num-executors 15 --executor-cores 5 火花执行器会引发错误： java.lang.OutOfMemoryError: Requested array size exceeds VM limit at java.lang.StringCoding.encode(StringCoding.java:350)

浏览 1提问于2018-07-18得票数 0

3回答

正在尝试将数据帧写入文件，写入行时获取org.apache.spark.SparkException: Task失败

amazon-web-services、apache-spark、apache-spark-sql

浏览 2提问于2017-03-11得票数 9

回答已采纳

1回答

在启用了推测的情况下，如何在Spark中管理写入？

apache-spark、apache-spark-2.0、speculative-execution

假设我有一个Spark2.x应用程序，它启用了猜测(spark.speculation=true)，它将数据写入到HDFS上的特定位置。现在，如果任务(将数据写入HDFS)需要很长时间，Spark将在另一个执行器上创建同一任务的副本，并且这两个作业将并行运行。 Spark是如何处理这个问题的？显然，这两个任务不应该同时尝试在同一文件位置写入数据(本例中似乎发生了这种情况)。任何帮助都将不胜感激。谢谢

浏览 9提问于2020-12-11得票数 0

2回答

从dataframe写入新文件时出现文件已存在错误

apache-spark、emr

在EMR Spark上，通过数据帧向S3写入RDD[String]。 rddString .toDF() .coalesce(16) .write .option("compression", "gzip") .mode(SaveMode.Overwrite) .json(s"s3n://my-bucket/some/new/path") 保存模式为Overwrite，并且s3n://my-bucket/some/new/path尚不存在。我总是得到一个IOException: File already exists o

浏览 49提问于2018-03-05得票数 12

回答已采纳

2回答

Spark Structured立即抛出Java OOM

apache-spark、spark-streaming、databricks

我正在尝试构建一个简单的管道，使用Kafka作为Spark的结构化流API的流源，执行分组聚合并将结果持久化到HDFS。但是，只要我提交作业，我就会收到Java堆空间错误，即使流数据的容量非常小。以下是pyspark中的代码： allEvents =spark \ .readStream \ .format("kafka") \ .option("kafka.bootstrap.servers", "localhost:9092") \ .option("subscribe","MyNe

浏览 0提问于2017-11-24得票数 0

1回答

文件在Spark作业中保持.avro.tmp状态？

java、apache-spark、avro、kite-sdk

我有一个Spark作业，它从HDFS读取数百万条记录，处理它们，然后以AVRO格式写回HDFS。观察到许多文件(已写入)仍处于.avro.tmp状态。我正在使用Kite SDK来写入AVRO格式的数据。环境为CDH 5.5。会不会是因为Spark作业在读取记录并将其发送给executors (实际执行写入)后立即终止？如果是这种情况，如何确保作业在所有.tmp都转换为.avro之前不会终止？或者还有什么原因呢？

浏览 3提问于2016-02-04得票数 1

1回答

如何使用多个小文件来加速spark的镶木地板阅读器

python、apache-spark、pyspark、hdfs

我正在读取一个spark数据帧，该数据帧存储在本地集群的HDFS上，格式为parquet。拼图数据被拆分到大约96,000个单独文件中。现在我知道，理想情况下，数据不会被分割成这么多小文件，但现在我必须以这种格式处理它。我使用的是pyspark v2.2.0。当我运行spark.read.parquet(data_root)时，奇怪的事情发生了: spark顺序地产生一系列作业，每个作业大约有2000个任务。它产生了48个这样的工作，每个工作都有一个阶段。在这48个任务中，它只执行了大约96,000个任务--我假设它为每个parquet文件运行一个任务。每个作业只需要大约2秒就可以运行。我

浏览 0提问于2017-12-15得票数 1

1回答

用S3实现火花i/o

apache-spark、amazon-s3、databricks

从阅读下面的内容 I/O与S3 将数据附加到现有数据集的时间更长，尤其是所有星火作业都已经完成，但您的命令尚未完成，，这是因为驱动程序节点将任务的输出文件从作业临时目录逐个移动到最终目标，这在云存储(例如S3)中非常慢。启用此优化: spark.hadoop.mapreduce.fileoutputcommitter.algorithm.version=2 我想检查粗体语句是否为真。我从未听说过火花驱动程序使用S3编写文件/控件。当然，不是HDFS集群，而Spark驱动程序在从S3读取数据时是必需的。据我所知，即使在AWS上运行Spark，执行者也会将数据写入rest (或KAF

浏览 8提问于2022-12-04得票数 0

1回答

将数据帧写入csv和parquet时出现SparkR错误

rstudio、sparkr

我在将spark数据帧写入csv和parquet时出错。我已经尝试安装winutil，但是仍然不能解决这个错误。我的代码 INVALID_IMEI <- c("012345678901230","000000000000000") setwd("D:/Revas/Jatim Old") fileList <- list.files() cdrSchema <- structType(structField("date","string"),

浏览 0提问于2017-09-23得票数 0

1回答

触发多个数据帧存储

scala、hadoop、apache-spark、functional-programming

我有一个spark作业，它创建一个数据帧并保存到HDFS中。我想要做的是将该数据帧的一个子集保存到另一个位置，但我想对此进行改进。我所拥有的唯一转换是spark作业的save itself...every other元素是一个操作。我不缓存数据帧。我担心在旧数据帧的新数据帧上创建drop操作将再次经历所有原始数据帧转换。例如，我有这样的东西： val df = hiveContext.read.json("hdfs://HOSTNAME:PORT/user/spark/data/in/*") val df2 = df.withColumn("new_column&

浏览 9提问于2016-08-04得票数 1

回答已采纳

4回答

Spark:写入DataFrame时出错

scala、apache-spark、apache-spark-sql

我正在尝试将DataFrame编写为json格式，但是错误不断出现(我选择哪种格式并不重要)：我的代码： var finalDF = spark_session.createDataFrame(d, schema) finalDF.show(10, false) finalDF.write.mode("overwrite").json("test/df.json") show方法打印预期的结果，但是当它要写的时候抛出这个错误： ExitCodeException exitCode=-1073741515: at org.apache.hado

浏览 0提问于2018-05-17得票数 0

1回答

将写入ORC文件引发错误

pyspark、apache-spark-sql、orc

我试图写一个Spark作为ORC文件，它抛出以下错误。我去叫IndexOutOfBoundsException..。日志： Caused by: org.apache.spark.SparkException: Task failed while writing rows at org.apache.spark.sql.execution.datasources.FileFormatWriter$.org$apache$spark$sql$execution$datasources$FileFormatWriter$$executeTask(FileFormatWriter.

浏览 0提问于2018-08-09得票数 0

1回答

对HDFS的Spark写入速度很慢

apache-spark、hadoop、hdfs

我在HDFS (非分区)上有ORC数据，大约80亿行，大小为250 in。Iam读取DF中的数据，使用partitionBy ex: df.write.mode("overwrite").partitionBy("some_column").orc("hdfs partitionBy写入不带ay转换的DF“) 当我在spark UI中监控作业状态时，作业和阶段将在20分钟内完成。但spark UI中的"SQL“选项卡显示为40分钟。在调试模式下运行作业并查看spark日志后，我意识到写入"_temporary“的任务将在20分钟内完成。

浏览 174提问于2020-05-28得票数 0

1回答

将整型/字符串从集群中写入到吡火花中的文本文件

amazon-s3、pyspark、amazon-emr

我正在使用EMR step函数来分析数据。我想要存储分析数据的计数，以决定是否可以将其保存为csv或拼板。我更喜欢CSV，但如果尺寸太大，我将无法下载和使用它在我的笔记本电脑。当我尝试使用以下代码时，我使用count()方法将其存储到int变量limit中： coalesce(1).write.format("text").option("header", "false").mode("overwrite").save("output.txt") 它说： int没有任何称为写的属性是否有方法将整数或字符串写入

浏览 5提问于2020-03-23得票数 2

回答已采纳

1回答

Spark Dataframe挂起保存

amazon-web-services、hadoop、apache-spark、pyspark、amazon-emr

我一直在努力找出我的spark作业出了什么问题，因为我试图将它写到S3或HDFS (大约100G的拼图格式的数据)。导致挂起的代码行： spark_df.write.save(MY_PATH,format='parquet',mode='append') 我已经尝试了覆盖以及附加模式，并尝试保存到HDFS和S3，但无论如何作业将挂起。在Hadoop资源管理器GUI中，它将spark应用程序的状态显示为" running "，但看起来Spark实际上并没有执行任何操作，当我查看Spark UI时，也没有作业在运行。让它工作的一件事是在集群处于

浏览 2提问于2018-01-12得票数 6

回答已采纳

1回答

scala、apache-spark、apache-spark-sql、file-format

我正在尝试使用以下Spark Scala代码将数据帧存储到HDFS。数据框中的所有列都为nullable = true Intermediate_data_final.coalesce(100).write .option("header", value = true) .option("compression", "bzip2") .mode(SaveMode.Append) .csv(path) 但是我得到了这个错误： 2019-08-08T17:22:21.108+0000: [GC (Alloc

浏览 72提问于2019-08-09得票数 0

1回答

在集群模式下使用spark将pandas数据帧(.csv)写入本地系统或hdfs

python、apache-spark

我尝试将pandas数据帧写入本地系统或集群模式下使用spark的hdfs，但它抛出了一个错误，如 IOError: [Errno 2] No such file or directory: {hdfs_path/file_name.txt} 这就是我的写作方式 df.to_csv("hdfs_path/file_name.txt", sep="|") 我使用的是python，作业是通过shell脚本运行的。如果我在本地模式下工作得很好，但在纱线簇模式下就不行。任何支持都是受欢迎的，并提前表示感谢。

浏览 18提问于2020-10-21得票数 0

1回答

Spark Streaming创建了许多小文件

apache-spark、hadoop、pyspark

我已经实现了一个火花流作业，它流的事件接收到HDFS在过去的6个月。它在HDFS中创建了许多小文件，我希望它们每个文件的大小都是HDFS的128MB(块大小)。如果我使用append模式，那么所有的数据都会被写到一个拼图文件中。如何配置Spark为每128 MB数据创建一个新的HDFS拼图文件？

浏览 2提问于2018-08-04得票数 2

回答已采纳

1回答

查找火花作业输出文件的位置

pyspark、amazon-emr

我正在AWS上的EMR集群中测试火花放电作业。目标是使用Lambda函数触发火花作业，但现在我正在手动运行火花作业。因此，我将SSH发送到主节点，然后运行spark作业，如下所示： spark-submit /home/hadoop/testspark.py mybucket 我的桶参数传递给火花作业。保存RDD的行是 rddFiltered.repartition(1).saveAsTextFile("/home/hadoop/output.txt") 星火作业似乎正在运行，但它将输出文件放在某个位置输出目录hdfs://ip-xxx-xx-xx-xx.ec2.intern

浏览 4提问于2019-12-03得票数 0

1回答

无法在spark中的Zeppelin上将文件写入远程hdfs

apache-spark、hadoop、pyspark、hdfs、apache-zeppelin

如何在spark中将文件保存在hdfs服务器上以下是我的代码 csv_file.write.mode('overwrite').parquet('hdfs:///data/ifckp/docs/csv_files/cs') 下面是我的错误： Py4JJavaError: An error occurred while calling o3621.parquet. : org.apache.hadoop.security.AccessControlException: Permission denied: user=zeppelin, access=WRITE

浏览 25提问于2020-02-01得票数 0

1回答

使用Spark写入memsql的最佳实践

apache-spark、scalability、singlestore

我的用例如下:我们正在使用Spark从HDFS读取和转换数据。转换后的数据应保存在memsql中。有没有使用Spark写入memsql的最佳实践？也就是说，在使用数据帧进行大规模(并行)写入时，确保写入性能和可伸缩性的最佳方法是什么？首选的解决方案是:使用memsql/Spark连接器()还是DataFrame的“写”方法(与MySQL JDBC驱动程序结合使用)。长话短说: Spark scale如何写入memsql？

浏览 4提问于2016-01-15得票数 1

1回答

以指定的Linux用户身份运行Spark executors

apache-spark、nfs

我有一个包含5个节点的spark独立集群。所有节点都通过nfs挂载了相同的卷。这些挂载中的文件具有特定的linux文件权限。当我以用户x(在所有节点上都可用，并且在所有节点上具有相同的uid)的身份spark提交作业时，我希望spark executors也以用户x的身份运行，以便作业只能访问用户x有权访问的文件。我没有Kerberos，也没有HDFS。在这个设置中这是可能的吗？使用纱线会有帮助吗？

浏览 0提问于2020-02-22得票数 1

2回答

Spark read csv文件提交自--files

apache-spark

我正在向yarn上的远程Spark集群提交一个spark作业，并在spark-submit --file中包含一个文件，我希望将提交的文件作为数据帧读取。但我对如何在不将文件放入HDFS中的情况下进行此操作感到困惑： spark-submit \ --class com.Employee \ --master yarn \ --files /User/employee.csv \ --jars SomeJar.jar spark: SparkSession = // create the Spark Session val df = spark.read.csv("/User/emp

浏览 0提问于2018-11-28得票数 1

1回答

FileAlreadyExistsException同时使用火花insertInto

apache-spark、hadoop、pyspark、hive

我使用下面的代码来使用函数将数据table写到一个已分区的表格中。 spark.conf.set("spark.sql.sources.partitionOverwriteMode", "DYNAMIC") df.write.mode("overwrite").insertInto(table, overwrite=True) 当集群运行其他一些繁重的任务时。它有1/3的错误概率。我认为这可能发生在任务似乎失败但没有失败的时候--事实上，seems启动了另一个任务来运行这个job.So --两个任务之间的冲突。 Traceback (most

浏览 0提问于2020-09-18得票数 3

2回答

在同一个HDFS位置上触发并发写入

apache-spark、hadoop、apache-spark-sql、hdfs、apache-nifi

我有一个火花代码，它使用附加模式将数据存储到HDFS位置(日期分区位置) Json格式。 df.write.mode("append").format('json').save(hdfsPath) sample hdfs location : /tmp/table1/datepart=20190903 我正在使用NiFi集群中上游的数据。NiFi集群中的每个节点将为消耗的数据创建一个流文件。我的spark代码正在处理流file.As NiFi是分布式的，我的spark代码是从不同的NiFi节点并行执行的，试图将数据保存到相同的HDFS位置。我不能将火花作业的输

浏览 8提问于2019-09-03得票数 8

1回答

Sparklyr on Databricks -在具有多个NaN值的sparklyr数据帧上按行取多列的平均值

r、dplyr、databricks、sparklyr、azure-databricks

我正在尝试为sparklyr数据帧创建最小、最大和平均列。我只想在计算中按行使用该大型数据帧中的5列。列中有许多NaN值，这些值可能是计算对象。在标准R中，使用的代码是： df_train$MinEncoding <- spark_apply(df_train,f=min ,columns=[,EncodingFeatures], 1, FUN=min,na.rm=TRUE) df_train$MaxEncoding <- spark_apply(df_train[,EncodingFeatures], 1, FUN=max,na.rm=TRUE) df_train$Mean

浏览 13提问于2019-10-15得票数 1

1回答

Spark中的长谱系(DAG)问题

apache-spark、databricks、directed-acyclic-graphs

我们通常使用Spark作为存储在S3或HDFS上的数据的处理引擎。我们使用Databricks和EMR平台。我经常面临的一个问题是，当任务规模增长时，工作绩效会严重下降。例如，假设我从五个表中读取数据，这些表具有不同的转换级别(过滤、分解、连接等)，并从这些转换中获得数据的联合子集，然后进行进一步的处理(例如：根据需要窗口函数等的条件删除一些行)，然后是其他一些处理阶段，最后将最终输出保存到目标s3路径。如果我们在不使用它的情况下运行此作业，则需要很长时间。但是，如果我们将临时中间数据帧保存(暂存)到S3，并将保存的(在S3上)数据帧用于后续的查询步骤，则作业完成得更快。有没有人有类似的经历？

浏览 17提问于2019-10-26得票数 0

回答已采纳

1回答

Spark数据帧检查点清理

scala、apache-spark、hive

我在spark中有一个dataframe，其中已经加载了来自Hive的整个分区，在对数据进行了一些修改之后，我需要打破谱系来覆盖相同的分区。但是，当spark作业完成后，我只剩下HDFS上检查点的数据。为什么Spark不能自己解决这个问题，或者是我遗漏了什么？ spark.sparkContext.setCheckpointDir("/home/user/checkpoint/") spark.conf.set("spark.sql.sources.partitionOverwriteMode", "dynamic") val df = sp

浏览 23提问于2020-02-01得票数 7

1回答

由于pyspark中的csv，无法写入行

apache-spark、pyspark

我有以下spark配置： [SPARK_APP_CONFIGS] spark.submit.deployMode = client spark.dynamicAllocation.enabled = true #spark.shuffle.service.enabled = true spark.yarn.queue = root.spar spark.driver.memoryOverhead = 512 spark.executor.memoryOverhead = 512 spark.executor.memory = 4g #spark.executor.cores = 1 #spa

浏览 51提问于2020-09-16得票数 0

3回答

在数据文件上使用partitionBy时对dataproc的警告

apache-spark、pyspark、google-cloud-platform、google-cloud-dataproc

我正在尝试使用dataproc编写一个数据内容到google云存储中。虽然写入是成功的，但在我下面粘贴的日志中有很多警告消息。在创建集群时，还是在pyspark程序中，是否缺少一些我需要的设置？或者这是谷歌的问题？备注：由dataframe在google存储上写入的数据是> 120 GB未压缩的。但我注意到了同样的警告，即使我处理的数据大小为1GB，未压缩。这是一个简单的dataframe，有50列被读取，一些转换被完成并写入磁盘。 Dataframe写语句如下所示： df.write.partitionBy("dt").format('csv').mo

浏览 0提问于2018-04-02得票数 2

回答已采纳

1回答

将数据帧结果插入配置单元表时出现Spark异常

apache-spark、pyspark、apache-spark-sql

这是我的代码片段。当spar.sql(query)被执行时，我得到了以下异常。我的table_v2有262 columns。我的table_v3有9 columns。有人能遇到类似的问题并帮助解决这个问题吗？提亚 spark = SparkSession.builder.enableHiveSupport().getOrCreate() sc=spark.sparkContext df1 = spark.sql("select * from myDB.table_v2") df2 = spark.sql("select * from myDB.table_v3&

浏览 17提问于2020-12-18得票数 3

回答已采纳

1回答

在PySpark中合并具有不同列的Parquet文件

apache-spark、merge、pyspark、parquet

我试图通过使用PySpark合并位于HDFS中的多个拼花文件。这些文件有不同的列和列类型。 from pyspark.sql import SparkSession from pyspark.sql import Row spark = SparkSession.builder.appName("test").config("spark.dynamicAllocation.enabled", "true").config("spark.shuffle.service.enabled", "true").confi

浏览 1提问于2019-02-18得票数 0

1回答

Spark 2.3.0 SQL无法将数据插入到单元hbase表中

apache-spark、hive、apache-spark-sql、hbase

使用与hive2.2.0集成的Spark2.3 thriftserver。从火花直线跑。尝试将数据插入到单元hbase表(以hbase作为存储空间的单元表)。插入到蜂窝本机表是可以的。当插入到hbase表中时，它会抛出以下异常： org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat不能转换为org.apache.hadoop.hive.ql.io.HiveOutputFormat 在org.apache.spark.scheduler.Task.run(Task.scala:109) at org.apache.spark.execu

浏览 2提问于2018-06-04得票数 2

1回答

o50.parque -调用o50时出错

apache-spark、pyspark、apache-spark-sql

当我将pyspark保存为parquet文件时，我得到了以下错误： Py4JJavaError: An error occurred while calling o50.parquet. : org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:224) at org.apache.spark.sql.execution.dataso

浏览 2提问于2018-03-14得票数 2

3回答

如何将火花结构流DataFrame插入到Hive外部表/位置？

apache-spark、hive、spark-structured-streaming

一个关于星火结构流与HIVE表集成的查询。我试着做了一些火花结构化流的例子。这是我的例子 val spark =SparkSession.builder().appName("StatsAnalyzer") .enableHiveSupport() .config("hive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode", "nonstrict") .config(

浏览 0提问于2018-12-28得票数 13

1回答

如何处理AWS Glue中映射函数中的错误？

apache-spark、pyspark、aws-glue

我正在使用DynamicFrame的DynamicFrame方法(或者，等效地说，使用Map.apply方法)。我注意到传递给这些函数的函数中的任何错误都会被忽略，并导致返回的DynamicFrame为空。假设我有这样的工作脚本： import sys from pyspark.context import SparkContext from awsglue.context import GlueContext from awsglue.transforms import * glueContext = GlueContext(SparkContext.getOrCreate()) dyF

浏览 1提问于2018-05-23得票数 7

回答已采纳

2回答

在HDFS中将Spark流数据写入和附加到文本文件

scala、hadoop、hdfs、spark-streaming

我正在创建一个spark scala代码，在其中我从MQTT服务器读取一个连续的流。我在纱线集群模式下运行作业。我想在HDFS中将此流保存并附加到单个文本文件中。我将在每1秒后接收数据流。所以我需要将这些数据附加到HDFS中的单个文本文件中。任何人都能帮上忙。

浏览 30提问于2017-02-08得票数 3

6回答

火花失效:引起: org.apache.spark.shuffle.FetchFailedException:太大的框架: 5454002341

apache-spark、apache-spark-sql、hadoop-yarn

我正在为确定父子表的表生成层次结构。下面是使用的配置，即使在收到与太大的帧有关的错误之后：火花特性 --conf spark.yarn.executor.memoryOverhead=1024mb \ --conf yarn.nodemanager.resource.memory-mb=12288mb \ --driver-memory 32g \ --driver-cores 8 \ --executor-cores 32 \ --num-executors 8 \ --executor-memory 256g \ --conf spark.maxRemoteBlockSizeFetc

浏览 3提问于2018-07-11得票数 8

2回答

如何对星火流生成的分区拼花文件进行适当的内务管理

apache-spark、spark-streaming、spark-structured-streaming

我的火花结构化流作业不断生成拼花文件，我想在过期后删除(假设在30天后)。我存储分区键为cron 3339/I 8601中事件日期的分区数据，以便在HDFS级别上基于cron作业(根据字符串比较删除所有带有分区键的文件夹< oldestAllowedAge )轻松地进行内务管理。但是，由于我引入了Spark流，Spark将元数据写入到拟写入数据本身旁边的名为_spark_metadata的文件夹中。如果我现在只是删除过期的HDFS文件，并在整个数据集上运行一个火花批处理作业，由于找不到文件，作业将失败。批处理作业将读取元数据，并期望已经删除的文件存在。解决这个问题的简单方法就是禁用

浏览 6提问于2019-04-11得票数 4

回答已采纳

1回答

设置spark作业的调优参数

apache-spark、pyspark、apache-spark-sql

我是spark的新手，我有一些关于spark提交命令的调优方面的问题。我关注了：我知道如何最大限度地利用我的spark集群中的资源。然而，最近有人问我如何定义内核、内存和内核的数量，当我有一个相对较小的操作要做时，就好像我提供了最大的资源，它将被充分利用。例如, 如果我必须做一个合并工作(从hdfs读取文件，并使用coalesce将一个巨大的文件写回HDFS)大约60-70 GB (假设每个文件的大小为128 mb，这是hdfs的块大小)的数据( avro格式没有压缩)，什么是理想的内存，没有执行器和核心所需的吗？假设我的节点配置与上面链接中提到的配置相同。如果没有连接、聚合等，我不

浏览 16提问于2019-07-14得票数 0

2回答

当列计数不为0时，“拼图记录格式不正确”

hive、pyspark、amazon-emr、parquet

在AWS EMR集群上，我尝试使用Pyspark将查询结果写入到parquet，但遇到以下错误： Caused by: java.lang.RuntimeException: Parquet record is malformed: empty fields are illegal, the field should be ommited completely instead at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:64) at

浏览 93提问于2020-01-10得票数 5

1回答

为什么写入的数据帧在读取后没有保持顺序？

apache-spark、pyspark

我按照前两列的顺序将数据帧写入HDFS： final = <dataframe>.select('Pais','Anho','NumPatentes','TotalCitas','MediaCitas','MaxCitas').orderBy("Pais", "Anho") final.show() final.write.format("csv").save("<path>", header = '

浏览 11提问于2019-12-03得票数 2

回答已采纳

2回答

在加载SparkOutOfMemoryError桶时使用s3

scala、apache-spark、amazon-s3、apache-spark-sql、out-of-memory

我有一个数据，并写入到S3桶目标位置。在代码中，合并用于加载数据和获取SparkOutOfMemoryError.The当前代码，这些代码使用了多个项目，并且看到了许多推荐的重新分区解决方案，它对我起了作用。即使它没有记录，合并也不起作用。有没有其他的方法来解决这个问题而不改变为重新划分？代码： empsql = 'Select * From Employee' df = spark.sql(empsql) ##Spark is configured df.coalesce(2).write.mode('overwrite').format("parq

浏览 8提问于2020-06-11得票数 2

1回答

当reducer仍在运行时，我可以读取reducer输出吗？

hadoop、mapreduce、hdfs

我正在尝试减少mapreduce作业在我的数据流中的延迟，并且我希望使用hdfs-api连续跟踪reducer part-xxxx文件的输出，而不是在作业完成后读取它。但我想知道这对hadoop作业是安全的吗？

浏览 0提问于2013-01-05得票数 1

回答已采纳

2回答

Pyspark将多个csv文件读取到一个数据帧中(或RDD?)

python、apache-spark、pyspark、spark-dataframe、jupyter-notebook

我有一个Spark 2.0.2集群，我正在通过Pyspark通过Jupyter Notebook访问它。我有多个以管道分隔的txt文件(加载到HDFS中。我需要使用spark-csv将其加载到三个独立的数据帧中，具体取决于文件的名称。我认为我可以采取三种方法--或者我可以使用python以某种方式遍历HDFS目录(还没有想出如何做到这一点，加载每个文件，然后执行联合。我还知道在spark中有一些通配符功能(参见) -我可能可以利用最后，我可以使用pandas从磁盘加载vanilla csv文件作为pandas数据帧，然后创建spark数据帧。这里的缺点是这些文件很大，加载到单个节点上的内

浏览 0提问于2016-12-14得票数 7

回答已采纳