spark 写入同一文件_Spark写入多个文件_Spark Streaming writeStream未写入文件 - 腾讯云开发者社区

、、

假设我有一个Spark2.x应用程序，它启用了猜测(spark.speculation=true)，它将数据写入到HDFS上的特定位置。现在，如果任务(将数据写入HDFS)需要很长时间，Spark将在另一个执行器上创建同一任务的副本，并且这两个作业将并行运行。任何帮助都将不胜感激。谢谢

浏览 9提问于2020-12-11得票数 0

2回答

在Spark Submit over Yarn Cluster中手动设置驱动程序

、、

我注意到，当我使用yarn在spark submit中启动一个作业时，会随机设置驱动程序和执行器节点。是否可以手动设置，以便在收集数据并将其写入文件时，每次都可以在同一节点上写入数据？到目前为止，我尝试使用的参数是：spark.yarn.am.port <driver-ip-address>和spark.driver.hostname <driver-ip-address> 谢谢!

浏览 0提问于2016-12-07得票数 1

2回答

2火花作业能同时使用单个HDFS/S3存储器吗？

、、

其中一项工作将向S3/HDFS写入最新数据，而另一项工作将读取该数据以及来自另一源的输入数据以进行分析。

浏览 3提问于2022-01-06得票数 0

回答已采纳

2回答

在spark结构化流中写入来自kafka / json数据源的损坏数据

、、

在spark批处理作业中，我通常会将JSON数据源写入到一个文件中，并且可以使用DataFrame阅读器的损坏列功能将损坏的数据写出到不同的位置，并使用另一个阅读器从同一作业中写入有效数据。(参见参考文献中的注释)那么我如何使用SSS将与我的模式不匹配的损坏数据和可能无效的JSON写入另一个位置？最后，在批处理作业中，同一个作业可以同时写入两个数据帧。但是Spark Structured需要对多个接收器进行特殊处理。然后在S

浏览 34提问于2018-12-27得票数 1

回答已采纳

1回答

与星火历史服务器正在运行的群集通信

=truespark.history.fs.logDirectory=...spark.hadoop.fs.s3a.secret.key=...spark.hadoop.fs.s3a.path.style.access=true 这是在集群开始运作后一段时间内完成的。服务器正在将日志写入</em

浏览 2提问于2021-09-16得票数 1

回答已采纳

2回答

触发本地rdd写入到本地Cassandra DB

、、、

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序的节点。我不希望发生这种情况，因为从节点返回到驱动程序节点的数据可能需要很长时间，我希望数据直接保存到本地节点，以避免数据跨spark节点移动。

浏览 3提问于2020-10-20得票数 1

1回答

将spark数据集保存到现有csv文件

、

.write() .mode("append")我的目标是不断将数据集的结果附加到trial.csv文件中但是，它会创建一个名为trial.csv的文件夹，并在其中创建csv。当我再次运行它时，它在trail.csv文件夹中创建了另一个csv文件。但我只想让它一直附加到一个csv文件中，这是我无法做到的。我知道我们可以从代码(程序)之外做一

浏览 19提问于2020-05-26得票数 4

2回答

如何在spark中编写dataset对象以excel？

、、、

我使用com.crealytics.spark.excel软件包读取excel文件。下面是在spark中读取excel文件的代码。"); 但是，我尝试使用同一个(com.crealytics.spark.excel)包将dataset对象写入spark中的excel文件。java.lang.RuntimeException: com.crealytics.spark.excel.DefaultSource不

浏览 5提问于2017-06-24得票数 2

回答已采纳

1回答

在spark中动态更改hdfs复制因子

、、、

在Spark (3.2.0)应用程序中，我需要为写入HDFS的不同文件更改复制因子。例如，我写了一些临时文件，我希望它们的复制系数为1。然而，正如我测试的那样，SparkContext.hadoopConfiguration中的dfs.replication根本不影响文件的复制因子，而spark.hadoop.dfs.replication中添加到核心配置文件中的配置spark.sql.legacy.setCommandRejectsSparkCore

浏览 102提问于2021-11-11得票数 2

1回答

writeStream:在一个单独的json文件中的每个数据帧行

、、

我正在使用pyspark将Kafka主题中的数据作为流数据读取，如下所示： .appName("Spark Structured Streaming.option("checkpointLocation", "/Desktop/...") \将在同一个json中写入几行数据，这取决于微批处理的大小

浏览 2提问于2020-03-12得票数 0

回答已采纳

2回答

Spark输出JSON与Parquet文件大小差异

、

这里是Spark的新用户。我通过Spark找不到任何关于同一个dataFrame的JSON和拼图输出的文件大小比较的信息。现在用一个非常小的数据集进行测试，执行一个df.toJSON().collect()，然后写入磁盘创建一个15kb的文件。但是执行df.write.parquet会创建105个文件，每个文件的大小约为1.1kb。为什么在这种情况下，使用parquet的总文件大小要比使用JSON大得多？提前感谢

浏览 20提问于2018-08-14得票数 2

1回答

在同一位置读取和写入csv时，Pyspark文件被删除

、、、、

我正在用下面这行代码读取我的主CSV文件然后我读取一些其他CSV文件并将它们合并到master中，然后我想覆盖master CSV文件 master_df.coalesceYou can explicitly

浏览 0提问于2020-09-29得票数 0

1回答

星火如何写到s3或天蓝色的水珠上

、、、

当我们使用spark在AWS s3或Azure blob存储上写入文件时，我们只需编写：我的问题是，既然写入是在几十个或数百个火花执行程序上同时执行的，那么它们如何避免写入同一个<

浏览 1提问于2020-11-25得票数 0

回答已采纳

2回答

spark (java) -打开的文件太多

我正尝试在spark2中运行一个批处理作业，它接受一个巨大的列表作为输入，并在该列表上迭代以执行处理。(BypassMergeSortShuffleWriter.java:128) at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53) at

浏览 0提问于2017-06-22得票数 0

1回答

如何确定在单个节点上运行spark的最佳设置？

、、、

我在一台32核、180 32(无集群)的机器上运行Spark-shell。因为它是一个单节点，所以- Driver和Workers都驻留在同一个JVM进程中，默认情况下使用514MB。我将spark.driver.memory设置为170G spark-shell --driver-memory 170g 我正在做一个map操作，然后是group_by，然后是agg，并写入到一个拼接文件中是否可以通过更改spark.executor.memory或更改使用的内核数量来

浏览 19提问于2020-11-07得票数 5

1回答

如何防止在集群模式下出现故障时运行火花提交两次？

、

我们正在使用spark运行一个批处理过程，并使用spark-submit提交带有选项的作业。--deploy-mode cluster \我们基本上接受一个csv文件，并对这些文件做一些处理，并从它创建一个拼花文件。我们正在运行多个文件在同一个火花提交命令使用配置文件。现在假设我们有10个我们正在处理的文件，如果进程失败了，让我们假设文件6火花再次尝试重新运行该进程，

浏览 2提问于2017-03-29得票数 2

回答已采纳

1回答

S3前缀中的回滚写入失败-通过Spark进行分区

、、

我们通过EMR使用Apache Spark(2.4.5)作业，它读取存储桶前缀{ S3 }/{ prefix }/*.json，执行一些数据消息，然后在覆盖模式下通过Spark作业save()将其重写回相同的我的问题是，如果Spark作业在将数据重写到S3前缀分区时失败，那么我们是否有办法以任何原子/事务方式恢复该前缀分区中的数据。spark/EMR/S3中的任何/所有这些都支持它吗？

浏览 11提问于2020-10-02得票数 0

1回答

Spark是否使用数据局部性？

、、、

我在试着理解Apache Spark的内部结构。我想知道在从InputFormat读取或写入OutputFormat (或其他由Spark原生支持且不是从MapReduce派生的格式)时，Spark是否使用了一些机制来确保数据的局部性。其中包含数据，因此Spark尝试将任务分配给执行器，以尽可能减少网络传输。在写作的情况下，这样的机制是如何工作的？我知道从技术上讲，HDFS中的文件可以保存在本地的任何节点上，并复制到其他两个节点(所以您使用网络进行3个副本中的2个)，但是，如果您考虑<

浏览 1提问于2014-12-24得票数 13

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

、、

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。| Value || parquet.compression | ABCDE | 这使我认为Spark

浏览 3提问于2016-04-29得票数 4

回答已采纳

1回答

Apache Spark在哪里对输出进行压缩？

、、、

我们有一个在独立集群模式下运行的Spark作业，它从HDFS读取数据，使用我们的自定义压缩器组件进行压缩，并将.zip文件写入Azure blob存储。我们的Spark和HDFS托管在同一数据中心(本地)。例如，Spark作业正在从本地HDFS读取8 GB的文件，并在Azure blob存储上创建3 GB的.zip，在这种情况下，Spark是将8 GB的文件复制到Azure blob存储中，然后将其压缩为3 GB的.zip文件

浏览 13提问于2021-07-23得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在启用了推测的情况下，如何在Spark中管理写入？

在Spark Submit over Yarn Cluster中手动设置驱动程序

2火花作业能同时使用单个HDFS/S3存储器吗？

在spark结构化流中写入来自kafka / json数据源的损坏数据

与星火历史服务器正在运行的群集通信

触发本地rdd写入到本地Cassandra DB

将spark数据集保存到现有csv文件

如何在spark中编写dataset对象以excel？

在spark中动态更改hdfs复制因子

writeStream:在一个单独的json文件中的每个数据帧行

Spark输出JSON与Parquet文件大小差异

在同一位置读取和写入csv时，Pyspark文件被删除

星火如何写到s3或天蓝色的水珠上

spark (java) -打开的文件太多

如何确定在单个节点上运行spark的最佳设置？

如何防止在集群模式下出现故障时运行火花提交两次？

S3前缀中的回滚写入失败-通过Spark进行分区

Spark是否使用数据局部性？

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

Apache Spark在哪里对输出进行压缩？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐