如何控制Spark SQL查询的输出文件数量？

、、

从Spark SQL SELECT创建一个表，最终会生成太多的文件。我们如何限制它们呢？

浏览 137提问于2020-01-08得票数 0

回答已采纳

1回答

浏览我需要将它们组合到一个文件中的小拼图文件

我有Spark SQL查询，通过几个小的拼图文件(大约2M)。我有Spark块大小为256M，所以我想将这些小文件组合成一个(或更多)大小为256M的文件。我正在考虑的是找到数据帧大小并将其除以256M，这样我就知道有多少文件将是他们的，但不幸的是Spark不支持查找数据帧大小，因为它是分布式的。我正在考虑将数据帧转换为数据集

浏览 15提问于2019-06-19得票数 0

回答已采纳

2回答

如何控制在spark中设置大分区时生成的文件数？

、、

由于输入数据的数量很大，我设置了spark (spark.sql.shuffle.partitions=1000)的大洗牌分区。但是，输出文件很小(~1GB)，但是它会创建大量的小文件(3000个文件，每个文件小于1Mb)。如何将这些小文件组合成一个大文件？另一个问题是，为什么输出文件<em

浏览 24提问于2021-12-14得票数 1

2回答

如何合并sparksql保存在hive上的小文件？

、

配置单元的输出hdfs文件包含太多小文件。如何在保存到配置单元时合并它们？myDf.write.format("orc").partitionBy("datestr").insertInto("myHiveTable") 当有100个任务时，它将产生100个小文件。sqlContext.sql("set hive.merge.mapfiles=true") sqlContext.<e

浏览 11提问于2016-08-29得票数 1

2回答

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

、、

我认为默认情况下，spark.sql.files.maxPartitionBytes应该设置为128 MB，但是当我在复制后查看s3中的分区文件时，我会看到大约226 MB的单个分区文件。我看了这篇文章，它建议我设置这个星火配置键，以限制分区的最大大小：，但它似乎不起作用吗？读取文件时要打包到单个分区的最大字节数。此配置仅在使用Parquet、JSON和ORC等基于文件

浏览 54提问于2020-06-30得票数 1

2回答

我有如下所示的dataframe (我发布了其中的一部分)，我需要将它保存在txt文件中，但是，我们曾经这样做过，它保存了大量的空文件，并在日志文件中显示了下面的消息。我应该提到，我使用Mac和IntelliJ的想法。你能帮我找错地方吗？谢谢。0.17042356512251874| 0.09735462887873032| 5.555555555555555|64.22222222222223| 1|输出</e

浏览 4提问于2017-09-13得票数 0

回答已采纳

1回答

以拼花格式保存数据文件会生成太多的小文件。

、、、

使用Spark，我将在一个蜂巢表中保存一个parquet格式的星星之火df。问题是，这个操作总是生成大约200个3 MBs的部分-*文件。如何在处理过程中控制输出文件的数量和分区的数量？据我所知，每个分区生成一个部件-*文件。我用spark.read.parquet("

浏览 1提问于2018-03-15得票数 3

2回答

如何控制从火花DataFrame写入的输出文件的数量？

、、、、

我使用DataFrame来处理数据，稍后我希望将输出保存到HDFS文件中。问题是使用：生成许多文件--有些文件很大，有些文件甚至是0字节。有办法控制输出文件的数量吗？另外，为了避免“相反”的问题，是否也有办法限制每个文件的大小，以便在当前达到某

浏览 1提问于2018-06-05得票数 4

回答已采纳

1回答

不使用动作的Spark基准测试

、

我试图通过对一个Hive表运行一个简单的查询来比较Spark和hive的性能，例如： spark.sql("select * from schema.table where col = 0") 问题是，由于Spark的惰性求值行为，我必须添加一个操作才能使其运行。我想过使用.count()来强制代码运行，但我担心它会改变应用程序运行的方式，并与Hive进行错误的比较，因为每个任务不仅会进行过滤，而

浏览 23提问于2021-07-26得票数 0

1回答

理解星火结构流并行性

、、

我是星火世界的新手，在一些概念上苦苦挣扎。当使用由Kafka提供的Spark结构化流源时，并行性是如何发生的？，数据集的分区数是基于spark.sql.shuffle.partitions参数的。对于每一批(从卡夫卡拉)，被拉的项目会被分配到spark.sql.shuffle.partitions的数量中吗？例如，spark.

浏览 3提问于2018-01-13得票数 8

回答已采纳

2回答

加载拼板文件并保持相同数量的hdfs分区

、、、、

我在hdfs中保存了一个带有120个分区的拼花文件/df。hdfs上每个分区的大小约为43.5M。Spark中，并保持相同数量的分区。但是，Spark将自动将文件加载到60个分区中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128 将这些值中的任何一个更改为较低的值并不会导致将拼花文件加

浏览 0提问于2019-06-14得票数 0

1回答

Spark如何确定从Hive表加载数据时将使用的分区数？

这个问题与相同但我认为这个问题没有得到正确的答案。请注意，问题是，在使用方法对HIVE表执行sql查询时，当创建dataframe时，将创建多少分区。上面的问题不同于询问在创建数据时将创建多少分区，这是执行一些代码的结果，比如spark.read.json("examples/src/main/resources/people.json")直接从文件系统加载数据我认为后一个问题的答案是由给出的</em

浏览 4提问于2017-05-19得票数 17

回答已采纳

1回答

是什么决定了Spark中操作的映射器和减法器的数量

我正在阅读，这篇文章谈到了基于映射器和reducers任务的数量生成的文件数量。你能帮帮我吗。

浏览 2提问于2018-11-16得票数 0

1回答

如何在不改变spark代码的情况下减少分区数量

、、、

我有一个代码压缩文件，通过spark提交执行，它产生200个输出文件，现在的问题是，在没有更改为压缩文件的情况下，如何减少输出文件的数量？

浏览 2提问于2020-07-29得票数 0

1回答

更改源的火花Dataframe.cache()行为

、、、、

使用TTL集将输出数据写入cassandra，以便在短时间(2s)后删除所有修改的记录。 2a) outputDataframe.cache() 这确保了在第5步中，cassandra不会被查询，并且我

浏览 0提问于2018-10-17得票数 2

回答已采纳

5回答

需要更少的拼花面板文件

、、、、

我正在进行以下过程然而，在每个分区下，有太多的拼图文件，而且每个文件的大小都很小，这会使我下面的步骤加载所有的拼图文件变得非常慢。有没有更好的方法，在每个分区下，创建更少的拼图文件，并增加单个拼图文件的大小？

浏览 6提问于2016-08-31得票数 2

1回答

在Spark上执行多个SQL查询

、、

我在文件test.sql中有一个Spark查询-spark.sql(sql).showorg.apache.spark.sql.catalyst.parse

浏览 0提问于2018-03-10得票数 0

回答已采纳

1回答

火花加载1.5亿条记录进入MySQL需要2-3小时

、、、

写入表的时间为2-3小时(取决于DB的使用情况)。我试着做批次 val db_url_2 = "jdbc:mysql://name.amazonaws.com:port/db_name?

浏览 1提问于2018-10-15得票数 1

2回答

如何控制Spark* job在写入时创建的输出部品文件的数量？*

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。/path/in/hdfs"); ORSpark job在最终输出目录中创建了大量的小零件

浏览 4提问于2015-07-06得票数 2

回答已采纳

1回答

从Spark* SQL (java)中的数据集中获取JSON*

、、

我有一个运行在服务器上的Spark SQL应用程序。它从.parquet文件中获取数据，并在每个请求中对这些数据执行SQL查询。我需要在响应中发送与查询输出相对应的JSON。这就是我要做的sqlDF.show(); 所以我知道这个查询是有效的。我尝试将sq

浏览 2提问于2017-08-13得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

浏览我需要将它们组合到一个文件中的小拼图文件

如何控制在spark中设置大分区时生成的文件数？

如何合并sparksql保存在hive上的小文件？

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

空txt文件保存在scala中的Apache中。

以拼花格式保存数据文件会生成太多的小文件。

如何控制从火花DataFrame写入的输出文件的数量？

不使用动作的Spark基准测试

理解星火结构流并行性

加载拼板文件并保持相同数量的hdfs分区

Spark如何确定从Hive表加载数据时将使用的分区数？

是什么决定了Spark中操作的映射器和减法器的数量

如何在不改变spark代码的情况下减少分区数量

更改源的火花Dataframe.cache()行为

需要更少的拼花面板文件

在Spark上执行多个SQL查询

火花加载1.5亿条记录进入MySQL需要2-3小时

如何控制Spark* job在写入时创建的输出部品文件的数量？*

从Spark* SQL (java)中的数据集中获取JSON*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐