估计要从Spark写入HDFS的零件文件的数量

取决于数据的大小和HDFS的块大小。

HDFS（分布式文件系统）是一种用于存储大规模数据的分布式文件系统。它将大文件切分成多个数据块并存储在不同的计算节点上，以实现高容错性和高可靠性。

当使用Spark来写入HDFS时，它通常会将数据拆分成多个分区（partitions），每个分区会被处理并写入到一个或多个HDFS的块（block）中。HDFS的块大小通常为128MB。

为了估计要从Spark写入HDFS的零件文件的数量，需要考虑以下两个因素：

数据大小：数据的大小决定了需要多少个HDFS块来存储。假设数据大小为X GB，每个HDFS块大小为128MB，则需要X * 1024 / 128个HDFS块。
分区数量：Spark通常将数据划分成多个分区进行并行处理。分区数量决定了写入HDFS的并行度。假设有Y个分区，则可能会生成Y个零件文件。

综上所述，估计要从Spark写入HDFS的零件文件的数量大致为X * 1024 / 128 * Y。

以下是一些腾讯云相关产品和产品介绍链接地址，可以帮助您在云计算领域使用Spark和HDFS进行数据处理和存储：

腾讯云数据计算服务（Tencent Cloud Data Computing Service）：提供了大规模数据处理的服务，包括云原生大数据计算引擎和Hadoop、Spark、Hive、Presto等开源生态工具的集成。了解更多信息，请访问：https://cloud.tencent.com/product/dc
腾讯云对象存储（Tencent Cloud Object Storage）：提供了可靠、安全、低成本的云存储服务，适用于大规模数据的存储和访问。了解更多信息，请访问：https://cloud.tencent.com/product/cos

请注意，以上仅为示例，您可以根据实际需求选择适合的腾讯云产品进行数据处理和存储。

估计要从Spark写入HDFS的零件文件的数量

、、

我想在HDFS中写一个Parquet.snappy格式的火花数据帧。当前，即使表格中的记录数较少，它也会创建默认的200个零件文件。是任何可用的公式，它提供了大约数量的零件文件写入HDFS中，因此读取速度可以更快。理想情况下，零件文件大小应在50-200 MB之间。我知道重分区和合并功能可以减少/增加零件</

浏览 28提问于2019-09-27得票数 0

1回答

我在Hive中有一个相当大的表(约130M条记录，180列)，我正尝试使用Spark将其打包为拼图文件。我使用默认的EMR集群配置，6* r3.xlarge实例来提交我用Python编写的spark应用程序。然后我在YARN上以集群模式运行它，通常会给驱动程序分配少量内存(几gb)，剩下的内存给执行器。： spark-submit --master yarn --deploy-mode cluster --num-executors 5 --driv

浏览 0提问于2017-03-21得票数 2

2回答

如何控制Spark* job在写入时创建的输出部品文件的数量？*

、、、

我有几个Spark作业，每天处理数千个文件。文件大小可能从MB到GB不等。完成工作后，我通常使用以下代码进行保存dataFrame.write.format("orc").save("/path/in/hdfs") //storing as ORC file as

浏览 4提问于2015-07-06得票数 2

回答已采纳

2回答

在HDFS中处理总大小为100 in的多个小文件

、

我的项目中有一个使用.txt处理多个PySpark消息文件的要求。文件从本地dir移动到HDFS路径(hdfs://messageDir/..)使用批处理和每批处理，我可以看到几千个.txt文件，它们的总大小约为100 is。几乎所有的文件都小于1MB。我可以知道HDFS如何存储这些文件并执行拆分吗？因为每个文件都小于1MB(小于64/128

浏览 2提问于2018-10-21得票数 0

回答已采纳

1回答

为什么Spark总是将相同数量的文件写入HDFS？

、、

我有一个用Scala编写的Spark流媒体应用程序，在CDH中运行。应用程序从Kafka读取数据并将数据写入HDFS。在将数据写入HDFS之前，我执行了partitionBy，因此数据是分区写入的。每个分区在写入时都会得到3个文件。我还使用coalesce来控制数据的分区数量。我的预期是，由coalesce命令设置的分区数量将设

浏览 0提问于2018-09-18得票数 1

1回答

读取时，初始分区是如何在spark中发生的？

、

从大csv文件读取数据时，数据的初始partitions发生在什么基础上？有没有人能分享，是怎么做到的？

浏览 8提问于2022-02-14得票数 1

回答已采纳

2回答

EMR Spark作业- HDFS和EBS存储的使用情况

Spark on EMR是否将亚马逊S3的输入数据分发到底层HDFS？也连接到节点的EBS卷的用途是什么？

浏览 4提问于2020-02-26得票数 0

1回答

数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+Spark

、、、

我们有一个由Hadoop+Hive+Spark+Dremio组成的堆栈，由于Spark为单个Hive分区(取决于工作进程)写入许多HDFS文件，所以在查询表时，由于HDFS文件的数量超过了限制，Dremio会失败，有没有办法解决这个问题，而不必手动在spark中设置更少的工作进程？(我们不想失去spark分布式性能和好处)。

浏览 17提问于2019-11-06得票数 0

回答已采纳

3回答

Spark在加载Hive表时创建了多少个分区

、、、

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小文件</em

浏览 69提问于2020-04-02得票数 3

2回答

将拼图输出文件以固定大小保存在spark中

、

我有160 in的数据，分区在DATE列上，并以拼图文件格式存储在spark 1.6.0上。我需要在每个固定大小的分区中存储相同大小的输出拼图文件，例如每个分区大小为100MB。parquet.block.size",blockSize) 上面的配置不起作用，它正在使用默认分区数创建多个文件，而不是100

浏览 4提问于2018-04-14得票数 5

1回答

在hadoop中保存到本地目录时，是否可以避免使用-getmerge函数时出现多个头部？

、、、

我有一个python脚本，它将spark数据帧作为csv保存到HDFS。df.write.format('com.databricks.spark.csv').save(filename, header='true', sep=',') 然后，我需要组合HDFS中存在的零件.csv文件，然后将它们作为单个.csv文件下载到本地位置。我现在面临的问题是，当组合零件</e

浏览 36提问于2020-07-03得票数 0

1回答

如何将rdd数据保存到本地文件而不是println

、

userid,tags)=>println(s"${userid}${"\t"}${tags.topicInterests.map(_.id).mkString(",")}")} 现在，我想要将细节保存到本地文件

浏览 0提问于2018-06-08得票数 1

2回答

如何在使用spark数据帧写入时自动计算numRepartition

、、

当我尝试将dataframe写入Hive拼接分区表时它会在HDFS中创建大量的块，每个块只有很小的数据量。我理解它是如何进行的，因为每个spark子任务都会创建一个块，然后向其中写入数据。我也理解，块的<em

浏览 2提问于2018-08-13得票数 1

1回答

以指定的Linux用户身份运行Spark* executors*

、

我有一个包含5个节点的spark独立集群。所有节点都通过nfs挂载了相同的卷。这些挂载中的文件具有特定的linux文件权限。当我以用户x(在所有节点上都可用，并且在所有节点上具有相同的uid)的身份spark提交作业时，我希望spark executors也以用户x的身份运行，以便作业只能访问用户x有权访问的文件。我没有Kerberos，也没有<

浏览 0提问于2020-02-22得票数 1

1回答

如何合并SPARK* data frame创建的文件夹中的所有零件文件并在scala中重命名为文件夹名*

、、、、

嗨，我有我的火花数据框的输出，它创建文件夹结构和创建所以可能的零件文件。现在，我必须合并文件夹中的所有零件文件，并将其中一个文件重命名为文件夹路径名。/output")hdfs:///user/zeppelin/FinancialLi

浏览 2提问于2017-10-18得票数 2

2回答

如何在HDFS中只保存非空的减速器输出

、、

在我的应用程序中，reducer将所有的零件文件保存在HDFS中，但我希望只有reducer会写入尺寸不是0bytes.Please的零件文件，让我知道如何定义它。

浏览 2提问于2011-05-26得票数 4

1回答

GCP Dataproc -来自GCS的慢读取速度

、、

作业的输入是一个文件夹，其中有200个部件文件。每个部件文件大约有1.2GB大。属性parquet.block.size设置为128 MB，这意味着每个部件文件将在作业期间读取10次。我确实理解，阅读一个大的地板文件的分裂

浏览 1提问于2018-11-12得票数 2

1回答

Spark Streaming应用应在连续批量失败后停止

、

我有一个带有Spark 2.3.1的DStream流媒体应用程序。其中我正在从Kafka读取数据并写入Kerberized HDFS，但随机地我的批处理开始失败，同时写入HDFS并异常显示kerberos相关的错误，但我的spark应用程序继续运行，所以我不知道我的批处理失败我的问题是，有什么方法可以限制连续批处理故障转移的数量吗？建议是否存在一

浏览 16提问于2019-04-12得票数 0

2回答

部件文件的大小对Spark性能是否起作用？

、、、

我试图查询包含大量部件文件(avro)的hdfs。最近，我们进行了一项减少并行性的更改，因此部件文件的大小增加了，每个部件文件的大小在750 GB到2GB之间(我们使用火花流在10分钟内将数据写入hdfs，因此这些文件的大小取决于我们从上游处理的数据量部件文件的数量将在500个左右。我想知道这些部件文件

浏览 1提问于2018-11-29得票数 0

回答已采纳

1回答

spark结构化流式处理生成.c000.csv文件

、、、

我正在尝试从kafka主题获取数据，并将其推送到hdfs位置。我正面临着以下问题。 part-00001-abdda104-

浏览 2提问于2019-01-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

估计要从Spark写入HDFS的零件文件的数量

相关·内容

估计要从Spark写入HDFS的零件文件的数量

查询Spark上的Hive以获得最高性能的正确方法是什么？

如何控制Spark* job在写入时创建的输出部品文件的数量？*

在HDFS中处理总大小为100 in的多个小文件

为什么Spark总是将相同数量的文件写入HDFS？

读取时，初始分区是如何在spark中发生的？

EMR Spark作业- HDFS和EBS存储的使用情况

数据集中的拆分数超过了数据集拆分限制，Dremio+Hive+Spark

Spark在加载Hive表时创建了多少个分区

将拼图输出文件以固定大小保存在spark中

在hadoop中保存到本地目录时，是否可以避免使用-getmerge函数时出现多个头部？

如何将rdd数据保存到本地文件而不是println

如何在使用spark数据帧写入时自动计算numRepartition

以指定的Linux用户身份运行Spark* executors*

如何合并SPARK* data frame创建的文件夹中的所有零件文件并在scala中重命名为文件夹名*

如何在HDFS中只保存非空的减速器输出

GCP Dataproc -来自GCS的慢读取速度

Spark Streaming应用应在连续批量失败后停止

部件文件的大小对Spark性能是否起作用？

spark结构化流式处理生成.c000.csv文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐