hdfs中具有相同大小文件的火花写入分区_如何对一组图像(.png格式)执行二进制阈值，并将它们写入具有相同文件名(和相同.png扩展名)的另一个文件夹中？ - 腾讯云开发者社区

apache-spark、apache-spark-sql

我在hdfs中有一个很大的表，每天有数百万行。我的目标是写入相同大小的文件，强制在单个文件中写入最大行数。这就是我正在做的事情(spark 2.3.1)。.format("orc") .mode(SaveMode.Overwrite) .save(s&q

浏览 9提问于2019-10-17得票数 2

2回答

在HDFS中处理总大小为100 in的多个小文件

apache-spark、hdfs

文件从本地dir移动到HDFS路径(hdfs://messageDir/..)使用批处理和每批处理，我可以看到几千个.txt文件，它们的总大小约为100 is。几乎所有的文件都小于1MB。我可以知道HDFS如何存储这些文件并执行拆分吗？因为每个文件都小于1MB(小于64/128 MB的HDFS块大小)，所以我认为不会发生任何

浏览 2提问于2018-10-21得票数 0

回答已采纳

1回答

估计要从Spark写入HDFS的零件文件的数量

apache-spark、apache-spark-sql、rdd

我想在HDFS中写一个Parquet.snappy格式的火花数据帧。当前，即使表格中的记录数较少，它也会创建默认的200个零件文件。是任何可用的公式，它提供了大约数量的零件文件写入HDFS中，因此读取速度可以更快。理想情况下，零件文件大小应在50-200 MB之间。我知道重分区和合并功能可以

浏览 28提问于2019-09-27得票数 0

5回答

因此，我只有一个拼花文件，我正在读取与Spark (使用SQL材料)，我希望它被处理100个分区。我尝试将spark.default.parallelism设置为100，我们还尝试将拼板的压缩更改为none (从gzip)。不管我们做什么，火花作业的第一阶段只有一个分区(一旦发生洗牌，就会被重新划分为100，很明显，事情要快得多)。现在，根据一些消息来源(如以下所示)，拼花应该是可分割的(即使使用gzip!)我使用的是Spark1.0.0，显然spa

浏览 5提问于2014-11-28得票数 19

回答已采纳

2回答

拼花文件夹下的一个拼花文件是一个分区吗？

apache-spark、pyspark、apache-spark-sql、parquet、partition

我将我的数据存储为拼花格式在检查HDFS时，我可以看到在parquet目录/my/path下有10部分-xxx.snappy.parquet文件我的问题是:一个部分-xxx.snappy.parquet文件是否对应于我的dataframe分区？

浏览 3提问于2020-03-29得票数 0

回答已采纳

1回答

文件写入的火花分区非常慢。

hadoop、apache-spark、hdfs、parquet、hadoop-partitioning

当使用Spark向HDFS写入文件时，当不使用分区时，这是相当快的。相反，当我使用分区写入文件时，写入延迟增加了24因子。你们中</e

浏览 4提问于2016-04-01得票数 3

2回答

Parquet和分区的星火DataFrames

apache-spark、apache-spark-sql、parquet

我还没有找到关于这个主题的很多信息，但让我们说，我们使用一个数据读取在一个拼花文件，即10个块火花将自然创建10个分区。但是，当dataframe读取文件来处理它时，它不是要处理一个大的数据与分区比率吗?因为如果它正在处理未压缩的文件，块大小就会大得多，这意味着分区也会更大。1GBPAR=5个块=5个分区，这些分区可能被解压到5GB，使其成为25个块/2

浏览 2提问于2015-09-15得票数 7

回答已采纳

4回答

火花分区(Ing)如何处理HDFS中的文件？

apache-spark、hdfs

我正在使用HDFS在集群上使用Apache。据我所知，HDFS正在数据节点上分发文件。因此，如果在文件系统上放置一个"file.txt“，那么它将被分割成分区。现在我给你打电话来自阿帕奇·斯帕克。rdd现在是否自动与文件系统上的"file.txt“分区<em

浏览 1提问于2015-03-12得票数 64

回答已采纳

2回答

每个分区中对象数的火花合并

apache-spark

我们开始在我们的团队中尝试火花。在我们减少工作在火花，我们想写结果到S3，但我们想避免收集火花的结果。目前，我们正在将这些文件写入RDD的Spark，但是这导致了大量的小文件。我们希望能够将数据聚合到由写入文件的对象数量所划分的几个文件中。我的思想过程是让每个分区</

浏览 2提问于2018-12-18得票数 1

回答已采纳

1回答

拼花分区和HDFS文件大小

hdfs、avro、parquet

我的数据是相对较小的Avro记录形式，用Parquet文件编写(平均< 1mb)。我使用目录层次结构对数据进行了分区。我想知道在Avro记录上“构建”分区并积累更大的文件是否更好.但是，我认为分区Parquet文件也会“映射”到HDFS分区文件。最好的办法是什么？编辑(根据评论

浏览 5提问于2016-08-22得票数 0

2回答

阅读Kafka的信息并写入HDFS

apache-spark、hadoop、apache-kafka

我正在寻找从Kafka读取消息的最佳方法(每天大约100 B)，阅读了我需要对数据进行操作并将其写入HDFS的消息。如果我需要以最好的性能完成这个任务，那么从Kafka读取消息并将文件写入HDFS的最佳方法是什么？我是否需要考虑使用像斯派克这样的解决方案？

浏览 0提问于2018-05-14得票数 2

14回答

覆盖火花数据写入方法中的特定分区

apache-spark、apache-spark-sql

我想要覆盖特定的分区，而不是在火花中的所有分区。我正在尝试以下命令：其中df是dataframe，具有要覆盖的增量数据hdfs-基路径包含主数据。当我尝试上述命令时，它将删除所有分区

浏览 62提问于2016-07-20得票数 101

回答已采纳

1回答

星星之火如何通过标签对分区和分区进行混合

scala、apache-spark

我正在从HDFS中读取一组10,000个10,000个10,000个TB累积大小的拼板文件，并使用以下代码以分区方式将其写入HDFS我在用 spark.sql

浏览 2提问于2021-03-25得票数 2

回答已采纳

1回答

Hive表要求对每个新分区进行“修复”，同时使用pyspark插入拼花文件。

apache-spark、pyspark、hive、apache-spark-sql、parquet

我有这样的火花：sparkConf.set("hive.exec.dynamic.partition", "true")我使用星火上下文将拼花文件<e

浏览 1提问于2021-08-17得票数 1

2回答

处理Spark流rdd并存储到单个HDFS文件

apache-spark、hive、hdfs、spark-streaming

我正在使用卡夫卡火花流获得流数据。 runConfigParser是一种JAVA方法，它解析一个文件并生成一个输出，我必须将其保存在HDFS中。因此，多个节点将处理RDD并将输出写入单个HDFS文件。因为我想把它装进蜂巢里。我是否应该输出runConfigParser的结果并使用sc.par

浏览 5提问于2015-07-28得票数 2

2回答

partitionBy在使用S3保存数据集时花费的时间太长

python、apache-spark、amazon-s3、pyspark、amazon-emr

我在日期列上进行分区。星火作业需要超过一个小时才能执行。如果我在没有partitionBy的情况下运行代码，只需3-4个薄荷糖即可。有人能帮我调一下调子吗？

浏览 0提问于2019-06-07得票数 0

1回答

自定义路径到S3的火花写入压缩CSV

scala、apache-spark

我试图使用用Scala编写的Spark向S3简单地编写一个CSV：在这里我注意到两件奇怪<e

浏览 3提问于2020-10-20得票数 0

1回答

拼图文件:达到最小容量的最佳文件数量是多少

apache-spark、parquet

我用spark写了一个数据帧到一个拼图文件中，这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新分区到10个分区并将其写入HDFS时，输出拼接文件的大小增加到大约200 of。为什么会发生这种情况？写入拼图文件时，最佳分区数是多少？我<

浏览 16提问于2019-06-17得票数 0

2回答

如何对星火流生成的分区拼花文件进行适当的内务管理

apache-spark、spark-streaming、spark-structured-streaming

我的火花结构化流作业不断生成拼花文件，我想在过期后删除(假设在30天后)。我存储分区键为cron 3339/I 8601中事件日期的分区数据，以便在HDFS级别上基于cron作业(根据字符串比较删除所有带有分区键的文件夹< oldestAllowedAge )轻松地进行内务管理但是，由于我引入了Spark流，Spark将元数据写入到拟写入数据本身旁

浏览 6提问于2019-04-11得票数 4

回答已采纳

2回答

写入HDFS或S3时是否锁定文件？

apache-spark、apache-spark-sql

我有一个S3位置，目录结构如下，上面创建了一个Hive表：假设我有一个Spark程序，它使用下面的代码行将数据写入上面的表位置，跨越多个分区： Df.write.partitionBy("orderdate").parquet("s3://<Mybucket>/<Table Name>/")

浏览 0提问于2018-03-19得票数 11

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云