Spark Streaming创建了许多小文件

Spark Streaming是Apache Spark的一个组件，它提供了实时数据处理和流式计算的能力。Spark Streaming可以将实时数据流分成小批次，并将其作为离散的RDD（弹性分布式数据集）进行处理。

创建许多小文件可能会导致文件系统的碎片化和性能下降。为了解决这个问题，可以采取以下措施：

批处理：将小文件合并成较大的文件，可以使用Spark Streaming的repartition或coalesce方法将RDD的分区数减少，从而减少输出文件的数量。
合并操作：可以使用union操作将多个小文件合并成一个大文件。
数据压缩：可以使用压缩算法（如Gzip、Snappy等）对输出文件进行压缩，减少文件大小。
数据存储格式：选择适合的数据存储格式，如Parquet、ORC等，这些格式可以将数据压缩并以列式存储，从而减少存储空间和提高读取性能。
数据分区：根据数据的特点和使用场景，合理划分数据分区，以便更好地利用集群资源和提高并行处理能力。
定期清理：定期清理不再需要的小文件，以避免文件系统的碎片化和存储空间的浪费。

对于Spark Streaming的应用场景，它可以用于实时数据处理、实时监控、实时分析等场景。例如，可以用于实时日志分析、实时推荐系统、实时异常检测等。

腾讯云提供了一系列与流式计算相关的产品和服务，包括腾讯云流计算（Tencent Cloud StreamCompute）、腾讯云消息队列CMQ（Tencent Cloud Message Queue）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多相关产品和详细信息。

页面内容是否对你有帮助？

有帮助

没帮助

Spark Streaming创建了许多小文件

、、

它在HDFS中创建了许多小文件，我希望它们每个文件的大小都是HDFS的128MB(块大小)。如果我使用append模式，那么所有的数据都会被写到一个拼图文件中。如何配置Spark为每128 MB数据创建一个新的HDFS拼图文件？

浏览 2提问于2018-08-04得票数 2

回答已采纳

1回答

如何在写入HDFS - hive时控制Spark streaming中的行数和/或输出文件大小？

、、、、

使用spark streaming从Kafka读取和处理消息，并将消息写入HDFS - Hive。因为我希望避免创建许多对文件系统造成垃圾邮件的小文件，所以我想知道是否有方法可以确保最小的文件大小，和/或是否有能力在文件中强制最小数量的输出行，但超时除外。谢谢。

浏览 0提问于2018-05-08得票数 1

1回答

Spark Structured Streaming写入到parquet会创建如此多的文件

、、

问题是，仅为来自kafka的100条消息创建了如此多的拼图文件(800个文件)。option("checkpointLocation", "c:\\bigdata\\checkpoints")使用spark

浏览 5提问于2017-02-21得票数 5

1回答

Hive是否可以定期向hdfs中的同一个表文件追加或插入增量数据？

、、、、

我每分钟从Spark streaming (从Flume exec)加载网络捕获的数据，然后根据ip地址聚合数据，最后保存到Hive。为了让它更快，我创建了带有ip地址分区的Hive ORC表，它工作得很好。唯一的问题是它每分钟创建许多(取决于多少个ip地址) kb小文件，现在我使用"ALTER TABLE...CONCATENATE;“手动合并它们，但我认为它可以更容易，所以我想问是否有解决方案可以增量合并

浏览 1提问于2017-11-08得票数 0

1回答

火花流将base64 rdd保存到s3上的json

、、、

import org.apache.spark._import java.util.Base64import org.apache.spark.streaming.Duration imp

浏览 3提问于2020-02-06得票数 0

1回答

如何删除星星之火-streaming应用程序生成的进度目录，接收来自eventhub的消息

、、

Eventhubutils库生成的进程目录正在hdfs.中创建许多小文件。由于这些小文件，namenode .Is上有很多负载，因此可以删除进度目录，而不会干扰spark应用程序。

浏览 0提问于2017-10-24得票数 0

回答已采纳

2回答

如何从Spark StreamingContext的DStream中获取文件名？

、、、

事件经过多次尝试和谷歌搜索后，如果我使用流上下文，则无法获取fileName。我可以使用SparkContext的wholeTextFiles，但是，我必须重新实现流上下文的功能。注意: FileName的格式如下。可以从事件json中提取SerialNumber部分，但是时间是以毫秒为单位存储的，很难以可靠的方式在下面的格式中获得，也没有办法找到计数器。..。每个文件只包含一行复杂的json字符串。使用流上下文，我能够创建一个RDDString，其中每个字

浏览 0提问于2015-11-22得票数 2

1回答

如何从Kafka中读取JSON数据，并使用Spark结构流存储到HDFS？

、、

我有一个小文件写入hdfs，其中有多个空的json行- {}18/07/24 22:25:47 ERROR datasources.FileFormatWriter) at org.apache.spark.sql.ex

浏览 43提问于2018-07-25得票数 1

1回答

在Spark自定义接收器中同步

、、、

致力于将Spark Streaming与Amazon SQS集成。在SQS中，一旦收到消息，必须将其“删除”以标记为“已确认”。但我的问题是，如果我创建了一个Spark自定义接收器，那么Spark将在许多节点上触发接收器的许多实例，对吗？但是，每个接收者可能会收到相同的消息，不是吗？我如何防止这种情况发生？

浏览 0提问于2015-10-11得票数 0

2回答

卡夫卡消费者无法订阅卡夫卡主题(通过火花流运行)

、、、

import org.apache.spark.SparkConfimport org.apache.spark.streaming.Secondsimport org.apache.spark.streaming.kafka.KafkaUtils import org.apache.kafka.clients.consumer.KafkaConsumer{Consu

浏览 2提问于2017-08-11得票数 0

3回答

AbstractMethodError创建Kafka流

、、、

$class.initializeLogIfNecessary(Logging.scala:99) at org.apache.spark.streaming.kafka010.KafkaUtils$.log(KafkaUtils.scala:39) at org.apache.spark.internal.Logging$class.logWarning(Logging.s

浏览 1提问于2018-03-09得票数 18

回答已采纳

2回答

当我们在Apache Spark中使用时，找不到Set([TOPICNNAME，0])的领导者

、、

我们在Kafka中使用以下设置创建了主题当所有Kafka实例都在运行时，Spark作业工作正常。:145) at org.apache.spark.streaming.dstream.DS

浏览 3提问于2015-11-20得票数 4

1回答

Spark Streaming Redshift性能问题

、

我在我的Spark streaming代码中有许多在Redshift表上操作的创建表、插入和更新。我使用的是Spark 2.2、spark-redshift-preview 3.0.0 jar和scala 2.11.8。通过流式作业在Redshift中插入/更新5000行数据花费了超过20分钟的时间-这超出了我的spark微批处理窗口，并且使我的系统不稳定。我应该设置什么配置参数来加速Spark Streaming作业中的Redshift查询

浏览 1提问于2017-11-06得票数 0

1回答

Spark Streaming水槽集成

、、

在尝试了许多更改之后，我仍然遇到了将Flume自定义接收器和Spark Stream绑定到同一端口的问题。我使用的是Flume 1.6.0和Spark 2.0.0。使用Spark+flume集成指南，我构建了.conf文件和spark .py文件。我首先启动flume代理，但当我尝试在同一端口上使用Spark-streaming (读取)时，它显示fail to bind。我尝试了多个端口，但据我所知，无法找到任何网络限制(完全权限)。

浏览 17提问于2016-09-28得票数 0

1回答

运行电火花卡夫卡蒸汽有一个错误

、、

当我试图在文件夹: /usr/local/spark/examples/src/main/python/streaming下运行火花蒸："kafka_wordcount.py“的示例代码时“$ bin/spark-submit --jars \ external/kafka-assembly/target/scala-*/spark-<em

浏览 2提问于2016-01-30得票数 3

回答已采纳

1回答

如果我使用Dataproc，它如何处理从Apache和Spark到Dataproc的实时流数据？

、、、、

如果我使用Dataproc，它如何处理从Apache和Spark到Dataproc的实时流数据？

浏览 2提问于2022-09-14得票数 0

1回答

星星之火结构化流:：意外错误：：STATUS_INVALID_HANDLE与path=“

、、、、

我已经在Hortonworks (2.6.4)上构建了流作业(2.6.4)，在此我正在读取kafka主题的消息，在模式验证流作业将这些消息存储到HBASE & HIVE之后。$spark$sql$execution$streaming$HDFSMetadataLog$$writeBatchToFile(HDFSMetadataLog.scala:123)at org.

浏览 2提问于2020-08-21得票数 1

7回答

java.lang.NoClassDefFoundError:运行TwitterPopularTags时的org/apache/spark/streaming/twitter/TwitterUtils$

、、、、

我是Spark streaming和Scala的初学者。对于一个项目需求，我尝试在github中运行TwitterPopularTags example。在经历了许多最初的问题之后，我终于能够创建jar文件了。但是当我尝试执行它的时候，我得到了以下错误。有人能帮我解决这个问题吗？Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/streaming/

浏览 3提问于2015-01-27得票数 17

1回答