如何处理spark结构化流媒体中的小文件问题？

、、

我有一个长期运行的结构化流媒体作业，它消耗了几个Kafka主题，并在滑动窗口上聚合。我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。以前，检查点存储在s3上，但由于要读/写大量的小文件，这被证明是非常昂贵

浏览 34提问于2019-01-07得票数 2

回答已采纳

1回答

如何将spark结构化流数据写入REST API？

、

我想将我的spark结构化流式处理数据推送到REST API。有没有人可以分享一下相同的例子。我发现很少，但所有都与spark流媒体有关，而不是结构化流媒体。

浏览 14提问于2019-01-18得票数 1

3回答

、、、

我在我的项目中有一个场景，我正在使用spark-sql-2.4.1版本阅读kafka主题messages。我可以使用结构化流媒体来处理这一天。一旦数据被接收并处理后，我需要将数据保存到hdfs存储中的相应拼图文件中。我能够存储和读取镶木地板文件，我保持了15秒到1分钟的触发时间。这些文件的大小非常小，因此产生了许多文件。或者以后会导致任何小文件问题吗？ 2)<e

浏览 29提问于2019-06-10得票数 12

回答已采纳

1回答

从Spark 2.2到2.3的结构化流媒体有什么不同？

我在Spark 2.3的发布说明中看到了结构化流媒体的公告/揭幕，但我知道它已经存在了一段时间了。由于一些依赖，我需要在系统实现中使用Spark 2.2，但我也想开始将面向批处理的工作转移到流范例中。在没有Spark 2.3的过程中，我是否遗漏了什么重要的东西，或者这仅仅是结构化流媒体成为“官方”而不是实验性的

浏览 13提问于2018-07-25得票数 0

2回答

我正在研究在kafka中存储kafka偏移量用于Spark结构化流媒体，就像它对DStreams stream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)一样，与我正在寻找的相同，但用于结构化流媒体。它是否支持结构化流媒体？如果是，我如何实现它？我知道使用.option("checkpointLocation", checkpo

浏览 10提问于2019-05-16得票数 3

1回答

如何在Spark* Streaming 2.3.1中将每条记录写入多个kafka主题？*

、、

如何在Spark Streaming 2.3.1中将每条记录写入多个kafka主题？换句话说，我有5条记录和两个输出kafka主题，我希望在两个输出主题中都有5条记录。问题没有谈到结构化的流媒体案例。我正在寻找结构化流媒体的具体。

浏览 16提问于2018-07-23得票数 1

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.forma

浏览 15提问于2019-11-09得票数 2

1回答

在Spark* 2.1的Spark-kafka集成中，有多少个执行者被指派去听一个kafka话题？*

、、

我有一个Spark集群，总共有17个executors。我已经将Spark 2.1与Kafka集成在一起，并从topic中读取数据，例如： .readStream .options(kafka.bootstrap.servers","localhost:9092") .load 现在我想知道，

浏览 0提问于2018-09-05得票数 2

1回答

外部查找Spark流

、、、、

我有一个数据流从mysql表到kafka到我的spark program.When，插入了一个新的行，我在流上做了转换并保存到cassandra。我的问题是，当一行被更新时，我希望联合我之前创建该行时所做的转换和新的更新。我知道我可以选择使用状态流和数据库连接器，当我需要执行外部查找时，有人可以解释我有什么其他选择吗？

浏览 2提问于2018-05-09得票数 2

2回答

数据集阵列上的Spark并行化

、、

环境: Scala、spark、结构化流媒体 如果我在Scala Array(Dataset[Row])中有一个数据集的数组，我对使用处理Dataset[Row]对象的函数并行处理感兴趣，那么通过map或foreach传递数组对象来利用spark集群中的sparks并行性是否足够？编辑:我偶然发现了一些问题，我将在另一个主题中重新解释这个问题。

浏览 2提问于2020-07-26得票数 0

1回答

Spark流媒体与结构化流媒体

、、

在过去的几个月里，我使用了相当多的结构化流媒体来实现Stream Jobs (在使用了很多Kafka之后)。在阅读了“使用Apache Spark进行流处理”一书后，我有了这样一个问题:有没有什么要点或用例可以让我使用Spark流而不是结构化流？我是不是应该花点时间去了解它，或者既然我已经在使用Spark Structured Streaming了，我应该坚持使用它，并且之前的API没有任何好处。将

浏览 17提问于2020-04-06得票数 2

3回答

Pyspark结构化流Kafka配置错误

、、、、

我之前已经成功地使用了pyspark for Spark Streaming (Spark 2.0.2)和Kafka (0.10.1.0)，但我的目的更适合于结构化流媒体。我尝试在线使用示例：ds1 = spark .format("kafka").option("partition.assignment.strateg

浏览 2提问于2017-07-07得票数 1

1回答

如何处理kafka主题中的旧数据？

、

我开始使用spark structured。我的问题是，在spark结构化流媒体作业之前，我如何处理写入kafka主题的数据？如果我简单地创建一个批处理作业并按特定的

浏览 87提问于2018-11-26得票数 2

回答已采纳

2回答

如何对Spark结构化流媒体进行单元测试？

、、

我想了解一下Spark Structured Streaming的单元测试方面。我的场景是，我从Kafka获取数据，并使用Spark Structured Streaming使用它，并在数据上应用一些转换。我不确定如何使用Scala和Spark来测试它。有人能告诉我如何使用Scala在结构化流媒体中进行单元测试吗？我还是个流媒体新手。

浏览 3提问于2019-07-05得票数 2

1回答

用谷歌PubSub实现Apache Spark的结构化流媒体

、、

我正在使用Spark Dstream从谷歌PubSub中提取和处理数据。我正在寻找一种方法来转移到结构化流媒体，但仍然使用发布/订阅。另外，我应该提一下，我的消息在Pub/Sub中压缩得很快。我发现了this问题，它声称不支持使用带有结构化流的发布/订阅。是不是有人遇到过这个问题？是否可以实现自定义接收器以从发布/订阅中读取数据谢谢

浏览 34提问于2019-05-03得票数 2

回答已采纳

4回答

Kafka结构化流检查点

、、

我正在尝试从Kafka做结构化流媒体。我计划在HDFS中存储检查点。我读了一篇Cloudera博客，建议不要在HDFS中为Spark streaming存储检查点。结构流检查点也存在同样的问题吗？。在结构化流中，如果我的spark程序停机了一段时间，我如何从检查点目录中获取最新的偏移量，并在该偏移量之后加载数据。我将检查点存储在一个目录中

浏览 3提问于2017-10-07得票数 4

2回答

是否可以直接将数据从Nifi发送到Spark结构化流/Storm，而不丢失数据？

、、、

在我当前的场景中，Nifi收集数据，然后发送给Kafka。然后，任何流媒体引擎都会消耗卡夫卡的数据，并对其进行分析。在这种情况下，我不想在Nifi和流媒体引擎之间使用卡夫卡。例如，结构化流；如果我直接将数据从Nifi发送到Spark结构化流，Spark收到了这些数据，但是Spark的节点被关闭了。火花节点中的数据会发生什么变化？( Spark结构化</em

浏览 0提问于2019-02-14得票数 0

回答已采纳

1回答

如何获取增量表的最新插入时间？

、、

在我的Spark结构化流媒体应用程序中，我有一个这样的代码。df = ( .option("startingTimestamp", starting_time_stamp)) 现在，如果给定的开始时间戳晚于上次插入的时间戳，我会得到一个错误。因此，我的问题是<e

浏览 5提问于2021-10-12得票数 1

2回答

Amazon EMR和Spark* streaming*

、、、、

Amazon EMR，Apache Spark 2.3，Apache Kafka，每天约1000万条记录。Apache Spark用于以5分钟的时间批量处理事件，每天一次工作节点正在死亡，AWS自动重新配置节点。查看日志消息时，节点中看起来没有空间，但它们在那里有大约1Tb的存储。有没有人在存储空间应该足够的情况下遇到了问题？我应该提供什么样的</e

浏览 4提问于2018-10-19得票数 8

1回答

Spark Structured无法在卡夫卡中writeStream

、

我正在使用结构化流媒体，并试图将我的结果发送到kafka主题中，名为"results“。

浏览 43提问于2020-03-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用结构化流检查点管理HDFS内存

如何将spark结构化流数据写入REST API？