可以在没有HDFS的情况下使用Spark Structured吗？

文章/答案/技术大牛

发布

1回答

我经常使用HDFS和Kafka，我注意到Kafka比HDFS更可靠。所以现在使用Spark-structured-streaming，我很惊讶检查点只有HDFS。用Kafka来勾点会更快更可靠。那么，有没有可能在没有HDFS的情况下使用spark structured？奇怪的是，我们只能在Kafka中将

浏览 39提问于2021-05-07得票数 2

1回答

从Kafka回放偏移Spark结构化流

、、、

我正在使用spark structured streaming (2.2.1)来消费来自Kafka (0.10)的主题。HDFS目录上设置的。在某些情况下，我希望重新启动流应用程序并从头开始使用数据。然而，即使我从HDFS目录中删除了所有检查点数据并重新提交了jar，Spark仍然能够找到我上次使用的偏移量并从那里恢复。偏移量还在哪里？然而，我无法为每个设置<em

浏览 1提问于2018-04-18得票数 0

1回答

如何在spark* structured streaming中只流式传输旧文件中的新数据(新附加的)？*

、、

我有多个文件是以块的形式编写的，我希望我的流在每次追加数据时处理每个文件的新数据。此外，我希望我的流只读取新文件，而不是已经处理的文件。我们将非常感谢您的帮助。

浏览 2提问于2020-08-07得票数 0

2回答

压缩批次9时IllegalStateException：_spark_metadata/0不存在

、、、

我们有使用Spark Structured实现的流应用程序，它试图从Kafka主题读取数据并将其写入HDFS位置。有时应用程序会失败，并出现异常：java.lang.IllegalStateException: history/1523305060336/_spark_metadata/9.compact

浏览 0提问于2019-05-31得票数 6

2回答

Spark结构化流状态管理

、、

我了解到，默认情况下，结构化流媒体支持HDFSBackedStateStoreProvider。这意味着所有与状态相关的信息都存储在HDFS位置。它是否确保数据不会存储在内存中，这可能会导致长时间的GC暂停？这个问题的原因是，我正在运行的作业在高流量期间停止处理数据，并在延迟15-20分钟后赶上。

浏览 2提问于2018-12-07得票数 0

1回答

通过spark* structured streaming读取正在写入的文件*

、

我在我的应用程序中使用spark structured。我有这样的用例，我需要在写文件的时候去读它。我尝试了spark structured，如下所示： sch=StructType([StructField("ID",IntegerType(),True),StructField("COUNTRY"df_str.writeStream.format("parquet").o

浏览 0提问于2021-01-02得票数 0

1回答

删除spark-structured-streaming写入的损坏拼接文件时会丢失数据吗？

、、、

我使用spark-structured-streaming作为消费者从kafka获取数据，按照指南参考https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图文件。这是我的问题:程序运行良好，但一些容器很少失败(但它确实发生了)，导致了一些损坏的拼接文件。它将导致错误，

浏览 20提问于2019-05-25得票数 0

1回答

使用spark和spark* streaming构建服务*

、、、

我读过一些关于spark streaming的文章，我想知道是否有可能使用rabbitmq作为代理从自定义来源流式传输数据，并通过spark流提供这些数据，Spark的机器学习和图形处理算法将在这些数据上执行附注:我用python编写代码，我没有任何使用spark的经验，我可以称之为我试图实现的微服务吗？谢谢。

浏览 5提问于2020-09-02得票数 0

1回答

获取Spark* Streaming中消息处理的顺序号*

、、、

我使用Spark Structured来处理消息，我使用的是Java8。我正在从kafka读取消息，并将消息写入文件，然后将文件保存在HDFS中。如果消息计数达到某个阈值，比如" message，999999"，那么我需要从收到的下一条消息再次从1开始重置序列。如果重新启动spark流作业，它应该从离开的位置继续执行序列。所以我需要把这个数字保存在HDFS类型的checkPoi

浏览 0提问于2018-06-20得票数 0

1回答

避免Apache Spark结构化流中的多窗口重复读取

、、、、

我是Apache Spark Structured Streaming的新手，我正在做一个基本的POC。我的需求是构建一个规则引擎，它将从HDFS读取数据，HDFS接收来自多个源的连续数据流。我需要根据此HDFS数据的可配置时间窗口运行不同的规则。例如，可能有一个规则需要在最后5分钟的数据上运行，而第二个规则将在最后7分钟的数据上运行。如果我创建两个流，一个是5分

浏览 31提问于2021-09-16得票数 1

1回答

如何使用结构化流检查点管理HDFS内存

、、

我有一个长期运行的结构化流媒体作业，它消耗了几个Kafka主题，并在滑动窗口上聚合。我需要了解如何在HDFS中管理/清理检查点。作业运行良好，我能够从失败的步骤中恢复，而不会丢失数据，但是，我可以看到HDFS利用率每天都在增加。我找不到任何关于Spark如何管理/清理检查点的文档。以前，检查点存储在s3上，但由于要读/写大量的小文件，这被证明是非常昂贵的。://&#x

浏览 34提问于2019-01-07得票数 2

回答已采纳

1回答

在spark* 2.4.X中获取kafka头文件*

、、

如何在Spark Structured Streaming中获取Kafka header字段(在Kafka 0.11+中引入)？我看到headers实现是在Spark 3.0中添加的，但在2.4.5中没有。我看到默认情况下spark-sql-kafka-0-10使用的是kafka-client 2.0。如果不能使用Spark阅读Kafka的标题，

浏览 0提问于2020-03-09得票数 0

1回答

ApacheSpark2.0.1与Spring集成

、

因此，我希望按照spring ()提供的指南在我的spring应用程序中创建一个apache集成。现在我有几个问题，因为它似乎火花2.0.1不包括火花组装罐。在继续这样做的过程中，我有哪些选择，因为集成似乎依赖于jar？有办法用Apache2.0.1获取jar吗？

浏览 4提问于2016-10-08得票数 1

回答已采纳

1回答

Spark structured streaming -有可能在没有聚合的情况下使用spark structured窗口功能吗？

、、、

我正在处理CSV数据集，并使用火花流进行处理。我可以使用spark streaming中的窗口函数来应用批处理。有没有办法不用聚合函数就可以使用spark structured来做同样的事情？互联网上所有可用的示例都使用groupBy选项。我只想将数据分成批处理，而不使用结构化流进行任何聚合。print(type(df)) df = df

浏览 0提问于2019-06-09得票数 0

1回答

如何在spark* structured streaming中获取特定日期的聚合数据*

、

我有一个火花结构化蒸汽作业，从kafka读取数据流，并写入到HDFS的输出。我的问题是，我需要一整天的汇总结果，直到特定的时间。既然spark structured不支持complete/update模式，有没有办法做到这一点？如果我得到的数据是上午10点，我需要当前日期上午10点之前的汇总结果...有人能帮助你实现同样的目标吗？

浏览 0提问于2019-01-19得票数 0

1回答

只在hdfs中读取火花

、、

我已经用HDFS设置了一个Spark集群配置，并且我知道在HDFS示例中，Spark将读取默认的文件路径：有时，我想知道如何在没有reConfig我的集群(不使用<

浏览 2提问于2014-11-28得票数 4

回答已采纳

1回答

我只能从HDP安装HDFS吗？

、、、

我想使用HDFS作为存储Kubernetes上Spark的数据的地方。因此，我只需要来自HDP的hdfs。但是我想知道我是否可以在没有其他HDP组件的情况下安装它。我能这么做吗？如果是，那是怎么做的？

浏览 15提问于2020-01-20得票数 0

4回答

火花基本面

、、

在复习基本面时，我不太清楚一些基本的事情：查询1.对于分布式处理--可以不使用HDFS - Hadoop文件系统而在集群上工作(比如创建自己的分布式文件系统)，还是需要一些基本的分布式文件系统，如HDFS查询2.如果我们已经在HDFS中加载了一个文件(作为分布式块)，那么Spark将再次将其转换为块，并在其级别上重新分发(用于分布式处理)，或者只使用Haddop HDFS

浏览 7提问于2015-08-24得票数 1

回答已采纳

1回答

对于spark结构化流式处理Json记录，架构是否为必填项

、、

我正在浏览下面的博客中的spark structured。由于json记录在默认情况下会有模式，为什么我们要提供该模式。例如，在spark batch streaming中，我们在下面的代码行中不提供任何模式。val peopleDF = spark.read.json(path) 代码直接从Json记录推断出Dataframe的

浏览 3提问于2018-03-23得票数 1

2回答

Spark Structured Streaming如何确定事件是否迟到？

我通读了spark structured streaming文档，我想知道spark structured是如何确定事件已经迟到的？它是否将事件时间与处理时间进行比较？1)这个处理时间是从哪里来的？由于它的流，它是否假设有人可能正在使用具有处理时间戳的上游源，或者spark添加了处理时间戳字段？例如，当阅读来自Kafka的消息时，我们会这样做 Dataset<Row>

浏览 0提问于2018-02-26得票数 4

点击加载更多