我正在使用Kafka运行一个结构化的流应用程序。我发现如果由于某种原因系统停机了几天...检查点变得陈旧,并且在Kafka中找不到与检查点对应的偏移量。我如何让Spark结构化流媒体应用选择最后一个可用的偏移量,并从那里开始。我尝试将偏移量重置设置为较早/最新,但系统崩溃,出现以下错误:
org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {MyTopic-574=6559828}
at
当将Kafka消息转换为dataframe时,在将包作为参数传递时会出现错误。
from pyspark.sql import SparkSession, Row
from pyspark.context import SparkContext
from kafka import KafkaConsumer
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars spark-sql-kafka-0-10_2.11-2.0.2.jar,spark-streaming-kafka-0-8-assembly_2.11-2.
我使用的是星星之火-SQL2.4.1、星火-卡桑德拉-连接器_2.11-2.4.1.jar和java8。同时将数据从kafka主题插入到C*/Cassandra表数据。
我正在犯错误:
org.apache.spark.sql.kafka010.KafkaDataConsumer - KafkaConsumer cache hitting max capacity of 64, removing consumer for CacheKey(spark-kafka-source-33321dde-bfad-49f3-bdf7-09f95883b6e9--1249540122-executor)
尝试从Kafka读取数据时出现以下错误。我使用docker-compose来运行kafka和spark。
Exception in thread "main" org.apache.spark.sql.AnalysisException: Failed to find data source: kafka. Please deploy the application as per the deployment section of "Structured Streaming + Kafka Integration Guide".
下面是我用于阅读的代码:
obj
我的Spark Streaming Structured在尝试阅读Kafka主题时一直与动物园管理员断开连接:
WARN clients.NetworkClient: Bootstrap broker [zk host]:2181 disconnected
当我检查ZK日志时,我总是看到这个错误被提示:
Exception causing close of session 0x0 due to java.io.EOFException
我在Cloudera5.11上运行Spark2.1,这些是我的SBT库:
val sparkVer = "2.1.0"
Seq(
"o
假设我们有一个结构化流应用程序,其中有多个接收器,具有不同的触发间隔,并且依赖于某些公共视图。如何处理普通视图:自动缓存或多次处理?
以下是伪码
val ds = spark.readStream.format("kafka").load()
ds.select(udf1(a) as a, udf2(b) as b, udf3(c) as c)
.withWatermark(c, "1 minute")
.createTempView("t0") // how will this line be handled?
spark.sql(
我正在开发一个火花流作业(使用结构化流,而不是使用DStreams)。我从kafka收到一条消息,其中将包含许多带有逗号分隔值的字段,其中第一列将是一个文件名。现在,基于该文件名,我将不得不从HDFS读取文件,并创建一个数据文件并在该文件上进一步操作。这似乎很简单,但是seems不允许我在调用start之前运行任何操作。火花文档也引用了同样的话。
此外,还有一些Dataset方法无法在流数据集上工作。它们是将立即运行查询和返回结果的操作,这在流数据集中没有意义。
下面是我尝试过的。
object StructuredStreamingExample {
case class fil
我使用星星之火-SQL2.4.1版本和Kafka 0.10 v。
当我试图通过消费者来消费数据的时候。即使在将"auto.offset.reset“设置为”最新“之后,也会出现以下错误
org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {COMPANY_INBOUND-16=168}
at org.apache.kafka.clients.consumer.interna
我在AWS EMR上使用Spark Streaming连接到AWS MSK上的Kafka集群。我正在使用spark-sql-kafka-0-10和Spark 2.4.3。
如果安全组配置不正确,Spark Streaming作业会卡住数小时,并显示以下警告:
20/06/29 14:10:42 WARN NetworkClient: [Consumer clientId=consumer-1, groupId=spark-kafka-source...] Connection to node -1 could not be established. Broker may not be avai