我已经看到了一个类似于的问题
但是,我仍然想知道来自特定分区的流数据是否不可能实现?我使用了卡夫卡消费策略在星火流订阅方法。
ConsumerStrategies.Subscribe
这是我尝试订阅主题和分区的代码片段,
val topics = Array("cdc-classic")
val topic="cdc-classic"
val partition=2;
val offsets=
Map(new TopicPartition(topic, partition) -> 2L)//I am not clear with this lin
好的,如果运行以下命令,我得到了相同的错误Unable to connect to zookeeper server within timeout: 10000:spark-submit --jars spark-streaming-kafka-0-8-assembly_2.11-2.4.4.jar receiver_based.py localhost:9092 test2
如果我按照上面文章中的解决方案更改localhost:2181而不是localhost:9092,那么现在似乎动物园管理员已经连接到了,但是我无法使用这个命令spark-submit --jars spark-strea
我正在用scala编写一个与kafka进行火花流连接的程序,我得到了以下错误:
18/02/19 12:31:39 ERROR Executor: Exception in task 0.0 in stage 3.0 (TID 39)
org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {prensa4-0=744}
at org.apache.kafka.clients.
我们有火花结构化流媒体应用程序,将数据从卡夫卡推送到S3。
Spark Job在几天内运行良好,然后开始累积延迟。我们有Kafka主题,过期6小时。如果延迟增加,并且一些偏移量开始过期,则Spark无法找到偏移量,并在警告后开始记录。从表面上看,Spark job似乎正在运行,但它没有处理任何数据。当我尝试手动重新启动系统时,我遇到了GC问题(见下面的屏幕截图)。我已将"failOnDataLoss“设置为"false”。我们希望系统不会在找不到偏移量时停止处理。除了下面提到的警告之外,我没有在日志中看到任何错误。
我们看到的唯一警告是:
The current av
我正在使用Kafka运行一个结构化的流应用程序。我发现如果由于某种原因系统停机了几天...检查点变得陈旧,并且在Kafka中找不到与检查点对应的偏移量。我如何让Spark结构化流媒体应用选择最后一个可用的偏移量,并从那里开始。我尝试将偏移量重置设置为较早/最新,但系统崩溃,出现以下错误:
org.apache.kafka.clients.consumer.OffsetOutOfRangeException: Offsets out of range with no configured reset policy for partitions: {MyTopic-574=6559828}
at