问阅读Kafka topic tail in Spark
EN

Stack Overflow用户

提问于 2020-08-27 20:53:55

回答 1查看 120关注 0票数 0

我需要订阅Kafka topic latest offset，阅读一些最新的记录，打印并完成。我如何在Spark中做到这一点？我想我可以做这样的事情

sqlContext
    .read
    .format("kafka")
    .option("kafka.bootstrap.servers", "192.168.1.1:9092,...")
    .option("subscribe", "myTopic")
    .option("startingOffsets", "latest")
    .filter($"someField" === "someValue")
    .take(10)
    .show

apache-spark

apache-kafka

kafka-consumer-api

回答 1

Stack Overflow用户

发布于 2020-08-27 21:12:38

您需要提前知道您想从Kafka消费哪些分区中的哪些偏移量。如果你有这些信息，你可以这样做：

// Subscribe to multiple topics, specifying explicit Kafka offsets
val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "192.168.1.1:9092,...")
  .option("subscribe", "myTopic")
  .option("startingOffsets", """{"myTopic":{"0":20,"1":20}}""")
  .option("endingOffsets", """{"myTopic":{"0":25,"1":25}}""")
  .load()
df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
  .as[(String, String)]
  .filter(...)

Kafka + Spark Integration Guide中提供了有关startingOffsets和endingOffsets的更多详细信息

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/63616440

复制

相似问题

问阅读Kafka topic tail in Spark
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阅读Kafka topic tail in SparkEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问阅读Kafka topic tail in Spark
EN