首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >阅读Kafka topic tail in Spark

阅读Kafka topic tail in Spark
EN

Stack Overflow用户
提问于 2020-08-27 20:53:55
回答 1查看 120关注 0票数 0

我需要订阅Kafka topic latest offset,阅读一些最新的记录,打印并完成。我如何在Spark中做到这一点?我想我可以做这样的事情

代码语言:javascript
运行
复制
sqlContext
    .read
    .format("kafka")
    .option("kafka.bootstrap.servers", "192.168.1.1:9092,...")
    .option("subscribe", "myTopic")
    .option("startingOffsets", "latest")
    .filter($"someField" === "someValue")
    .take(10)
    .show
EN

回答 1

Stack Overflow用户

发布于 2020-08-27 21:12:38

您需要提前知道您想从Kafka消费哪些分区中的哪些偏移量。如果你有这些信息,你可以这样做:

代码语言:javascript
运行
复制
// Subscribe to multiple topics, specifying explicit Kafka offsets
val df = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "192.168.1.1:9092,...")
  .option("subscribe", "myTopic")
  .option("startingOffsets", """{"myTopic":{"0":20,"1":20}}""")
  .option("endingOffsets", """{"myTopic":{"0":25,"1":25}}""")
  .load()
df.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
  .as[(String, String)]
  .filter(...)

Kafka + Spark Integration Guide中提供了有关startingOffsetsendingOffsets的更多详细信息

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63616440

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档