spark检查点。优点:开箱即用。缺点:如果你更新app的源代码，你需要清理检查点。因此，您将丢失信息。如果对重复数据删除的要求不是很严格，则可以使用此解决方案。
任何数据库。例如，如果您在hadoop env上运行，则可以使用Hbase。对于你收到的每一封邮件(检查它是否以前没有发送过)，当它真的被发送时，在数据库中标记为已发送。

票数 1

发布于 2018-02-12 20:58:56

您可以将主题配置更改为compact模式。压缩后，Kafka日志中会覆盖/更新具有相同key的记录。在这里，您只能从Kafka获得密钥的最新值。

您可以阅读有关压缩here的更多信息。

票数 1

发布于 2018-05-03 16:19:33

您可以尝试使用mapWithState。查看我的answer。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48739605

复制

相似问题

问如何在使用Spark Streaming对kafka进行流媒体时进行去重？
EN

问如何在使用Spark Streaming对kafka进行流媒体时进行去重？EN