首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache Beam -重复数据删除功能的限制是什么

Apache Beam -重复数据删除功能的限制是什么
EN

Stack Overflow用户
提问于 2020-10-13 19:26:22
回答 1查看 161关注 0票数 0

我有一个谷歌数据流管道,使用空间光束构建。应用程序每天收到大约5000万条记录,现在为了忽略重复记录,我们计划使用beam框架提供的Deduplication函数。

该文档没有说明重复数据删除功能将工作的最大输入计数,也没有说明它可以持久化数据的最大持续时间。

简单地将5000万条记录放到重复数据删除功能中,其中大约一半是重复记录,并保存7天的持久化持续时间,这是否是一个好的设计?

EN

Stack Overflow用户

发布于 2020-10-13 20:18:04

重复数据消除功能(如您提供的链接中所述)针对每个窗口执行重复数据消除。

如果你有1H的窗口,并且你每隔3H重复到达一次,那么函数不会复制它们,因为它们在不同的窗口中。

因此,您可以将窗口定义为1天或更长时间。没有限制。数据存储在工作进程上(以保存它们),也保存在内存中(以提高效率)。而且您拥有的数据越多,管理数据量的服务器配置就必须越强越大。

票数 1
EN
查看全部 1 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64334326

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档