我有一个谷歌数据流管道,使用空间光束构建。应用程序每天收到大约5000万条记录,现在为了忽略重复记录,我们计划使用beam框架提供的Deduplication函数。
该文档没有说明重复数据删除功能将工作的最大输入计数,也没有说明它可以持久化数据的最大持续时间。
简单地将5000万条记录放到重复数据删除功能中,其中大约一半是重复记录,并保存7天的持久化持续时间,这是否是一个好的设计?
发布于 2020-10-13 20:18:04
重复数据消除功能(如您提供的链接中所述)针对每个窗口执行重复数据消除。
如果你有1H的窗口,并且你每隔3H重复到达一次,那么函数不会复制它们,因为它们在不同的窗口中。
因此,您可以将窗口定义为1天或更长时间。没有限制。数据存储在工作进程上(以保存它们),也保存在内存中(以提高效率)。而且您拥有的数据越多,管理数据量的服务器配置就必须越强越大。
https://stackoverflow.com/questions/64334326
复制相似问题