首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Flink去重第二弹:SQL方式

第一种方式 SELECT datatime,count(DISTINCT devId) FROM pv group by datatime 该语义表示计算网页每日的uv数量,其内部核心实现主要依靠DistinctAccumulator...from( select distinct devId,datatime from pv ) a group by datatime 内部是一个对devId,datatime 进行distinct...不会向下游发送数据即可,也就是每一对devId,datatime只会向下游发送一次数据; 外部就是一个简单的按照时间维度的计数计算,由于内部每一组devId,datatime 只会发送一次数据到外部,那么外部对应...两种方式对比 这两种方式最终都能得到相同的结果,但是经过分析其在内部实现上差异还是比较大,第一种在分组上选择datatime ,内部使用的累加器DistinctAccumulator 每一个datatime...: datatime->Value{devI1,devId2..}

55220
领券