前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >redis数据类型HyperLogLog的使用

redis数据类型HyperLogLog的使用

作者头像
菩提树下的杨过
发布2020-08-28 09:57:38
7810
发布2020-08-28 09:57:38
举报
文章被收录于专栏:菩提树下的杨过

最近遇到一个业务需求,要统计一张mysql大表每天/每周/每月的记录量(该表每天产生的记录量在好几百万)。当然有朋友会说,select count(1) from xxx 不就完事了吗?

确实,但是大表做count非常耗时,如果db服务器配置也不咋地,直接就跑跪了。

于是想到了redis里的HyperLogLog,这种数据类型一般很少用,但是计算count是它的强项,性能极快(具体原理可参考文末文章)

一、基本用法 1.1 向HyperLogLog中添加元数 pfadd key名 数据1 数据2 ...

如上图,可以用 "表名_天"做为key,然后把每行记录的主键Id扔进去,如果操作执行成功,会返回1

1.2 统计HyperLogLog中的基数(即:去除重复后的元素个数) pfcount key名

可以看到,返回了数字6,自动将重复元素3 4 做了合并去重。

1.3 合并多个HyperLogLog

pfmerge 新key名 key1 key2 ...

假如我们已经有了 table_20200825 , table_20200826 这2个key,想统计它们的元素之和,就可以用pfmerge合并这2个HyperLogLog

注意:合并时,如果2个HyperLogLog中有重复元素,新Key会自动合并去重。

二、大表count思路

学习了HyperLogLog的用法,回到最开始的场景,怎么实时把大表的ID都扔到HyperLogLog里呢?

可以借助cannal工具,订阅mysql的binlog,实时消费mq,扔到redis里。

链路: mysql -> canal -> mq -> redis 优点:对业务系统0侵入性,也没有额外的性能开销。

不过,世界上并没有银弹,HyperLogLog也并非完美无缺,它的统计值是有一定误差的,并非1个不漏,对于计算日活/海量数据定性分析,这些是没问题的,但是如果用于统计具体金额之类的,就不建议使用了。

另外,对于已经添加进去的元素,没办法删除,没有类似pfdelete的命令。

参考文章:

https://www.jianshu.com/p/55defda6dcd2

https://mp.weixin.qq.com/s/AvPoG8ZZM8v9lKLyuSYnHQ

https://zhuanlan.zhihu.com/p/77289303

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-08-25 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 Redis
腾讯云数据库 Redis(TencentDB for Redis)是腾讯云打造的兼容 Redis 协议的缓存和存储服务。丰富的数据结构能帮助您完成不同类型的业务场景开发。支持主从热备,提供自动容灾切换、数据备份、故障迁移、实例监控、在线扩容、数据回档等全套的数据库服务。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档