专栏首页测试技术圈大规模群消息推送如何保证实时性?

大规模群消息推送如何保证实时性?

第一版红包功能上线后,收集到不少问题。核心问题是消息延迟,导致有些人先看到红包,有些人晚看到红包,同时导致消息顺序混乱。

分析一下问题产生的原因

1、消息量瞬间大增。抢红包时大家都比较活跃,不停在群里发消息,尤其群成员比较多的群(500人),每条消息都会给服务端带来大量的计算工作。

2、后台逻辑不够优化。比如红包消息没有单独的通道,时效性会收到其他消息影响;没有采用批处理方式;异步处理有些环节还不到位。

先看一下系统架构和消息处理流程(如下图)

精确定位问题

1、c2g模块没有采取批处理方式。1条群(500人群)消息到达c2g模块后,c2g模块为每个人写收件箱(这里时间延迟较大,优化点),然后在把这条消息变成500条投递消息(需要批处理,就给Kafka放入一条消息),通过Kafka送给Deliver节点投递。

2、Deliver模块,会到Redis中逐条(500条)检索接收消息用户的在线状态(这个点需要批处理,根据用户Id分布,一次检索若干用户的在线状态),在线的投递消息(批处理),离线的发送第三方push(批处理)。

3、整体流程上,每条消息是先写了离线收件箱,再推送。这样效率也不高,需要对这个流程细化以及异步化。

看一看微信在这个逻辑上的一些优化思想

微信在这块的一个重要优化思想是批处理,腾讯的做法是单次批量操作(我们本次优化目标)裸写,多条消息的聚合(MapReduce过程)下沉到了MQ中间件中。

具体怎么做

1、红包逻辑单独部署

现阶段,当消息(尤其是大群消息)量大的时候,Deliver节点会成为瓶颈。红包对时效性要求很高,架构上采用独立为红包部署Deliver节点的方式确保红包消息走单独通道进行推送。即使其他消息出现延迟,红包消息依然能保证即使送达。

2、裸写批处理逻辑

处理一条群消息,服务端要进行大量的工作,需要查询所有群成员的路由表、在线状态,在线人员需要推送及时消息,离线人员需要推送第三方push(比如IOS的apns)。这些工作逐条执行,性能会非常差,如果遇到大群,系统会不可用。

批处理可以较好解决这个问题。比如用户状态及路由表数据,采用hash算法分布在几台服务器上。收到群消息后,根据群成员,计算出用户状态及路由表数据的分布情况,从缓存服务器中一次检索出该服务器可能存在的所有群成员状态及路由信息。这样可以极大减少RPC调用次数,及计算量。

推送操作也类似,批量向接入层投递消息即可。

3、离线消息异步写收件箱

在处理大群消息推送时,写离线消息也是一个非常影响性能的地方。现有的逻辑是先为每个人写一条离线消息,再执行推送。这样做的初衷是确保消息投递绝对可靠(参看《一个海量在线用户即时通讯系统(IM)的完整设计》的离线消息章节)。由于大群人数较多,写离线消息也有较多时间开销。

优化思路是现将消息及时推送给用户,再异步写离线消息,同时处理好写离线消息和推送消息的ack时序。

具体步骤如下图

(1)Deliver节点收到一条群消息,检索用户在线状态及路由信息,用户在线(离线的逻辑相对简单,略过)

(2)批量推送消息(2、批处理逻辑)

(3)异步将消息写入消息总线,同时写入第三方push的延迟推送任务

(4)异步写离线消息(不影响在线用户收到消息的速度)

(5)第(2)步推送消息的ack信息回到服务端

(6)c2g模块将ack信息放入消息总线。(确保消息时序性,ack需要在写离线消息之后处理,否则可能出现消息重复)

(7)删除对应的离线消息

(8)第(3)步写入的延迟推送任务,在规定时间(如10秒)后生效,判断是否存在此条离线消息(如果ack回来了,离线消息会被删掉),如果离线消息还存在,发送第三方push

通过以上3个方面的优化,能够确保在并发消息量较大时,推送消息依然及时。

本文分享自微信公众号 - V社 北京社(SoftwareTesters)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于Fiddler的APP抓包及服务端模拟

    如果我们可以拿到项目组的接口文档,并且HTTP后台服务是可以工作的,那我们的接口测试会非常顺利,可以不使用Fiddler工具。

    Criss@陈磊
  • Clover:解决Java8和Cobertura的问题以及解决方法

    有一个项目的小伙伴反馈我们一直在使用的智能测试框架EvoSuite哑火了,我也感到莫名其妙。为什么呢,因为我们已经在内部很多项目在使用这个框架了,为什么这个框架...

    Criss@陈磊
  • 利用 ELK 搭建 Docker 容器化应用日志中心

    应用一旦容器化以后,需要考虑的就是如何采集位于 Docker 容器中的应用程序的打印日志供运维分析。典型的比如SpringBoot应用的日志收集。

    Criss@陈磊
  • 大规模群消息推送如何保证实时性?

    第一版红包功能上线后,收集到不少问题。核心问题是消息延迟,导致有些人先看到红包,有些人晚看到红包,同时导致消息顺序混乱。

    普通程序员
  • 重学计算机网络(二) - 曾记否,查IP地址

    net-tools通过procfs(/proc)和ioctl系统调用去访问和改变内核网络配置,而iproute2则通过netlink套接字接口与内核通讯。

    JavaEdge
  • CentOS6.5升级自带glibc-2.12到glibc-2.15的过程解析(无需重启)

    在开发时项目所依赖的包需要更高版本的glibc库支持, 而Centos6.5 中glibc默认版本为2.12, 这样调试时可能会遇到报错。但如果不小心把动态库中...

    孙杰
  • 聊聊skywalking的HTTPAccessLog

    skywalking-6.6.0/oap-server/server-core/src/main/java/org/apache/skywalking/oap/...

    codecraft
  • Vue 侦听器 watch 扩展之立即触发回调、深度监听和注销

    原来我们 watch 中默认写的就是这个 handler,Vue 会去处理这个逻辑,最终编译出来其实就是这个 handler

    Leophen
  • 用python实现决策树ID3算法,对隐形眼镜类型预测

    本节讲解如何预测患者需要佩戴的隐形眼镜类型。 1、使用决策树预测隐形眼镜类型的一般流程 (1)收集数据:提供的文本文件(数据来源于UCI数据库) (2)准备数据...

    机器学习AI算法工程
  • CentOS7下ELK日志分析平台的简单搭建步骤

    yum install -y java-11-openjdk java-11-openjdk-devel

    yuanfan2012

扫码关注云+社区

领取腾讯云代金券