2017年的手Q春节游戏红包共有刷一刷/AR地图/扫福三种,如下图所示:
虽然红包分三种,但在游戏业务侧这边的体验都是一样:用户得到一个红包卡券,打开后展示一个(刷一刷红包)或者多个(AR地图红包)游戏的礼包列表,用户选择一个礼包后弹出区服组件,用户确认对应的区服角色信息后会礼包会在48个小时内发放到账。体验如下:
游戏红包的设计容量为入口卡券页流量80k/s,以上体验流程一共涉及三个后台接口:
这个功能使用现有能力比较容易解决。活动共有十种游戏,每个游戏有两种礼包:拉新(面向非注册用户,价值80元)/拉活跃(面向注册用户,价值20元),一个用户只能获得这两种礼包中的一种,产品策略允许拉新的用户获得价值较低的拉活跃礼包,反之则不允许。页面展示按用户偏好排序十个游戏,每个游戏展示一个拉新礼包或者一个拉活跃礼包。 出于降低除夕当前流量负载和柔性考虑,在红包活动前,十种游戏的礼包内容作为前端静态数据已经预先通过离线包/CDN下发;红包活动时,后台接口根据用户偏好返回的游戏礼包列表,只是提供前端礼包内容进行过滤和排序,失败了也有前端默认的游戏礼包列表,保障用户体验。 过滤:读取存储,用户有注册的游戏返回活跃礼包,用户没有注册的游戏返回拉新礼包 排序:一个两层排序,第一层排序读取存储(key为用户,value为用户所注册的游戏列表),用户注册的游戏(拉活跃)排在用户没有注册的游戏(拉新)前面;第二层排序,对于拉新游戏列表和拉活跃游戏列表内部,使用神盾算法对用户这10款游戏的偏好再进行二次排序。对于外部接口的依赖只有CMEM存储和神盾算法接口,这两个接口以及合并这两种数据给出最终的个性化推荐礼包列表接口都可以平行扩容以支持100k级别的QPS。
这个功能是现有能力。这个角色信息的来源是IDIP,但由于该接口较缓慢(2s左右)且容量较低(低于10k/s),故后台做了一层缓存,将IDIP的区服信息永久性缓存到CMEM中,前台也有本地缓存,在实践中,前台缓存命中率为60%,后台为35%,多级缓存后走到IDIP的请求量只有5%,对IDIP影响不大,只需要扩容现有的区服server和CMEM即可。
这个功能使用现有能力解决存在困难。游戏中心日常发货的道具和平台比较多,平台分为IEG-AMS/MP两种,MP发货对于发游戏道具和发Q币又是两种接口,故我们在架构上使用Facade模式,使用AMS作为发货proxy,屏蔽了底层发货的复杂性,向游戏中心提供统一的发货接口,但比较遗憾的是从AMS到游戏的发货接口都是同步接口,发货能力较低,发货能力最高的王者荣耀也只承诺了3k/s的发货速度,明显不足以直接承受100k/s级别的红包发货,故这里的核心问题是需要有一个队列来解决生产/消费速度不对等的问题。 去年的红包是后台收到发货请求后落地到本地文件返回用户成功,再由一个本机的daemon跑落地文件按游戏方所能提供的发货速度进行实际发货,相当于使用本地队列缓冲。但这个方案存在某台机器挂掉后如果不能恢复会丢失一部分本地的发货数据造成漏发,以及每个高并发业务都要重新做这一套东西不方便通用的问题。 从架构上思考,其实最合理的方案是作为发货proxy的AMS提供异步发货的能力,将用来解决生成/消费速度不匹配的MQ做在AMS内部,为业务提供通用的异步发货能力,业务侧就不需要考虑发货超过游戏方能力的问题,新业务有类似的场景也不需要重新开发。 游戏中心是业务侧,AMS是平台侧的能力,属于另一个中心的业务,于是一开始我们准备推动AMS做异步发货的能力,这样业务就只要调用发货接口就可以了,很是方便。但事情并没有想象中顺利,与AMS的开发和PM开会沟通了几次,异步发货的能力他们也有做技术规划,但年前他们有其它需求要做,没有时间支持。和leader讨论了一下这个能力最好还是放在AMS做成通用以便以后有同样场景的业务使用,前台也有同学开发过AMS功能,可以由游戏中心业务侧的前后台同学合作完成AMS异步发货功能的开发,在春节红包中应用,再将这个功能交接给平台侧的同学维护,达到双赢的效果。
整体方案图如上图所示,由于整个项目涉及多方开发,而且模块较多,整个模块的开发周期较长,作为一期开发的话无法跟上基础侧卡券的验收和安排的几次演习/压测,故按“大系统小做”的原则,根据模块的重要和紧急程度分为几期迭代完成,每一期有独立的里程碑目标并达到对应的验收/演习/压测要求:
{3.1后台礼包推荐接口}为用户推荐礼包,用户领取时需要经过{4.1AMS外网发货新OP}校验领取资格,后台的推荐数据必须能和AMS的资格校验数据能够对上,否则会出现后台推荐的礼包用户领取时却通不过AMS的资格校验导致领取不了的问题。 {4.1AMS外网发货新OP}接口处理的是单个游戏的领取礼包的请求,资格校验操作判断一个用户是否注册了某个游戏。这个是AMS现有的通用功能,数据存储在AMS的CMEM中,简化描述就是一个key-value模型,key为uin+appid,value如果有注册则为1,没有则为0(实际为了节省存储空间,使用bitmap桶实现,具体参见号码包系统使用文档),导入的数据源是产品在除夕前一周提供10款游戏的全量注册号码包,每个游戏一个文件,文件内容是注册用户的QQ号。 但{3.1后台礼包推荐接口}接口返回的是多个游戏的礼包列表,需要获取十个游戏的用户注册状态。如果读取AMS现有的接口/存储,会有两个问题:
后台将号码包数据进行重新组织存储到后台申请的另外一个CMEM中,key为uin,value为用户已注册的appid列表,已注册的游戏推荐拉活跃礼包,没注册的游戏推荐拉新礼包,这样只需要查询一次CMEM就可以得到十个游戏每个游戏的礼包推荐类型是拉新还是拉活跃。 由于AMS和后台使用的是同一份号码包数据,只是应用场景不同,数据组织形式不同,两份CMEM数据同质异构,故后台推荐的礼包可以通过AMS的资格校验。
红包活动具有时间短(单场5~30分钟)、大用户量参与(1.5亿+)参与的特性,请求并发高,游戏红包入口流量设计为80k/s,流经各个模块有衰减也有增幅,最终用户领取礼包请求预估为96k/s,而游戏方提供的十款游戏总发货能力只有5k/s(单款游戏最大为王者荣耀3k/s),请求峰值接近处理能力的20倍,同步调用会导致游戏方发货接口过载,造成大面积发货失败,这个问题如何处理?
使用一个缓冲队列来解决生产消费能力不对等的问题。用户领取请求到达AMS进行基础的资格校验后将请求放入MQ中,返回用户成功并告知会在48小时内到账。再由后台发货Daemon从MQ中读取请求,通过限速组件控制保证以不超过游戏方发货能力的速率进行发货操作。使用的MQ是部门近来建设的RocketMQ,具体参见会员消息队列(RocketMQ)接入指南。
三场活动发放的礼包总数预计将近4亿,如何保障这些礼包对于合法用户能都发货到账,不少发也不多发?如何防范高价值道具被恶意用户刷走?有没有可能内部开发人员自己调用接口给自己发礼包?
在监控方面有两个主要诉求: (1)我们对外提供的服务是否正常?如果有问题,如何快速地发现问题、分析问题? (2)实时知道用户在整个系统的行为漏斗模型,每一步的转化率是多少? 游戏红包涉及红包基础侧/业务前台/业务后台/AMS/MQ平台等多个合作方,各个系统有自己的监控系统,数据来源不一致,活动当天一个系统一个系统地收集的话效率太低。
红包作为一个涉及多个子系统的聚合系统,我们需要一个汇总了各个子系统关键数据的整体视图,才能够较全面地监控业务核心指标,对系统和业务有较全面把控,避免在监控系统中跳转检索而耗费有限的时间,为迅速响应解决问题提供保证。 接口封装:虽然红包涉及的多个子系统,各自有各自的上报方式和监控系统,但是对于关键数据大都有提供HTTP形式的查询接口,我们通过封装,将接口的定义统一为key-value形式,以(监控项id,开始时间,结束时间)为key,value为(开始时间,结束时间)段内监控id的值之和。 配置化:一场红包活动的监控,可以由一个时间段加若干个监控项定义。比如刷一刷红包,时间段为除夕当天20:00~20:30,监控项为若干页面的点击量,若干礼包的发放量,若干后台接口的请求量,若干MQ的堆积量等等。 通过对接口的封装和配置化,新增一场红包活动,只需要增加一个时间段和若干个监控项的配置文件,比如下图的AR/刷一刷混场/刷一刷专场就是通过3个配置文件定义3场活动,新增一场活动也只需要增加一个配置文件,并可以在一个视图上灵活切换,相当方便。
从上图中我们就可以实时看到实发和应发是大致相等的,队列没有出现堆积,用户在各级页面的转化率,可以很方便地判断系统的健康状态和分析定位问题。
第四部分讲述了业务需求的开发,但是否功能开发完成后我们就这样就可放到线上安心睡大觉了呢? 如果出现一部分机器乃至整个机房挂了,服务是否可用? 外部的服务突然故障了,比如MQ突然挂了,不能写入消息了,服务是否可用? 说是红包入口流量8W/s,万一来了20W/s呢?系统会不会挂掉?服务是否可用? 以下从系统容灾/过载保护/柔性可用/立体监控来讲我们这方面做的一些工作,我们对于除夕当天出现各种问题系统还能正常运行,用户能正常体验服务的信心从何而来?
容灾就是在整体服务一部分出现异常时,另一部分能顶上,不影响整体服务的使用,保障业务可用、数据安全。但容灾设计会使得系统复杂度增加,成本和代价也增加,需要额外的开销和资源,应该在合理的范围内考虑容灾。 容灾级别一般划分为多机容灾、多机房容灾,多地容灾,红包的后台服务主要使用公用组件的均衡负载和系统容灾能力,服务无单点问题,采用同地多机房部署,按多机房容灾标准设计。
典型的GSLB+TGW+QZHTTP接入,GSLB解析域名把请求带到离用户最近的IDC的TGW接入机,TGW再通过内网专线,把请求转发到实际提供WEB服务的QZHTTP服务器上。
逻辑层使用SPP容器开发,礼包列表/区服选择/礼包发货三个功能均是无状态服务,多个服务器在服务容量足够的情况下任意踢掉一部分都不会影响正常服务,使用L5进行负载均衡/容灾/过载保护。
数据层主要使用了作为K-V存储的CMEM和作为分布式消息队列的RocketMQ,这两种服务都采用接入层-存储层划分,逻辑层访问数据层的接入层使用L5进行负载均衡/容灾,数据层的存储层都采用一主一备双机热备容灾,并落地磁盘支持掉电重启后重建内存数据,支持多机容灾但是不支持多机房多地容灾。
红包入口流量说是8W/s,万一基础侧有问题发到了20W/s怎么办? 每个模块的容量都是从入口流量按照用户行为漏斗模型推算转化率设计的,万一评估有误转化率偏高超过了设计容量怎么办? 对于可能出现的超过了设计容量的流量尖峰,就要应用过载保护方法,保障系统能拒绝超过容量的部分请求,保障设计容量内的请求还能正常响应,实施的时候有四个要注意的地方:
CDN做为页面访问的关键路径,前端页面制作离线包,预先下发到客户端,减少除夕当天CDN的流量压力。
前台对用户发起请求的频率进行限制,超出频率的请求提示用户失败而不走到后台(每5秒只允许请求一次到后台),前台保护后台。 后台接入层根据压测数据配置CGI接口的每分钟接受的请求数,超出接口处理能力的请求丢弃并进行告警。接入门神系统,配置IP/uin/refer等规则限制恶意用户刷请求,保障服务的正常运行。
前台调用后台的接口,设置开关以一定概率丢弃请求,对于关键路径返回错误提示用户稍后重试,对于非关键路径提供降级体验,结合频率限制功能,可以限制前台的流量传递到后台的比例,当比例设为0的时候则关闭该模块,实现前台保护后台。
后台逻辑层使用SPP框架,worker处理消息前先检查消息在SPP消息队列中等待时间是否超出了预设阈值(500ms),在队列中堆积过久的消息前端已经超时,对于用户已经无意义,服务丢弃请求并进行告警,预防队列式过载雪崩。
柔性可用,柔性是为了保护系统,保证系统整体的稳定性,可用性。可用是为了用户,尽最大努力为用户提供优质的体验(可能是部分服务体验)。一个是从系统本身角度出发,一个是从用户角度看,在真正实施过程中只有将两者分析清,并融合在一起才能真正做到系统的柔性可用。关键问题是找准用户的核心诉求,找出符合求场景的核心诉求作为关键路径,出现异常可以放弃的诉求作为非关键路径。
春节游戏红包用户的核心诉求有三个:
其他的都可以作为非关键路径,有可以提高用户体验,没有也不影响用户的核心诉求。
“我们对外提供的服务是否正常的么?怎么证明我们的服务是没有问题的?”,是监控告警首先要回答的根本问题。有效的监控告警需要保证能完备地监测业务指标,当发现问题时能有效通知负责人并帮助分析问题,强调的是“完备性”和“有效通知”,两者缺一不可。春节红包的监控告警从用户、业务和机器三个层面上描述。
从用户的角度监控系统是否有问题,模拟用户行为从系统外部发起请求,判断请求结果和时延是否符合预期,使用的是ATT的自动化用例。 ATT,autotest,是社交、开放平台测试组使用的测试管理工具,它是功能用例、自动化用例管理的平台。通过模拟真实的用户访问并校验返回数据,确认访问延时、功能正确性的用户层的监控手段,从业务侧进行实施监控功能的正常运行状态的工具。
监控红包系统内部的各个子业务模块是否运行正常,分为两种:
监控机器的CPU/内存/磁盘/网络是否正常,使用的是网管系统。 网管系统(TNM2)是一个功能非常强大的采集服务器CPU、内存、网络、IO等指标的监控系统,同时还能对设备的进程和端口异常、磁盘使用率、硬件故障等进行告警,同时对外部系统提供功能丰富的调用接口,关于网管系统的监控能力,请参考其网站首页的TMP监控能力白皮书 。
演习是一种将被动相应转换为主动服务的手段,在演习前设定演习目标和演习方法,在演习过程中进行验证并收集数据,在演习后进行总结并提出改进方案。通过演习,可以实际验证用户行为与评估预期是否一致(灰度演习),系统各个模块的容量是否符合预期(压测演习),各类容灾和柔性的措施是否生效(异常演习),提前发现架构中存在的问题。
细分又可以划为两个问题:
最理想的情况是先红包各个模块的进行压测后评估没有问题,再灰度用户使用现网流量进入红包系统进行全链路压测,但由于使用现网流量进行演习需要实际地发送红包,成本较高,灰度500万用户红包入口峰值仅为5k/s,远低于设计的80k/s。故对系统的压力测试验证主要以单模块压测结合灰度演习得到的用户行为数据评估系统的整体能力。
经验证,在V8的机器上,礼包列表/区服接口CGI/Server的QPS在5k/s~8k/s之间,礼包领取接口达到2k/s的QPS。在部署足够的机器后,对于系统80k/s的请求量,是可以正常处理的。 在配置了接入层CGI的限速选项后,超出限速(8k/s)的超额请求会被CGI直接返回错误而不传递到后端处理;在配置了逻辑层SPP的超时丢弃后,在队列中堆积超过超时时间(500ms)的堆积请求会被框架丢弃而不进行实际处理。对于超出系统容量的请求,系统是可以成功丢弃的。
系统中的柔性/容灾措施,往往只有系统异常时才会生效,导致在实际现网服务运行中,柔性逻辑经常无法测试到,容灾措施一般也不会启用。这样,当运营环境真正异常时,柔性逻辑/容灾措施是否有效还是个未知数。
在红包正式上线前,通过模拟故障发生的真实异常场景,列出重点可能发生的故障问题,验证柔性逻辑和容灾错误是否真实有效。
经测试同学验证,checklist中的柔性逻辑和容灾措施确切有效,符合预期。