文档中心>混沌演练平台>产品简介>客户案例>阅文游戏:新游上线混沌演练实践

阅文游戏:新游上线混沌演练实践

最近更新时间:2024-06-05 17:43:41

我的收藏

案例背景

阅文集团是一家以数字阅读为基础,IP 培育与开发为核心的综合性文化产业集团。集团汇聚了强大的创作者阵营、丰富的作品储备,覆盖200多种内容品类,触达数亿用户,已成功输出《斗罗大陆》、《斗破苍穹》、《鬼吹灯》、《盗墓笔记》、《琅琊榜》、《庆余年》等网文 IP 改编的动漫、影视、游戏等多业态产品。 阅文游戏是阅文集团旗下负责游戏制作与发行的品牌。2024年4月,由阅文游戏制作并发行的《斗破苍穹:三年之约》在国内开服发行,项目规模较大,玩家范围较广。全游均部署在腾讯云国内服务上,鉴于境外版本的运营经验,业务高可用建设和混沌演练成为保障游戏顺利上线的重要任务。

新游上线的挑战

伴随着游戏行业的高速发展,业务架构复杂程度不停增长,对业务稳定性的要求变得更苛刻,这对云上 IaaS 和 PaaS 服务的产品能力是一个不小的挑战。腾讯云联合阅文游戏针对服务器宕机,数据库不可用和单可用区故障等常见故障场景,从搭建同城多活架构,业务链路压测到混沌容灾演练三个方面着手,对《斗破苍穹:三年之约》的平台服和游戏服的架构进行夯实加固。

新游架构高可用建设及混沌演练过程


image



业务架构高可用建设

游戏总体可分为平台服和游戏服,均采用同城双活方案,借助云产品的高可用能力,包括 CLB、MySQL、TKE、Redis 和 CKafka 等产品实例主备跨区部署,保障可用区级别故障下业务可自助逃生,以最快时间恢复对外服务能力。 在考虑游戏行业普遍存在的波峰波谷交替的这种波动性影响,特别是新开服大量玩家短时间内同时访问游戏这种场景下,对系统的弹性伸缩能力有极高的要求,腾讯云通过 TKE 容器产品的 HPA,超级节点等特性助力业务在高峰期快速完成资源扩容应对流量高峰。

混沌演练整体过程

确认演练目标

国内新游平台服和游戏服全链路均具备同城双活逃生能力,在模拟单实例及单可用区重大故障时,所有产品均具备分钟级自动告警能力,同时 IaaS 产品具备可根据预案人工介入快速恢复能力,PaaS 产品具备产品自动主备切换快速恢复能力,且恢复时长不超过15min。

制定演练计划

设计故障演练场景
在腾讯云售后技术专家的支持下,完成了业务架构的整体梳理,并按照所用云产品完成了故障注入场景。
image


明确演练角色分工 由阅文游戏侧运维主负责人确定参演业务名单及演练整体流程安排,腾讯云侧安排售后技术专家进行现场派驻提供技术支持。
制定应急预案 腾讯云售后技术专家根据演练项提供预期告警表现和预期演练结果,并和阅文游戏侧运维团队设计回切方案及紧急恢复方案。

实施演练过程

混沌演练涉及产品众多,包含 CVM、CLB、MySQL、Redis、TKE、CKafka 等,如果逐一进行故障编排工具开发,成本较高且效率较低。为此次演练腾讯云混沌团队提供基于混沌工程原理及腾讯云最佳实践的故障演练平台,内含丰富的故障动作库和典型的行业经验模板,提供高效的可视化演练和可靠的安全防护策略,并在结束演练后提供完备的演练报告。
创建演练任务
根据预先制定的演练方案,在腾讯云混沌演练平台上提前创建好演练任务,包括选取经验模板,编排动作组,选择演练实例对象,配置动作执行方式和监控指标。



执行故障注入
云顾问-混沌演练平台提供可视化视图,用户在演练过程中可以实时查看故障动作执行状态(成功/失败/执行中)和注入效果。
观测演练结果
通过提前配置的业务侧告警,腾讯云可观测平台的告警策略以及混沌演练平台执行记录可以及时观察到演练过程及结果是否符合预期以及故障注入后系统稳态指标的表现。 从观测结果可以看出混沌演练平台故障注入成功,目标实例均呈现出应有的表现,并能按照预期进行切换,完全模拟出了预期的故障场景。
业务侧告警:
image

混沌演练平台执行记录:

image


腾讯云可观测告警:
image



客户收益

通过游戏服+平台服的多次混沌演练,该款游戏高可用架构改造后的系统稳定性和可靠性得到了有效验证,达到了“全链路均具备同城双活逃生能力,所用云产品具备分钟级自动告警能力,恢复时长保持在15min内”的目标。 混沌演练过程中也发现了系统运维方面存在的问题,包括腾讯云可观测告警,系统单点问题和应急预案的不足,帮助阅文游戏侧规避了潜在的风险。同时通过多次跑完演练流程,从制定计划、准备环境、正式演练到复盘总结,大大地完善了混沌演练流程的规范性,提升整体运维效率。