首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >打破故障处理既定规则,将习惯变工具

打破故障处理既定规则,将习惯变工具

作者头像
腾讯大讲堂
发布2018-02-11 16:11:15
5090
发布2018-02-11 16:11:15
举报

QQ炫舞遭受网络攻击要较其他业务要高许多,同时其抗网络波动能力较弱,这会导致同一网络波动QQ炫舞会比其他游戏多掉线30%左右。

关于网络攻击类的故障,QQ炫舞与腾讯宙斯盾团队进行了深入的合作。高频率的调整防御策略,以防御各类型的攻击;黑洞设备的覆盖与扩容,极大的提升了防御范围与能力(超大流量)。保障了99%的攻击对业务无影响。

高频率的现网掉线导致运维每天都会接收到掉线告警,并需要上线去确认原因。这有损玩家体验、同时也增加了运维的工作量。因此运维侧开发了”掉线原因自动分析“app。在掉线告警产生的同时,通过固化的流程分析出原因,并及时周知;并生成掉线周报、月报,针对性的推动IDC改善网络环境,推动开发商优化网络模块。

通过此app及后续的项目,QQ炫舞的日掉线率下降了70%。

如下图是掉线故障处理新的思路,并已经通过工具实现自动化处理。

DNF的突发多为版本bug导致。

针对类似问题,我们除了要求开发商提升版本质量、加大测试力度之外,还需要对突发的前、中、后进行控制。接入腾讯铁算盘,对金币、关键道具进行监控,以便在问题变严重前及时发现并处理;突发发生中,我们需要及时评估,通过停服、关闭单个活动等手段控制影响,并协调干系同事实时验证并确定修复方案;突发后需要回顾过程,如优化监控策略,缩短DB回档时间,减少停服时长等。

下图为对游戏内金币、道具产出的监控:

为减少停服时间,运维侧制定了灵活(可以针对不同的大区或模块)的停服、起服作业(ijobs作业)

国内开发商在BUG类突发处理的配合度较高,会及时分享进度、原因、以及后续的规避方案;而韩国开发商在信息共享方面做得较少,只是单方面的进行bug修复,所以会出现一些重复的bug。因此运维需要与韩国开发商保持的良好沟通(最后一章节介绍了如何与开发商沟通)并建立信任关系,这样才能获得更多的信息,并获得更多的话语权。

由于韩国网络状况较好、外挂较少,所以开发商会把更多精力放在游戏的内容玩法上,高频率的版本更新节奏,会带来较多的游戏bug及安全漏洞,运维侧需要做好监控、提升操作效率、固化流程,以减少bug对游戏带来的影响。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大讲堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档