作者简介:梁定安,腾讯织云负责人,腾讯运维技术总监,开放运维联盟委员,腾讯云布道师,腾讯学院DevOps讲师,EXIN DevOps Master讲师,凤凰项目沙盘教练,复旦大学客座讲师。
因LOL(英雄联盟)S7总决赛在线抢票玩家数量过多,硬是把独家线上售票机构的服务弄挂了,众多玩家表示很不开心。
官方也发文致歉广大的游戏玩家。
作为一名运维,看到这篇新闻时,我同感不开心。因为这个故障很有可能会导致某个运维小伙伴背黑锅,虽然我们都知道“冰封三尺非一日之寒”,酿成本次故障的原因绝不仅是运维岗的责任,但事与愿违的是,往往“受伤的”却总是运维岗。
Anyway,干得了这行我们就承受得住故障的暴击,但同时我们也要不断的用先进的理论知识来武装自己,提升运维团队的整体实力。让我们一起用DevOps视角来看下,故障发生后,我们如何能做到“引以为鉴,举一反三”制定有效的规避措施,保障类似的故障不再发生。
DevOps的文化精髓CALMS,可以为我们指引改进的方向。
首先,DevOps是一种新的思维模式,我们不能以老观点来评判这次抢票的故障。Blameless是一个很关键的词,DevOps提出对待故障的正确方法,是不要责怪,不要罚钱,而是应该让团队在故障中学习和提高。这是Sharing的目标:分享责任、分享经验、分享信息、分享成功与失败,践行持续改善。
DevOps除了告诉我们要blameless要sharing,还有丰富的技术实践供我们参考学习。从IT价值链流转图中,我们能找到可以改进的点。
站在产品岗的角度,反思这次故障,可以尝试以下优化:
站在开发团队的角度,在提升架构的性能吞吐的同时,可以站在运维的角度为架构增加些非功能性的特性。
站在测试团队的角度,在对业务逻辑验收完成的前提下,还要监督和保障所有非功能规范都能按要求实现。
终于轮到运维团队的改进措施,不仅是针对此次抢票故障,运维务必有一套规范流程对业务的运营活动进行质量保障。
综上对抢票故障的规避措施,要想整体提升企业IT能力,关靠个别团队的努力是不足够的,如DevOps方法论体系图描述的一样,我们需要结合精益、敏捷、持续交付、ITSM等理论和技术,为企业打造一个完整的DevOps文化与工具体系。
欢迎关注腾讯织云,获取最新技术资讯
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。