前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谈谈B站的SLB故障复盘

谈谈B站的SLB故障复盘

作者头像
扶墙老师
发布2022-09-23 18:42:55
4K1
发布2022-09-23 18:42:55
举报
文章被收录于专栏:扶墙集扶墙集

这是王福强的第177篇原创

首先要肯定,整篇文章挺好的,也挺详尽,但我总觉得最后的改进措施可能没那么到位。

其实没必要过多强调多活的问题,如果真的是接入层的问题,多少个活着的接入点都没用,不是吗?

至于消防演习,这个是没问题的,早训练,早准备嘛!

我倒是觉得,更应该重视的是研发流程管理,尤其是关键基础设施的测试与上线。

这次的SLB出问题,更多应该是新增根据权重做Load Balance的功能没有经过充分的测试,尤其是precheck。0和“0”这种情况,我觉得作为典型的边际条件,不应该测试不到啊…

所以,加强研发流程的管理,加强日常的Code Review,加强关键基础设施上线前的测试,可以极大降低SLB(以及其它关键基础设施)出这种问题的概率。

至于消防演习,相当于是有准备、有预谋的拉练队伍,但感觉B站这种,早就应该进入Chaos Engineering的行列了。从被动到主动, 以进攻做防御,这才是终极的稳定性测试 ^_-

所以,简单总结下,整个事情,我觉得更应该做的三件事的优先级和顺序应该是:

  1. 加强研发流程管理,尤其是关键基础中间件的新增、测试与上线;
  2. 消防演习,锻炼队伍应急响应能力;
  3. 多活,根据情况逐步推进;

以上。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-07-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 福强 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 TDMQ
消息队列 TDMQ (Tencent Distributed Message Queue)是腾讯基于 Apache Pulsar 自研的一个云原生消息中间件系列,其中包含兼容Pulsar、RabbitMQ、RocketMQ 等协议的消息队列子产品,得益于其底层计算与存储分离的架构,TDMQ 具备良好的弹性伸缩以及故障恢复能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档