这是王福强的第177篇原创
首先要肯定,整篇文章挺好的,也挺详尽,但我总觉得最后的改进措施可能没那么到位。
其实没必要过多强调多活的问题,如果真的是接入层的问题,多少个活着的接入点都没用,不是吗?
至于消防演习,这个是没问题的,早训练,早准备嘛!
我倒是觉得,更应该重视的是研发流程管理,尤其是关键基础设施的测试与上线。
这次的SLB出问题,更多应该是新增根据权重做Load Balance的功能没有经过充分的测试,尤其是precheck。0和“0”这种情况,我觉得作为典型的边际条件,不应该测试不到啊…
所以,加强研发流程的管理,加强日常的Code Review,加强关键基础设施上线前的测试,可以极大降低SLB(以及其它关键基础设施)出这种问题的概率。
至于消防演习,相当于是有准备、有预谋的拉练队伍,但感觉B站这种,早就应该进入Chaos Engineering的行列了。从被动到主动, 以进攻做防御,这才是终极的稳定性测试 ^_-
所以,简单总结下,整个事情,我觉得更应该做的三件事的优先级和顺序应该是:
以上。