外因造成的灾难型Bug
步骤:
XX日中午,点击XXapp,进入以后,点击动态
结果:
没有展示并且无法发布
备注:
消息,帖子都存在异常
紧急操作:
1.业务降级,实施兜底策略;
2.联系机房,运维采取紧急方案(恢复冷备数据);
3.评论请求全部阻断,防止雪崩;
4.部分请求请求到空数据库,让其出错,防止雪崩;
5.请求小的接口挂入维护;
6.整体处理完,量慢慢正常,数据库等相关也恢复,逐步确认功能,以及后续对影响用户交易的进行安抚并补偿;
(测试人员了解下,补充知识,这次得给开发人员
)
原因:
HP部分硬盘超过32768小时会存储内容消失;部分硬盘变为0G
经典:
1.不经意的一个外因没有去关注,风险敏感度低,造成了灾难性问题;
2.平常的灾难演练跟兜底策略,起到的很好的效果,不怕一万就怕万一;
3.故障不仅来自软件,还来自于硬件;
4.难得一遇的Bug
预防:
1.日常优化,分为两部分,一、重构特定业务以优化性能及达到高可用性状态;二、解耦颗粒度不断细化;
2.超过故障标注及时通知;
3.备用机房相关功能的日常跟进迭代;
4.紧急操作流程文档透明化;
5.故障发生以后各团队成员配合要求;
6.故障演练;
如您有很多经典的Bug,欢迎联系我或者留言,让我们一起把收集的经典的Bug分享给大家,而不是压箱底,“金子”是要拿出来,才会看到它在发光~