前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯云4.8号重大故障复盘,核心原因是没有做好灰度测试

腾讯云4.8号重大故障复盘,核心原因是没有做好灰度测试

作者头像
用户1278550
发布2024-04-17 19:18:55
2040
发布2024-04-17 19:18:55
举报
文章被收录于专栏:idbaidba

2024.4.8号,腾讯云发生重大故障,控制台完全不可用,腾讯云是中国TOP公有云平台,在全网引起了极大的舆论。对腾讯云服务口碑造成了巨大的负面影响。

腾讯云4.14号发布了故障细节复盘,本文是腾讯云故障复盘总结:

故障发生情况

  • 时间:2024年4月8日15点23分。
  • 初步发现:腾讯云团队通过告警系统监测到云API服务异常,并迅速收到大量客户反馈无法登录腾讯云控制台。
  • 影响范围:云API异常导致部分公有云服务无法使用,如云函数、文字识别、微服务平台等。
  • 持续时间:故障持续了约87分钟。
  • 客户影响:腾讯云全网控制台不可用,共有1957个客户报障。

故障影响分析

  • 数据面与控制面:数据面承载客户业务,控制面负责操作云产品。本次故障主要影响了控制面。
  • 类比说明:将云服务比作酒店,控制台相当于酒店前台,而IaaS资源则相当于已入住的客房,故障发生时,客房(已部署的业务)不受影响。
  • 流量趋势:除了API服务类产品受到影响外,全产品进出流量趋势没有明显变化。

问题复盘

  1. 故障发现与初步响应(15:23 - 15:47):监测到故障后,团队立即执行服务恢复并排查原因。
  2. 问题定位与修复方案设计(15:57 - 16:25):确定故障根因是配置数据错误,并设计数据修复方案。
  3. 地域恢复与流量调度(16:25 - 16:50):上海地域API服务恢复,控制台流量剧增并扩容。
  4. 业务稳定与持续观察(16:50 - 17:45):业务稳定运行,控制台服务全部恢复,持续观察确认问题解决。

故障原因

  • 版本兼容性与灰度机制:新版本API接口协议变化导致旧版本数据处理异常,灰度机制不足导致异常数据快速扩散。

改进措施

  1. 提升系统韧性:执行变更策略演练,优化服务部署架构,提供API服务逃生通道。
  2. 强化变更管理与保护措施:完善自动化测试用例库,实施灰度发布策略,引入异常自动熔断机制。
  3. 增强故障响应与沟通能力:升级故障处理流程,清晰阐述故障信息,优化腾讯云健康状态看板。

通过这次故障复盘,腾讯云团队提出了具体的改进措施,旨在减少未来故障的影响范围和时长,提升服务质量和客户体验。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 yangyidba 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 故障发生情况
  • 故障影响分析
  • 问题复盘
  • 故障原因
  • 改进措施
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档