首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

腾讯云服务器凌晨故障

腾讯云服务器在2024年4月8日凌晨发生了一次故障,影响了部分云服务的正常运行,具体表现为用户无法登录控制台及部分公有云服务无法使用。以下是关于该故障的详细情况:

故障发生时间

  • 发生时间:2024年4月8日15点23分。

故障影响范围

  • 控制台登录问题:客户无法通过Web界面对服务器或其他产品进行操作。
  • 公有云服务影响:依赖云API的部分服务,如云函数、文字识别、微服务平台等无法使用,共1957个客户报障。

故障原因

故障的直接原因是云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足,导致生成了一条错误的配置数据,由于灰度机制不足导致异常数据快速扩散到了全网地域,造成整体API使用异常。此外,还存在API套娃循环依赖问题,导致服务无法自动拉起。

故障处理过程

  • 监测到故障后立即执行服务恢复,同时进行原因排查。
  • 通过回滚版本没能完全恢复服务,进一步定位问题。
  • 定位出故障根因是配置数据出现错误,紧急设计数据修复方案。
  • 对全地域进行数据修复工作,API服务逐地域恢复中。
  • 通过流量调度至其他地域来恢复上海地域的服务。
  • 控制台流量剧增,按九倍容量进行了扩容。
  • 请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复。

改进措施

  • 提升系统韧性:定期执行预定的变更策略模拟演练。
  • 优化服务部署架构:通过分层架构、代码审查和监控等手段。
  • 提供API服务逃生通道:当故障发生后可以提供调用方法快速切换。
  • 状态页面透明度:解除对云API等云服务的依赖,确保状态页依然能准确及时传递故障信息。
页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

没有搜到相关的文章

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券