前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >输错一个字母的代价,亚马逊云服务出现故障四小时

输错一个字母的代价,亚马逊云服务出现故障四小时

作者头像
顶级程序员
发布2018-05-03 12:22:06
1.7K0
发布2018-05-03 12:22:06
举报
文章被收录于专栏:顶级程序员

转自:netsmell.com

美国时间本周二,亚马逊 S3 存储服务出现故障。这导致包括美国证券交易委员会、苹果 iCloud、Soundcloud、Slack、芝加哥轨道交通系统 Metra 在内的多个网站和服务无法正常工作。此次服务故障持续时间接近 4 个小时。

今天亚马逊在其官方博客发文称,这次位于北弗吉尼亚州地区发生的服务中断,原因是人为操作失误。

当时,因为 S3 结算系统处理变慢了,亚马逊团队正在调试。一位得到授权的团队亚马逊员工,本来准备删除少量 S3 子系统来解决问题,结果输入命令时不小心打错一个字母,结果删除了一大批本不该删除的服务器。

被误删的服务器支持另外两个亚马逊 S3 服务重要的子系统,由于误删服务器数量太多,导致每个系统都需要完全重启。在子系统重启过程中,亚马逊 S3 无法处理服务请求。所以诸多使用 S3 的网站、应用出现故障。苹果 iCloud、Soundcloud、Slack 等使用亚马逊云服务的产品连不上了。

亚马逊花了近四个小时完成所有跟 S3 服务有关的重启、恢复工作。接着他们还对工作流程做了优化,程序员无法再通过预设工具快速执行删除命令,“在这次事件中,索引子系统的恢复时间超出我们预期。S3 团队原计划今年晚些时候对索引子系统进一步分区,我们正在重新调整工作优先级,马上开始进行分区。”亚马逊在博客中这样写道。

亚马逊 S3 全称 Amazon Simple Storage Service,是亚马逊云服务系统中提供在线存储、也就是“网盘”功能的服务。这项服务没有最低收费,每月按照实际使用情况和使用的不同 S3 存储段结算费用。亚马逊在 S3 介绍页面说该服务稳定、设计在线时间达到 99.999999999%。

但这次问题还是发生了,持续时间还不短。

之前 2015 年 9 月,亚马逊云服务也发生过大规模故障,也是 US-EAST-1 地区客户受到影响。包括 Netflix、Reddit、Tinder 以及亚马逊图书子站在内的多个网络服务无法工作。

This entry was posted in Review and tagged 亚马逊. Bookmark the permalink.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 顶级程序员 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档