输错一个字母的代价,亚马逊云服务出现故障四小时

转自:netsmell.com

美国时间本周二,亚马逊 S3 存储服务出现故障。这导致包括美国证券交易委员会、苹果 iCloud、Soundcloud、Slack、芝加哥轨道交通系统 Metra 在内的多个网站和服务无法正常工作。此次服务故障持续时间接近 4 个小时。

今天亚马逊在其官方博客发文称,这次位于北弗吉尼亚州地区发生的服务中断,原因是人为操作失误。

当时,因为 S3 结算系统处理变慢了,亚马逊团队正在调试。一位得到授权的团队亚马逊员工,本来准备删除少量 S3 子系统来解决问题,结果输入命令时不小心打错一个字母,结果删除了一大批本不该删除的服务器。

被误删的服务器支持另外两个亚马逊 S3 服务重要的子系统,由于误删服务器数量太多,导致每个系统都需要完全重启。在子系统重启过程中,亚马逊 S3 无法处理服务请求。所以诸多使用 S3 的网站、应用出现故障。苹果 iCloud、Soundcloud、Slack 等使用亚马逊云服务的产品连不上了。

亚马逊花了近四个小时完成所有跟 S3 服务有关的重启、恢复工作。接着他们还对工作流程做了优化,程序员无法再通过预设工具快速执行删除命令,“在这次事件中,索引子系统的恢复时间超出我们预期。S3 团队原计划今年晚些时候对索引子系统进一步分区,我们正在重新调整工作优先级,马上开始进行分区。”亚马逊在博客中这样写道。

亚马逊 S3 全称 Amazon Simple Storage Service,是亚马逊云服务系统中提供在线存储、也就是“网盘”功能的服务。这项服务没有最低收费,每月按照实际使用情况和使用的不同 S3 存储段结算费用。亚马逊在 S3 介绍页面说该服务稳定、设计在线时间达到 99.999999999%。

但这次问题还是发生了,持续时间还不短。

之前 2015 年 9 月,亚马逊云服务也发生过大规模故障,也是 US-EAST-1 地区客户受到影响。包括 Netflix、Reddit、Tinder 以及亚马逊图书子站在内的多个网络服务无法工作。

This entry was posted in Review and tagged 亚马逊. Bookmark the permalink.

原文发布于微信公众号 - 顶级程序员(TopCoding)

原文发表时间:2017-03-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小白课代表

草图大师(SketchUp Pro)2017安装教程

2503
来自专栏杨建荣的学习笔记

自问自答的一些运维开发问题

CMDB完成了80%的基础开发工作,后续需要对元数据信息进行确认和完善,还有部分的接入。

1103
来自专栏技术翻译

数据映射工具

当您正在集成所有数据以存储在数据仓库中以进行最终用户分析时,必须映射数据。数据映射在一个信息源和另一个信息源之间进行转换,基本上将数据源字段与数据仓库中的目标字...

4885
来自专栏云计算D1net

微软:利用云服务让安卓iOS用上最新IE

北京时间11月4日消息,微软Windows 10开发者预览版已经发布,现在微软为了方便开发者使用Windows上的最新IE浏览器推出了一个工具,可以让安卓、Ma...

4426
来自专栏移动开发平台

移动开发平台的交流方式

移动开发平台目前主要以 QQ 群的形式为您解答日常问题,群内会不定期推送更新通知等各类信息。

4065
来自专栏phodal

在微信群讨论代码,你可能需要这个语法高亮的小程序 【代码协作】

1071
来自专栏无原型不设计

更巧妙的表单设计与登陆访问

以下内容由Mockplus团队翻译整理,仅供学习交流,Mockplus是更快更简单的原型设计工具 你觉得一个普通人每天会使用多少次登陆功能呢?数据显示至少1...

3174
来自专栏小白课代表

草图大师(SketchUp Pro)2016安装教程

2334
来自专栏韩伟的专栏

游戏服务器端有什么特别

在游戏服务器端开发所有要面对的问题中,有两个是最核心和最普遍的:一是和客户端的通讯;二是游戏登录用户的数据处理。

1.1K14
来自专栏企鹅号快讯

2018微服务狂热之死

微服务在过去几年成为一个非常受欢迎的话题。 “微服务狂热”就像这样: Netflix在devops上非常棒。 Netfix做微服务。 所以:如果我做微服务,我也...

2138

扫码关注云+社区

领取腾讯云代金券