九大曾轰动一时的云计算故障事件

对一些人来说,本文列举的云计算故障可能仅仅表明了云服务提供商在哪些方面需要加强或改进,以便更好地服务于客户。对另一些人来说,这几个例子可能更事关个人,因为你的数据或应用程序说不定实实在在地受到了影响。

我们大多数人想必已听说过至少一起引人注目的云计算故障,有些人甚至受到某起云故障事件的直接影响。虽说云技术和安全机制在不断成熟,但是它们跟内部基础设施一样仍饱受同样几种问题的影响。不过主要的区别在于,云故障影响的用户数量要比内部问题多得多,因而一旦出现了问题,就会更加备受瞩目。

困扰云服务提供商的故障往往可以分为下面三大类:

1.服务提供商方面所犯的“新手常犯的错误”。如果提供商一开始或发展的步伐是其数据中心人员无法妥善管理的,就会出现这种情况。每家公司以难以置信的速度迅猛发展时,云计算巨头(包括亚马逊网络服务和谷歌计算)常常在早期就饱受停运事件的困扰。连比其他厂商晚进入云市场的微软也很早遇到了停运问题,而且常常遇到。

2.黑客最终暴露的安全漏洞。由于相比专用的数据中心,云的规模很庞大,它们也就成了极容易吸引黑客的重大目标。云公司在屡次泄露客户数据的一系列错误中汲取了这个教训。安全泄密事件是云计算客户最担心的一大问题;许多企业组织小心翼翼,不敢将保护数据的重任交给第三方服务提供商。

3.云里面的糟糕流程。安全审计不够到位,备份程序差强人意,管理员对服务器拥有不太适当的访问权,诸如此类的流程都是程序上的问题,它们原本可以规避。遗憾的是,这些非技术性问题通常被人忽视,等到注意时已为时太晚。

对一些人来说,本文列举的云计算故障可能仅仅表明了云服务提供商在哪些方面需要加强或改进,以便更好地服务于客户。对另一些人来说,这几个例子可能更事关个人,因为你的数据或应用程序产不定实实在在地受到了影响。不管怎样,我们乐意听到你觉得哪些云故障是最引人注目,原因何在。欢迎留言交流。

AWS停运事件殃及Netflix

Netflix是最早使用亚马逊AWS云服务的大公司之一。从许多方面来看,Netflix/AWS这对关系再理想不过了:一方面,Netflix的媒体流服务其发展速度实在太快了,该公司内部的IT资源满足不了要求;另一方面,零售业巨擘亚马逊站在云计算潮流的最前沿,早就准备凭借新的创业公司(AWS)引起轰动。遗憾的是,发生在圣诞节前夕的Netflix停运事件受到了广泛抨击,而且影响了众多人,以至于这一起事件就恐怕让整个企业云潮流后退了好几步。

Dropbox任由大门敞开着

Dropbox允许任何人都可以访问客户数据,只要输入某个客户的电子邮件地址。根本不需要什么密码。这个严重的安全错误是由代码更新中的一个软件错误引起的,并不是仅仅持续了几分钟,而是持续了将近四个小时,之后才有所发觉,并堵住了漏洞。

CloudFlare导致785000个网站瘫痪

一些云服务提供商提供软件即服务(SaaS)工具,这类工具旨在为客户的网上业务确保安全,并改善网站的正常运行时间。有时候就是这样,理应有助于改善正常运行时间的SaaS云恰恰起到了适得其反的效果。CloudFlare的所有边缘路由器同时更新后,就出现了这种情况,同时更新边缘路由器导致它们都崩溃。结果,大约785000个客户网站大概有一个小时没法正常使用。

苹果的iCloud遭遇名人照片泄露

云数据泄密事件影响普通人、或者甚至影响公司时,这样的新闻很少引起主流媒体的注意。但是这种数据泄密事件影响名人时,一时间就成了路人皆知的新闻。名人照片因苹果的iCloud平台里面的一个漏洞而被盗时,在媒体上传得沸沸扬扬。有时候,只有深陷轰动一时的重大事件,服务提供商才会引起注意,解决错误。

Office 365搞垮企业电子邮件

有两类与IT有关的事件可能会让公司完全陷入停顿。一类事件就是互联网完全停运,另一类事件就是公司电子邮件停运。自微软首次发布Office 365云平台这项服务以来,好几次导致了公司电子邮件系统停运。情况实在糟透了,以至于一个流传甚广的笑话是,这项服务应该叫Office 360才对,因为它在一年当中有五天是没法使用的。

微软没有汲取亚马逊和谷歌的前车之鉴

在亚马逊推出其云服务整整过去四年后,微软才挟Azure进入了市场。考虑到微软有大把的时间来思考,并且汲取市场开拓者亚马逊和谷歌犯下的错误,你会想谷歌多少总会汲取前车之鉴,避免云服务停运事件。遗憾的是,微软似乎想从自己犯下的错误中汲取教训,很早就遭遇一些重大的、原本可以避免的停运事件。

一名管理员就足以搞垮云

如果你想到大规模服务提供商,那么Joyent无疑是最大的服务提供商之一。正由于如此,你可能会想:在诸如此类的大型数据中心,政策、程序和访问控制应该固若金汤、稳若磐石。然而再一次,我们都是人,是人都会犯错。2014年持续了大概一个小时的停运事件的根源很快就传了开来。据称,Joyent的一名系统管理员难逃干系,他同时重启了数据中心中的每一个服务器实例。真是要命!

LastPass的密码落到黑客手里

哦,说来也真是具有讽刺意味。全球各地的企业管理员使用LastPass来管理和保护其基础设施上的密码,LastPass公司专业提供基于云的单次登录和密码管理工具。6月份,LastPass首席执行官Joe Siegrist在一篇博文中承认,一起网络攻击事件导致有人盗走了客户的电子邮件地址和密码提醒内容。虽然密码经过了加密,也没有任何证据表明客户数据遭到泄密,不过LastPass还是要求所有客户在下一次登录时更改主密码。

虽说云技术和安全机制在不断成熟,但是它们跟内部基础设施一样仍饱受同样几种问题的影响。不过主要的区别在于,云故障影响的用户数量要比内部问题多得多,因而一旦出现了问题,就会更加备受瞩目。

Healthcare.gov:应该怪罪云吗?

可能过去几年最广为报道的一起技术故障就是美国Healthcare.gov网站的推出。一开始,这个网站就存在大量的技术故障和重大的安全漏洞。虽然不能将遇到的所有问题统统怪罪云,但是韦里逊的Terremark云发生的停运事件无疑一开始就是个影响因素。

结束语

与所有的技术进步一样,IT架构方面的重大变化一路上会遇到障碍。虽然本文介绍的许多停运事件原本可以避免,但是它们其实在意料之中。随着时间的流逝,自动化和安全方面的进步将有助于减少这几种类型的引人注目的云故障。为了我们自身的安全,但愿如此。

原文发布于微信公众号 - 云计算D1net(D1Net02)

原文发表时间:2015-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

老码农拍着脑袋总结的法子

1.扎实的基础。数据结构、离散数学、编译原理,这些是所有计算机科学的基础,如果不掌握他们,很难写出高水平的程序。据我的观察,学计算机专业的人比学其他专业的人更能...

38015
来自专栏互联网数据官iCDO

【工具介绍】海外经典用户行为数据分析工具——ClickTale

主编前言: ClickTale是一个具有多年历史的“创新型”工具。用于帮助人们追踪数字世界的用户行为,促进用户体验的优化。 这一工具功能如何,优缺点何在,是否值...

7407
来自专栏罗超频道

今天不矫情,明天成贱人

首先表明立场:不软,不跟风。笔者想写隐私源于Facebook发布GraphSearch,现在跟各位分享这段时间的想法。今天虎嗅的一篇文章《贱人就是矫情——当打假...

2808
来自专栏老九学堂

烫烫烫烫烫到底什么意思,拔插头不对吗?

1573
来自专栏阮一峰的网络日志

再谈Android的许可证

1. 两周前,我写了一篇《Android,开源还是封闭?》。 其中有一些内容,我今天要做修正,还想谈一些别的感想。 2. 在谈具体的修正之前,我先来说说,那篇文...

4716
来自专栏小程序

App行业发展趋势如何?小程序是否正在“控制”我们的生活?

正如张小龙所言,小程序要成为一种新的形状。尽管他也不确定究竟应该是什么样,只能探索。不过从小程序近期的更新以及实践案例,它的价值越来越大了。

1152
来自专栏极乐技术社区

小程序一周报 | 第三方小游戏可正式发布 / 跳一跳小游戏皮肤上线

1352
来自专栏CSDN技术头条

大神自动化抓取400亿条秀恩爱和吐槽

能利用爬虫技术做到哪些很酷很有趣很有用的事情? 2011 年夏天我在 Google 实习的时候做了一些 Twitter 数据相关的开发,之后我看到了一篇关于利用...

2536
来自专栏IT派

帮程序员减压放松的 10 个良心网站

IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 同学们工作之余,不妨放下微博跟朋友圈,来这10个网站感受一下看着就醉了的情境:「念完往上一...

3815
来自专栏一个会写诗的程序员的博客

Eric S. Raymond:如何成为一名黑客如何成为一名黑客How To Become A Hacker

http://www.0x08.org/docs/hacker-howto.html#hacker-howto

5032

扫码关注云+社区

领取腾讯云代金券