前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >云端崩溃的严重后果(Internet)

云端崩溃的严重后果(Internet)

作者头像
谭雪儿
修改2020-12-18 12:55:52
1.4K0
修改2020-12-18 12:55:52
举报

服务中断检测网站Downdetector于11月19日报告称,许多网站和应用的主干亚马逊网络服务(AWS)互联网基础设施服务出现了问题。

Downdetector的历史数据显示,AWS在11月2日和11月16日也曾出现过问题。

“云端的崩溃是非常不寻常的,”当被问及11月19日的崩溃时,亚马逊网络服务的高级公关经理Kristin Brown告诉《电子商务时报》。

Brown表示:“亚马逊的服务运行状况控制面板显示一切运行正常,没有出现大规模的中断。我们有数百万客户,如果真的发生了服务中断,除了服务运行状况控制面板报告中断情况外,我们还会看到更多的报告。”

他补充道:“AWS全球基础设施依据地区和可用区域进行划分,以确保其可靠性。”

Brown说:“亚马逊经常在Downdetetor上出现误报,原因有很多。云基础架构,特别是AWS,内置了大量安全冗余。”

Downdetector为其数据准确性进行了辩护。

Downdetector母公司Ookla的营销和通信副总裁Adriane Blum向《电子商务时报》表示:“我们公司从多种渠道收集状态报告,包括Twitter,然后将报告上传至我们的网站和移动应用程序上。”

她解释道:“我们的系统能够实时验证和分析这些报告,使我们能尽早自动监测出宕机和服务中断的问题。我们并不存在误报的情况。”

随后,ZDNet报道,AWS在11月25日发生宕机,并导致了数千项在线服务中断。

云服务的重要性

市场情报公司Synery Research Group的首席分析师 John Dinsdale表示:"企业对于将工作负载迁移到公共云端的接受程度甚至比预期的要高,同时,托管软件应用程序在疫情期间尤其受到企业青睐。”

“大量混合云服务也有助于云服务被人更快接受,这些服务有助于为公共云的更多使用铺平道路。”

SRG 表示,由于疫情,企业在云服务方面的支出在今年第三季度增加了 15 亿美元,这也加快了从本地运营到基于云的服务的过渡。

基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS),这些服务都是以订阅方式提供的,其增长比预期高出约三个百分点。

以订阅方式在云端提供服务或平台的公司包括微软的Office 360和其他服务、客户关系管理(CRM)巨头Salesforce、谷歌以及亚马逊的AWS。

市场研究公司 IDG 在 6 月发布的 2020 年云计算调查报告中表示,在 550 多个被调查的组织中,81% 的组织已经在使用云基础架构或在云中拥有应用程序。

云服务包括公共云,如谷歌、亚马逊和微软提供的云服务,以及私有云,如 IBM 的云服务。还有混合云,这是两者的组合。

最近的中断事件

当用户无法访问云服务时,实际造成的损失有多少?

8月20日,当谷歌云服务全球性地中断数小时时,全球成千上万的用户失去了对Gmail、谷歌云端硬盘、谷歌文档、谷歌会议和谷歌电话的访问权限。

9月下旬,一次全球性的中断导致微软基于云的企业识别和访问管理服务Azure Active Directory(AD)瘫痪,而Azure Active Directory是其基于云的Office 365系统的核心。客户无法访问Teams、Microsoft 365和其他公司的在线服务。

11月25日,AWS宕机持续数小时,影响了Adobe Spark、Roku和Flickr等品牌,智能设备、加密货币门户、流媒体和播客服务等数千种在线服务。

私有云无可避免的遭遇了中断事件。

6月,IBM云遭遇了全球范围的中断。今年7月,网络基础设施和网站安全提供商Cloudflare的域名系统(DNS)服务的全球骨干网上的一个路由器配置错误,导致大部分地区互联网中断了约半个小时。

根据为企业提供 IT 运营分析 (ITOA) 解决方案的技术公司 Evolven 的说法,停机可能让仅依靠数据中心向客户提供 IT 和网络服务(如电子商务公司)的企业每分钟损失高达11,000 美元。企业、企业家和在工作中使用订阅服务的成本尚未计算。

Evolven 提出的计算因停机而造成的收入损失的公式如下:

(GR/TH) x I x H,

其中GR = 年总收入额,TH = 年总营业时间,I = 影响百分比,H = 中断的小时数。

艰巨的任务

Enderle集团负责人Rob Enderle对《电子商务时报》表示:“云服务的崩溃是无法避免的,因为这些系统在组件层面进行维护,而这几乎总是会受到攻击。”

例如,AWS 在11月20日的崩溃是因为 Amazon 为其 Kinesis 服务的前端群集增加了容量,而后端服务器因为技术原因,不能足够快地接受到这些变化。

Kinesis 支持流数据实时处理,并直接供 AWS 客户以及其他 AWS 服务使用。

不过,Enderle 指出:“崩溃是可以被缓解的,并内置冗余,因此用户很少看到它们。”

他补充道:“增加冗余、弹性和安全性是云提供商的一项持续性工作。但是,预算不是无限的,因此人们要理解和接受一些可能会发生的失败。只要崩溃持续时间足够短,它就是可以接受的。”

这就是风险管理,这一识别、评估和控制对组织资本和收益的威胁的过程所起到的作用。

这些威胁或风险可能包括财务的不确定性、需要承担的法律责任、战略的错误管理以及可能发生的事故和自然灾害。

Enderle表示:“崩溃永远不会消失。这些系统过于复杂,又是一个过于有吸引力的目标,很难做到完全消除风险。”

本文系外文翻译,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系外文翻译前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 云服务的重要性
  • 最近的中断事件
  • 艰巨的任务
相关产品与服务
访问管理
访问管理(Cloud Access Management,CAM)可以帮助您安全、便捷地管理对腾讯云服务和资源的访问。您可以使用CAM创建子用户、用户组和角色,并通过策略控制其访问范围。CAM支持用户和角色SSO能力,您可以根据具体管理场景针对性设置企业内用户和腾讯云的互通能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档