服务中断检测网站Downdetector于11月19日报告称,许多网站和应用的主干亚马逊网络服务(AWS)互联网基础设施服务出现了问题。
Downdetector的历史数据显示,AWS在11月2日和11月16日也曾出现过问题。
“云端的崩溃是非常不寻常的,”当被问及11月19日的崩溃时,亚马逊网络服务的高级公关经理Kristin Brown告诉《电子商务时报》。
Brown表示:“亚马逊的服务运行状况控制面板显示一切运行正常,没有出现大规模的中断。我们有数百万客户,如果真的发生了服务中断,除了服务运行状况控制面板报告中断情况外,我们还会看到更多的报告。”
他补充道:“AWS全球基础设施依据地区和可用区域进行划分,以确保其可靠性。”
Brown说:“亚马逊经常在Downdetetor上出现误报,原因有很多。云基础架构,特别是AWS,内置了大量安全冗余。”
Downdetector为其数据准确性进行了辩护。
Downdetector母公司Ookla的营销和通信副总裁Adriane Blum向《电子商务时报》表示:“我们公司从多种渠道收集状态报告,包括Twitter,然后将报告上传至我们的网站和移动应用程序上。”
她解释道:“我们的系统能够实时验证和分析这些报告,使我们能尽早自动监测出宕机和服务中断的问题。我们并不存在误报的情况。”
随后,ZDNet报道,AWS在11月25日发生宕机,并导致了数千项在线服务中断。
市场情报公司Synery Research Group的首席分析师 John Dinsdale表示:"企业对于将工作负载迁移到公共云端的接受程度甚至比预期的要高,同时,托管软件应用程序在疫情期间尤其受到企业青睐。”
“大量混合云服务也有助于云服务被人更快接受,这些服务有助于为公共云的更多使用铺平道路。”
SRG 表示,由于疫情,企业在云服务方面的支出在今年第三季度增加了 15 亿美元,这也加快了从本地运营到基于云的服务的过渡。
基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS),这些服务都是以订阅方式提供的,其增长比预期高出约三个百分点。
以订阅方式在云端提供服务或平台的公司包括微软的Office 360和其他服务、客户关系管理(CRM)巨头Salesforce、谷歌以及亚马逊的AWS。
市场研究公司 IDG 在 6 月发布的 2020 年云计算调查报告中表示,在 550 多个被调查的组织中,81% 的组织已经在使用云基础架构或在云中拥有应用程序。
云服务包括公共云,如谷歌、亚马逊和微软提供的云服务,以及私有云,如 IBM 的云服务。还有混合云,这是两者的组合。
当用户无法访问云服务时,实际造成的损失有多少?
8月20日,当谷歌云服务全球性地中断数小时时,全球成千上万的用户失去了对Gmail、谷歌云端硬盘、谷歌文档、谷歌会议和谷歌电话的访问权限。
9月下旬,一次全球性的中断导致微软基于云的企业识别和访问管理服务Azure Active Directory(AD)瘫痪,而Azure Active Directory是其基于云的Office 365系统的核心。客户无法访问Teams、Microsoft 365和其他公司的在线服务。
11月25日,AWS宕机持续数小时,影响了Adobe Spark、Roku和Flickr等品牌,智能设备、加密货币门户、流媒体和播客服务等数千种在线服务。
私有云无可避免的遭遇了中断事件。
6月,IBM云遭遇了全球范围的中断。今年7月,网络基础设施和网站安全提供商Cloudflare的域名系统(DNS)服务的全球骨干网上的一个路由器配置错误,导致大部分地区互联网中断了约半个小时。
根据为企业提供 IT 运营分析 (ITOA) 解决方案的技术公司 Evolven 的说法,停机可能让仅依靠数据中心向客户提供 IT 和网络服务(如电子商务公司)的企业每分钟损失高达11,000 美元。企业、企业家和在工作中使用订阅服务的成本尚未计算。
Evolven 提出的计算因停机而造成的收入损失的公式如下:
(GR/TH) x I x H,
其中GR = 年总收入额,TH = 年总营业时间,I = 影响百分比,H = 中断的小时数。
Enderle集团负责人Rob Enderle对《电子商务时报》表示:“云服务的崩溃是无法避免的,因为这些系统在组件层面进行维护,而这几乎总是会受到攻击。”
例如,AWS 在11月20日的崩溃是因为 Amazon 为其 Kinesis 服务的前端群集增加了容量,而后端服务器因为技术原因,不能足够快地接受到这些变化。
Kinesis 支持流数据实时处理,并直接供 AWS 客户以及其他 AWS 服务使用。
不过,Enderle 指出:“崩溃是可以被缓解的,并内置冗余,因此用户很少看到它们。”
他补充道:“增加冗余、弹性和安全性是云提供商的一项持续性工作。但是,预算不是无限的,因此人们要理解和接受一些可能会发生的失败。只要崩溃持续时间足够短,它就是可以接受的。”
这就是风险管理,这一识别、评估和控制对组织资本和收益的威胁的过程所起到的作用。
这些威胁或风险可能包括财务的不确定性、需要承担的法律责任、战略的错误管理以及可能发生的事故和自然灾害。
Enderle表示:“崩溃永远不会消失。这些系统过于复杂,又是一个过于有吸引力的目标,很难做到完全消除风险。”
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。