一声巨雷!宕机数小时!微软数据中心瘫痪了!

本周二,微软Azure公有云服务在美国陷入了瘫痪,该公司称这一情况的源头是由“恶劣的天气”造成的。

根据微软的说法,该公司位于德克萨斯州的美国中南部数据中心受到了雷电风暴的影响,导致其冷却系统出现故障,迫使他们关闭了许多服务器和系统,以防止遭受进一步损坏。

“位于美国中南部的一个数据中心遭遇了一场恶劣的天气,其中还有雷电袭击,”该公司在Azure Status页面的一份声明中表示。“这导致电源电压升高,影响了冷却系统。为了确保数据和硬件的完整,自动化的数据中心程序自动生效,让重要的硬件设备进入了结构化的断电过程。”

冷却系统是现代数据中心的重要组成部分,因为必须要消除由数千个紧密堆叠在一起的服务器产生的高温。如果它出现问题,很简单,一切都将“融化”。因此,像微软这样的公司已经制定了相关程序,如果温度超过一定的水平,便会自动关闭其数据中心机器。对微软来说,这是该公司数据中心投资的重要保障,但对其云客户来说却存在很大的不便。

微软表示,这次宕机影响到了很多Azure云服务,包括Visual Studio Teams服务以及其他离线服务,比如Azure Active Directory的身份管理服务以及基于云的Office 365。对此,Visual Studio Team Services团队补充说:“由于某些内部基础设施的依赖性,美国中南部地区以外的客户也可能会因CI/CD工作流程、仪表板而受到影响。”专家们则表示,这一事件提醒了那些使用云服务的企业,只有傻瓜才会在云中运行关键的工作负载时依赖于一个单一的供应商。

比如,Mimecast公司的网络恢复专家Pete Banham表示:“今天Azure发生的事件再次明确提醒人们,企业需要有自己的备份,而不能依靠单一的供应商。”Constellation Research的首席分析师兼副总裁Holger Mueller称,此事件对微软来说也是一个重要的教训,因为它希望未来避免此类事件的发生。

“这次事件很好地提醒了人们,即使对于微软这样规模的IaaS供应商来说,要保持数据中心正常运行是多么困难,”Mueller说道。“闪电、洪水、风,雪、雨等天气都会影响数据中心的可用性。所以关键问题是,微软从中学到了什么?它如何避免类似的宕机事件?这对公司来说是一个重要的教训,因为它希望加强其云基础设施。“

随后,微软更新表示,正在努力让后所有受影响的服务重新上线,尽管微软表示正在努力让所有受影响的服务重新上线,尽管在撰写本文时这项工作显然仍在进行中。

其官方声明显示,“工程师们已成功恢复了数据中心的电力供应。此外,也恢复了大部分受影响的网络设备,虽然一些服务可以开始正常运行,但缓解措施仍在继续进行中。”

实际上,这并不是微软云服务第一次出现故障。早在2013年就曾因为温度过高宕机16小时,而去年也曾因为灭火事件导致服务不可用。

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180905B1Z9XH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券