亦庄一数据中心起火,突发状况下谁来为用户买单?

近日,一则“小道”消息引起了中国IDC圈记者的注意,有网友在朋友圈爆料某数据中心机房柴油机发生起火(小编表示内心异常惶恐)。

经过一番搜索,原来都是亦庄众多数据中心被限电“捣的鬼”,事件详情是这样的:因亦庄电力公司对泰和变电站、博兴变电站和科创街变电站进行改造,其中泰和变电站、博兴变电站改造期间为6月1日至15日,科创街变电站为6月15日至6月30日,共计30天时间。

值得注意的是,在进行改造期间,用电单位务必将平日用电负荷减少、限制25%。于是,部分数据中心开始使用柴油发电机进行带载,以保障数据中心的正常运行。

人云亦“云”的时代,数据中心作为重要基础设施发挥着必不可缺的重要作用,而随着数据中心建设规模的不断扩大,新技术的层出不穷,数据中心的运维难度也“更上一层楼”。尤其是当面临“突发事故”,更是考验一个数据中心运维团队的应急能力。虽然说数据中心运维已是老生常谈的话题,但实际上,在数据中心的整个生命周期里,运维占据了非常高的比例,且运维的质量和效率对数据中心的发展起着决定性作用。

据笔者了解,数据中心的日常业务运维主要包括:

1. 日常检查,即主要对数据中心的所有运行设备进行例行检查,包括服务器、业务运行、机房环境(温度、适度以及灰尘等)、空调和供电系统的运转情况、设备运行是否过热、地板、天窗、消防、监控等内容;

2. 应用变更。随着数据中心承载业务的不断发展,管理人员应根据应用的需要及时作出变更,进行调整;

3. 软硬件升级。进行软硬件升级时,需做好回退机制,以防升级出现问题时无法回退,业务长时间无法恢复;

4. 突发故障。对数据中心来说,要做到完全避免事故发生是0概率事件,而当遇上突发故障,运维人员需及时对故障原因作出准确判断并迅速找出解决方法。若短时间内找不到解决方法,应通过切换到备用设备上先恢复业务,再进行分析。

降低运行维护风险,专业技能之外还要有风控策略

运维工作对数据中心来说至关重要,关乎整个数据中心业务的正常运行。运维团队在具备一定的专业技能和应急能力的基础上,还需制定出相应的运行维护风险控制策略“以备不时之需”。

运行维护风险是指信息系统在运行与维护过程中操作管理、变更管理、机房管理和事件管理等环节产生的风险。运行人员应按操作规程巡检和操作,维护人员应按授权和维护规程要求对生产状态的软硬件、数据进行维护,除应急外,其他维护应在非工作时间进行。以下是对运行人员提出的几条建议:

(一)制定详细的运行值班操作表,包括规定巡检时间,操作范围、内容、办法、命令以及负责人员等信息;

(二)提供常见和简便的操作菜单或命令,如信息系统的启动或停止、运行日志的查询等;

(三)提供机房环境、设备使用、网络运行、系统运行等监控信息;

(四)记录运行值班过程中所有现象、操作过程等信息。

优质的数据中心运维管理系统能够协助企业整合优化企业信息资源和服务、提高生产率和竞争力,能为企业提供更有力的保障支持。总之一句话,做好运维很重要!

扫描上方二维码,快速关注我们

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180607A1SCOJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券