前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何防止数据中心中暑?

如何防止数据中心中暑?

作者头像
腾讯数据中心
发布2018-03-16 16:27:02
8770
发布2018-03-16 16:27:02
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

前言:

连雨不知春去,一晴方觉夏深。立夏之后,酷暑难耐就成了理所应当;持续高温高湿,间歇的雷雨台风,无一不彰显着大自然的桀骜不驯。如临大敌的数据中心从业者枕戈待旦,静候这场没有硝烟的数据中心暑期保卫战。本文即将为大家揭秘数据中心暑期保卫战作战兵法。

一、知己知彼,百战不殆

所谓知己知彼,是要对战场局势、敌我优劣了如指掌。对于数据中心经理(简称数经)而言,首先就是要编织一张高可靠的信息网。

1

天气预报

赤壁之战,诸葛军师夜观天象,巧借东风,一举挫败曹操八十万大军。虽然诸葛已逝,我辈无力窥天,但现代天气预报可谓数经的重要情报源。随着天气预报准确度的不断提升,未来15天的气象信息已经为数据中心运营保障提供了充足的备战时间。

2

供电情报

夏季通常也是电力系统开展大型维护的重要时间段,例如供电线路转供电检修,线路停电时间可能长达2天以上。如果此时出现雷雨、大风等极端情况,数据中心的运营压力将陡然增加。因此,供电情报的及时准确性非常重要。

3

市政供水

对于水冷系统数据中心,市政供水是不可或缺的重要资源,尤其在炎炎夏日,市政供水短缺将给数据中心运营带来致命的影响。因此,除了掌握蓄水池储水情况,还应该及时关注市政供水信息。

4

业务规划

暑期往往又是不可多得的互联网应用狂欢时段。毕业季的放荡不羁,欧洲杯的激动人心……这一切都预示着互联网业务的又一个高潮到来。在对业务支撑上,数据中心也将迎来更高的业务负载。

5

数据中心情况

当完成上述四项情报收集,距离“知彼”就相差不远了。而数据中心情况摸底则是我们掂量自身实力达到“知己”的必经之路。从基础设施运行维护、备品备件存储、应急预案及演练等多角度全方面的梳理与评估,才能做到胸有成竹。

二、凡事预则立,不预则废

对于数经而言,面对外界诸多不可控的影响因素,没有一套成熟的保障机制,将会面临接踵而至的挑战,甚至草木皆兵。那么如何才能做到以不变应万变呢?

1

例行维护

例行维护是对数据中心进行的系统性维护(或称维修保养)工作,确保数据中心各系统处于良好的运行状态,植根于每天的日常工作中,是必不可少的重要环节。例如:

系统

例行维护

配电系统

1.变压器及低配系统维护2.UPS及电池放电维护3.列头柜及PDU维护

柴发系统

1.柴发系统例行维护2.柴油补充及品质检查3.柴发系统空载、带载测试

空调系统

1.水冷系统维护(如通泡、管道维护等)2.室外风机维护3.末端精密空调维护

消防系统

消防系统例行维护

防雷系统

例行防雷检测及维护

监控系统

监控系统例行维护

2

高危设备巡检

在例行维护的同时,我们需要针对高危设备开展针对性的巡检工作。经过四年的配合,腾讯数据中心已经和运营商建立并完善了季度高危设备巡检机制。我们在开放包容中互通有无,为数据中心基础实施提供有力保障。四年以来,通过高危设备巡检,揪出多起高危风险隐患,且在各方的协调下第一时间予以处置,确保了数据中心运营安全。常见的高危风险如下:

系统

高危隐患

配电系统

1.母排高温2.低配系统或UPS三相负载不均衡3.列头柜端子连接异常发热

柴发系统

1.柴发启动电池端子锈蚀2.柴油品质差(含水、含渣较多)

空调系统

1.风冷机组冷媒不足,压缩机故障2.水冷机组阀门锈蚀

防雷系统

1.防雷器失效2.接地电阻过高

消防系统

气体钢瓶压力不足

除了针对基础设施设备的巡检内容,近年来我们也将巡检范围扩宽到数据中心安全领域,从物理安全、人身安全、信息安全三个纬度去综合评估。

3

备品备件储备

除了数据中心基础设施各大系统常用备件(详见《腾讯数据中心公众号文章“数据中心基础设施备品备件管理》)。我们隆重推荐几项杀手锏级别武器,可在千钧一发之际,助君力挽狂澜。

储备措施

说明

应与急冷源(干冰、冰砖)

与干冰厂或冰砖厂建立应急响应机制,在机房大面积制冷失效时采用。

移动柴发

在机房面临大面积电力中断时,用于核心业务应急供电。

市政应急供水

与市政环卫部门建立应急响应机制,在机房市政供水长时间中断时,通过大型洒水车应急供水。

4

应急预案与演练

为了提升数据中心运维人员的应急响应能力,应急预案的制定和演习是至关重要的。应急预案应覆盖数据中心常见应急场景,并且具有可操作性。常见的应急应预案包括:

数据中心系统

应急预案

配电系统

1.一路市电中断2.两路市电中断3.列头柜或PDU故障

柴发系统

市电中断,柴发启动失败

空调系统

1.水冷机组系统故障2.水冷系统管道爆管

消防系统

消防火警应急响应

其他

1.雷暴及暴雨天气应急响应2.洪水、泥石流灾害应急响应

应急预案的制定通常不是瓶颈,而应急演练能否以严肃的态度去开展往往决定了团队真实的响应能力。下面我们将为大家呈现一组腾讯某数据中心防洪应急响应演练的照片:在气温30℃情况下,应急抢险人员全副武装,严格按照应急预案开展演习;此次演习,汗流浃背的他们以一场教科书式的演练,展示了数据中心运维人员严谨而敬业态度。

5

应急响应团队

为确保应急响应有序开展,应该建立应急响应指挥团队,确保每一位应急人员各司其位。并在日常运维排班的同时,充分发挥备班人员的快速应急支撑能力,确保第一时间内具备充足的人力保障。

三、养兵千日,用兵一时

虽然,在规划设计阶段,从架构上保证了系统的冗余,如从不同的变电站引入主备市电线路等;在运营保障中,我们也按照上述既定的流程推进和实施。但是,极端天气等不稳定因素的影响依然不容小觑。

今年入夏以来,暴雨、雷暴天气显著增加。面对极端天气的影响,腾讯数据中心应对有序,顺利保障业务正常运行。6月4日,深圳出现严重雷暴天气,多地区出现市电异常情况。腾讯某数据中心两期共计4路高压市电(来自四个不同的变电站)均出现了闪断,数据中心运维团队迅速采取应急响应措施,采用柴发系统带载,蓄冷罐放冷等措施,顺利保障业务正常运行。

军人常说“首战用我,用我必胜”,其实这也是数据中心运维人员的内心写照,秣马厉兵,为的就是战胜那万分之一的可能。

当一场没有硝烟的保卫战悄然拉开帷幕,数据中心运维的战士们迎着号角前行。他们甚至来不及欣赏这片蓝天白云,然而他们的汗水必将凝聚成为互联网的云海。

暮鼓晨钟随风去,寒暑交替春又来。其实,对于数据中心运维团队而言,暑期保障仅仅是我们数据中心运维保障的一个缩影。

战斗,从未停止;运维,永不止步。

We Are Warriors.

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档