如何防止数据中心中暑?

前言:

连雨不知春去,一晴方觉夏深。立夏之后,酷暑难耐就成了理所应当;持续高温高湿,间歇的雷雨台风,无一不彰显着大自然的桀骜不驯。如临大敌的数据中心从业者枕戈待旦,静候这场没有硝烟的数据中心暑期保卫战。本文即将为大家揭秘数据中心暑期保卫战作战兵法。

一、知己知彼,百战不殆

所谓知己知彼,是要对战场局势、敌我优劣了如指掌。对于数据中心经理(简称数经)而言,首先就是要编织一张高可靠的信息网。

1

天气预报

赤壁之战,诸葛军师夜观天象,巧借东风,一举挫败曹操八十万大军。虽然诸葛已逝,我辈无力窥天,但现代天气预报可谓数经的重要情报源。随着天气预报准确度的不断提升,未来15天的气象信息已经为数据中心运营保障提供了充足的备战时间。

2

供电情报

夏季通常也是电力系统开展大型维护的重要时间段,例如供电线路转供电检修,线路停电时间可能长达2天以上。如果此时出现雷雨、大风等极端情况,数据中心的运营压力将陡然增加。因此,供电情报的及时准确性非常重要。

3

市政供水

对于水冷系统数据中心,市政供水是不可或缺的重要资源,尤其在炎炎夏日,市政供水短缺将给数据中心运营带来致命的影响。因此,除了掌握蓄水池储水情况,还应该及时关注市政供水信息。

4

业务规划

暑期往往又是不可多得的互联网应用狂欢时段。毕业季的放荡不羁,欧洲杯的激动人心……这一切都预示着互联网业务的又一个高潮到来。在对业务支撑上,数据中心也将迎来更高的业务负载。

5

数据中心情况

当完成上述四项情报收集,距离“知彼”就相差不远了。而数据中心情况摸底则是我们掂量自身实力达到“知己”的必经之路。从基础设施运行维护、备品备件存储、应急预案及演练等多角度全方面的梳理与评估,才能做到胸有成竹。

二、凡事预则立,不预则废

对于数经而言,面对外界诸多不可控的影响因素,没有一套成熟的保障机制,将会面临接踵而至的挑战,甚至草木皆兵。那么如何才能做到以不变应万变呢?

1

例行维护

例行维护是对数据中心进行的系统性维护(或称维修保养)工作,确保数据中心各系统处于良好的运行状态,植根于每天的日常工作中,是必不可少的重要环节。例如:

系统

例行维护

配电系统

1.变压器及低配系统维护2.UPS及电池放电维护3.列头柜及PDU维护

柴发系统

1.柴发系统例行维护2.柴油补充及品质检查3.柴发系统空载、带载测试

空调系统

1.水冷系统维护(如通泡、管道维护等)2.室外风机维护3.末端精密空调维护

消防系统

消防系统例行维护

防雷系统

例行防雷检测及维护

监控系统

监控系统例行维护

2

高危设备巡检

在例行维护的同时,我们需要针对高危设备开展针对性的巡检工作。经过四年的配合,腾讯数据中心已经和运营商建立并完善了季度高危设备巡检机制。我们在开放包容中互通有无,为数据中心基础实施提供有力保障。四年以来,通过高危设备巡检,揪出多起高危风险隐患,且在各方的协调下第一时间予以处置,确保了数据中心运营安全。常见的高危风险如下:

系统

高危隐患

配电系统

1.母排高温2.低配系统或UPS三相负载不均衡3.列头柜端子连接异常发热

柴发系统

1.柴发启动电池端子锈蚀2.柴油品质差(含水、含渣较多)

空调系统

1.风冷机组冷媒不足,压缩机故障2.水冷机组阀门锈蚀

防雷系统

1.防雷器失效2.接地电阻过高

消防系统

气体钢瓶压力不足

除了针对基础设施设备的巡检内容,近年来我们也将巡检范围扩宽到数据中心安全领域,从物理安全、人身安全、信息安全三个纬度去综合评估。

3

备品备件储备

除了数据中心基础设施各大系统常用备件(详见《腾讯数据中心公众号文章“数据中心基础设施备品备件管理》)。我们隆重推荐几项杀手锏级别武器,可在千钧一发之际,助君力挽狂澜。

储备措施

说明

应与急冷源(干冰、冰砖)

与干冰厂或冰砖厂建立应急响应机制,在机房大面积制冷失效时采用。

移动柴发

在机房面临大面积电力中断时,用于核心业务应急供电。

市政应急供水

与市政环卫部门建立应急响应机制,在机房市政供水长时间中断时,通过大型洒水车应急供水。

4

应急预案与演练

为了提升数据中心运维人员的应急响应能力,应急预案的制定和演习是至关重要的。应急预案应覆盖数据中心常见应急场景,并且具有可操作性。常见的应急应预案包括:

数据中心系统

应急预案

配电系统

1.一路市电中断2.两路市电中断3.列头柜或PDU故障

柴发系统

市电中断,柴发启动失败

空调系统

1.水冷机组系统故障2.水冷系统管道爆管

消防系统

消防火警应急响应

其他

1.雷暴及暴雨天气应急响应2.洪水、泥石流灾害应急响应

应急预案的制定通常不是瓶颈,而应急演练能否以严肃的态度去开展往往决定了团队真实的响应能力。下面我们将为大家呈现一组腾讯某数据中心防洪应急响应演练的照片:在气温30℃情况下,应急抢险人员全副武装,严格按照应急预案开展演习;此次演习,汗流浃背的他们以一场教科书式的演练,展示了数据中心运维人员严谨而敬业态度。

5

应急响应团队

为确保应急响应有序开展,应该建立应急响应指挥团队,确保每一位应急人员各司其位。并在日常运维排班的同时,充分发挥备班人员的快速应急支撑能力,确保第一时间内具备充足的人力保障。

三、养兵千日,用兵一时

虽然,在规划设计阶段,从架构上保证了系统的冗余,如从不同的变电站引入主备市电线路等;在运营保障中,我们也按照上述既定的流程推进和实施。但是,极端天气等不稳定因素的影响依然不容小觑。

今年入夏以来,暴雨、雷暴天气显著增加。面对极端天气的影响,腾讯数据中心应对有序,顺利保障业务正常运行。6月4日,深圳出现严重雷暴天气,多地区出现市电异常情况。腾讯某数据中心两期共计4路高压市电(来自四个不同的变电站)均出现了闪断,数据中心运维团队迅速采取应急响应措施,采用柴发系统带载,蓄冷罐放冷等措施,顺利保障业务正常运行。

军人常说“首战用我,用我必胜”,其实这也是数据中心运维人员的内心写照,秣马厉兵,为的就是战胜那万分之一的可能。

当一场没有硝烟的保卫战悄然拉开帷幕,数据中心运维的战士们迎着号角前行。他们甚至来不及欣赏这片蓝天白云,然而他们的汗水必将凝聚成为互联网的云海。

暮鼓晨钟随风去,寒暑交替春又来。其实,对于数据中心运维团队而言,暑期保障仅仅是我们数据中心运维保障的一个缩影。

战斗,从未停止;运维,永不止步。

We Are Warriors.

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2016-06-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java一日一条

爱人啊,我想带你去世界的任何一个地方--java篇

我漫步在离家最近的交通工具大市场中。两旁,商行们令人眼花缭乱的光影广告卖力地宣传着各种奇异的载人工具。

12330
来自专栏腾讯防水墙

世界杯百亿盛宴暗潮涌动—到底是谁的足球狂欢?

世界杯燃情进行时,防水墙为你解读狂欢背后的暗潮究竟为何物?

7.8K50
来自专栏FreeBuf

军火库(第一期):无线电硬件安全大牛都用哪些利器?

1. 诺基亚N900手机 这个手机是我最喜欢的装备之一(当年我还是个穷屌丝时候我老婆送我的生日礼物),N900基于Linux衍生版本Maemo,拥有纯粹的Lin...

57070
来自专栏域名资讯

这枚三拼被榴莲卖了 众安科技收入囊中

真是令人十分佩服,榴莲卖米的消息真是接连不断!刚报道完榴莲售出yidalian.com三拼,他紧接着又在朋友圈爆料:又卖了一枚三拼连anlianyu...

21880
来自专栏*坤的Blog

分析 《7吨碳九泄漏,40万泉港人在无声中消逝》虚假报道

看到标题,你想到什么?肯定是7吨碳9导致40万人死亡。但事实却并非如此,报道是假的。

6810
来自专栏黑白安全

进行社会工程学攻击前,你要做的准备

如果发现对方用facebook,那么我们就赚大了,你能得到对方更多的信息,甚至能混进他的圈子里面。

12610
来自专栏Python与爬虫

每周分享第 2 期

配合 zsh 使用效果更好哦 在 .zshrc文件里面输入 function gi() { curl -L -s https://www.gitignore.i...

11820
来自专栏Spark学习技巧

40个只有程序员才看得懂的段子

1. 一程序员去面试,面试官问:“你毕业才两年,这三年工作经验是怎么来的?!”程序员答:“加班。” ? 2. 某程序员对书法十分感兴趣,退休后决定在这方面有所建...

36260
来自专栏顶级程序员

机械键盘,程序员的神器

正如男人对汽车,女人对指甲油的莫名热爱,机械键盘,是一个能够激发程序员肾上腺激素分泌的玩意儿。

65530
来自专栏VRPinea

9.26 VR扫描:三星Windows MR头显真机图疑曝光;苹果macOS High Sierra更新支持VR

361100

扫码关注云+社区

领取腾讯云代金券