专栏首页腾讯数据中心天津数据中心群英传——之呼风唤水篇(中)

天津数据中心群英传——之呼风唤水篇(中)

励炼之路:

空调系统的各位“大侠”桃园结义后,要想实现功成名就,长治久安,这可不是一件容易的事,一番苦心修炼,那是在所难免。

励炼一:机房温度恒定是如何炼成的?

1.1: “节能”的温度:

各位“机友”都关心服务器所处的机房环境温度是否正常?服务器运行温度是否恒定?是否有过热点存在?湿度是否合适等等。

说到“温度”,大家日常生活中都有听说:温度越低,空调越费电;适当提高温度,空调可以节能。

所以在11年的时候,在技术大牛Tuoc哥的指导下,天津数据中心运营团队与服务器运营组联合做了一个提高机房环境温度的节能试验,在服务器能接受的安全温度范围以内,将所有机房空调送风温度由17度逐步提升为25度。服务器长期保持25度的进风温度、40度的出风温度工作。

25度送风温度,这是一个什么概念?让我们通过以下的图来了解:

图中:

u黑色区域超出目前服务器厂家建议工作环境要求,服务器宕机风险超过90%。

u红色区域不建议尝试,服务器依然存在宕机可能性;

u黄色区域需谨慎,服务器运行能耗会大幅增加;

u绿色区域我们认为是安全区域,不会影响服务器正常工作。

25度的送风温度已经靠近于正常工作温度的边缘。稍有不慎,机房环境温度可能偏离正常工作温度,进入危险区域;如何长久维持此温度,而不出“意外”?可以说是在挑战运营的能力极限。

1.2: “维稳”的宝典:

3年过去了,25度的送风温度一直很稳定地维持着,而且没有发生过一起因服务器过热而故障的事件。大家可能不经要问“维稳”的秘笈在哪里?

这要归结于:应用了科学的系统设计架构及精细化的运营管理方法。

1.2.1: 优化气流组织:

主要体现为:服务器做冷热通道隔离。

原理图:

机房照:

在空调与服务器之间的送风和回风路径上,我们对送风通道的冷区域和回风通道的热区域做了隔离,防止冷热风串流,保证服务器进风温度稳定,有效提高冷量利用率;

1.2.2:精确的送风控制:

(1) 精确的送风温度控制:

原理图:

机房照:

上面两图为我们展示了空调精确送风温度控制的方法:

将空调的温湿度传感器(控制器)外置于靠近服务器前端进风侧的开孔送风地板正下方,这种方法使得空调温湿度控制更贴近于服务器侧。有效避免了 因为送风路径长而造成的温湿度偏移的问题。

(2) 精确的送风量控制:

原理图:

机房照:

服务器光满足进风温度是不够的,还需要满足一定的送风量,上面两图为我们展示了空调精确送风量的控制方法:

(1) 每机柜前的活动地板采用“可调式百叶”开孔地板(如上图右),方便对空机架做气流关闭,节约不必要的风量浪费。

(2) 空调选配“转速可调的变风量”类型的风机;

(3) 每列机柜均匀布置4个风压传感器,空调自动调节送风机的风量,维持风压恒定,从而满足每列机柜上服务器的风量供应。

以上的精确控制风量的方案,使得空调系统能实时根据服务器需求进行送风量的动态调节,真正做到“按需分配,毫不浪费”。

1.2.3:精细化的运行管理:

在以上科学的系统设计架构下,要想做到“温度场稳定”与“空调节能”的双丰收,还离不开运营的“精心打理”:

(1) 温度场和送风量的精确调校:

运营人员在日常管理中,根据每个机柜的服务器上架数量,对冷通道(送风侧)的开孔地板做相应的开度调整,按需分配,节约风量,可大大减少风机能耗;

封堵机柜上的空机位,隔绝冷热气流,有效提高冷量利用率。

测量机柜前开孔地板的送风温度,通过调整就近空调的送风温度值,保证冷通道开孔地板出风温度在25±1℃;

借助于“热成像仪”神器,对冷通道进行截面扫描,查找局部热点;

以同一机柜上下温度场偏差不超过2℃为判断标准,进行送风风压的调校。在保证整体温度场良好的前提下,可适当下调“冷热通道气流压差设定”,降低空调送风量,保证节能。如检测发现局部机柜送风温度场偏差超过2℃,说明送风风量偏小,上部气流不足,则上调压差设定,提高空调送风量。

(2) 空调冷量输出的均衡调效:

通过监控系统集中采集所有空调的冷水阀开度,如出现个别空调冷水阀开度过大(超过90%),说明其制冷能力已经达到极限,将采用下调其周边的其他空调的“送风温度设定值”,让其他空调为其“减负”。最终调校到每台空调冷量利用率尽可能平衡。

(3) 确定理想的冷冻水供水温度值:

在天津BDC的空调运营理念中,冷冻水供水温度并不是“一成不变”的,而是“动态调节”的。它随着机房负载的变化而变化。运营对每一区域的空调利用率(水阀开度)进行统一观察,以整体开度控制在60%-70%左右的原则,不断对冷冻水供水温度进行上下调整,最终找到适合当前负载的最佳供水温度值,做到系统“安全”与“节能”的最佳平衡。

(4) 定期效核各种传感器,保证读数准确:

大家都知道的,只有仪表好了,才能起作用。

上述简单介绍了TJ-BDC空调系统的调校方法。可以看到:空调的运营工作是一项长期的、反复的,细心的工作,需要运营人员能准确看到和把控空调系统的“内在联系”,并持之以恒地调校系统运行参数,做到“应需而变”。

所以说:空调系统的“安全与节能”是运营人员用“心”理出来的。

励炼二:制冷核心冷冻站安全是如何炼成的?

2.1: 冷冻站的重要性:

在大型水冷空调系统里,末端空调只是一个换热器,起吸收机房热量的作用,相对于“末端细胞”,真正的“心脏”在于冷冻站,这是一个产冷的基地。冷冻站每时每刻在不停地生产“冷(能)量”,通过“血液”(冷冻水)把“冷(能)量”输送到每个“末端细胞”(末端空调)里,供服务器使用。所以说,冷冻站的安全与否直接与整栋楼的数据中心安全息息相关。

2.2: 冷冻站的“法宝”:

在运营的3年多时间里,冷机系统供冷也曾发生过几次突发故障,冷源供应出现过短时间中断,但都没有对机房温度造成丝毫波动影响,这靠的是什么“法宝”?

这完全归功于运营对冷冻站的自动化抗风险能力的不断优化和提升。运营深知:系统自动化不仅能有效提高人员的工作效率,还能成为运营最有力的“安全守护神”:如果把大部分系统风险的人工应急操作,通过自动化的方式去实现,无疑是对人力的一种解放,同时也大大提高系统的抗风险能力。

为此,运营做了大量的故障演习和仿真测试,假设出系统可能存在的各种风险,例如:设备故障,电源中断,自控失灵,管道漏水等等。在假定以上各种可能存在的各类风险后,运营制定了一系列的应急措施,在各种应急措施里面,运营充分利用和完善系统的自动化应急功能。实现了:故障机组的自动化切换功能;应急设备采用双电源+UPS的电力综合保障;蓄冷罐自动化应急投入;自控系统失灵下设备运行状态的自保持等等;

2.3: 案例分享:

每一个自动化应急安全保证措施的落地,都经历了不少故事。下面给大家讲个运营自创的蓄冷罐自动化应急投入的优化案例:

前面提到,天津数据中心冷冻站有几位“幕后高人”,其中“擎天柱”(蓄冷罐)是起到保障系统安全作用的。

按照设计的本意,蓄冷罐是一直与系统保持畅通的,当冷冻站彻底停电后,蓄冷罐在应急水泵(带不间断电源)的作用下,罐内的冷水被释放出来,供给末端空调使用。为了保证蓄冷罐储冷应急的有效性,冷机必须长期供应比较低温的冷水。

可是当冷冻站做了节能优化后,供水温度由设计的10度逐步提升至系统可承受的16度(甚至更高)。这种节能优化可谓“空前绝后”,一方面带来巨大的节能效益(每年可省上千万的电费),可另一方面似乎降低了系统的安全性:供水温度升高了,蓄冷罐的整体水温也随之提高,冷量储备不足,一旦冷机系统发生“宕机”故障,末端供水温度难以维持,将会导致机房温度升高,危及服务器运营安全。这是一把“安全“与“节能”的“双韧剑”,处理不好,提高供水温度的节能优化无法进行下去。

面对摆在运营前进路上的“绊脚石”,运营人员并没有气馁。要解决这个问题,需要改变系统的运营模式。在经历过多个日日夜夜的思索后,天津数据中心的空调运营工程师在一次学习配电系统UPS原理中找到解决方法:

UPS工作原理为:当市电正常供电时,电池处于满电备用状态,当市电中断时,充满能量的电池就会放电,继续供给末端服务器使用。

如果把“冷机”比作“UPS主机”,“蓄冷罐”比作“后备电池”那再形象不过了。冷机采用高温(16℃)供水温度时,蓄冷罐的水温必须保持低温(8-10℃),储存充足的冷量,平时正常工作时,蓄冷罐必须与系统的管道做隔离,蓄冷罐的水不参与系统的循环流动,保存冷量;只有当冷机系统群组故障了,输送至末端空调的主管道中的水温升高了,蓄冷罐才开阀放水。这时,好比电池合闸放电一样,源源不断的冷源被放出,末端供水温度就能控制,机房送风温度就能控制。

有了以上想法后,运营人员结合系统管道,仔细揣摩,快速编写出一套完整的控制方案,经过内部评估通过和征求设计院的认同后,推动自控厂家增加控制程序,实现系统的自动化应急措施。

自从有了这种自动化应急措施后,空调系统的抗风险能力大大提升。后来的数次故障也再次证明了这种应急模式的有效性:几次半夜里冷机系统突发故障,自控系统检测到末端供水温度超过设定的安全上限值,在发出警报的同时,储满冷量的蓄冷罐不间断地提供备用冷源,可维持供水温度稳定时间不低于4小时,为冷机的故障切换争取了富裕的时间,整个故障过程,末端服务器送风温度也“纹丝不动”。

“擎天柱”再次回归,拯救DC,功不可没。蓄冷罐自动化应急模式,使得“安全”与“节能”取得了双赢。这离不开运营对自动化控制技术的重视和不断优化。当然,自动化控制的前提是需要运营模式的不断探索和经验沉淀。

运营人员的智慧和钻研探索,使得自动化运营程度更高,在大大提升系统安全可靠性上,又大大降低了人力成本,真正解放了劳动力,用更少的人力管理好更多的设备。

励炼三:设备的良好状态是如何炼成的?

3.1:定期保养是预防性运营基础:

俗话说:“好马”靠养。设备也一样,没有定期的“体检”和“保养”,哪来的“健康”和“长寿”。天津运营在这方面就非常重视,深谙其中的道理,毫不吝啬,除精心打造一支自己的正规维修军外,还对核心的设备,外聘专业“营养师”,有计划地对每种设备进行例行深入检查和保养。真正做到每台设备随时处于最佳“备战状态”。

3.2: 案例分享:

这里给大家讲一个“水处理”的案例:

天津DC空调系统在设计中,对冷却水水质处理上,没有加装化学水质处理投药设备,只设计了一个物理的电子水处理设备。投产半年后,运营在对运行数据的监控和分析中发现,“大钢炮”(冷机)和“黑武士”(板换)好像都生病了,制冷能力都有下降的趋势。并且“大钢炮”(冷机)还伴有轻微“喘震”的现象。此外,在对“大烟箱”(冷塔)进行维护的过程中,塔盘里积累的淤泥又厚又多。每月都需要清洗,清洗难度和工作量很大。天津的空气不好,雾霾严重,水质较硬,这更加加重了“大烟箱”的积污。系统带病运行,这可愁坏了运营人员。

运营请冷机厂家做一番故障诊断后,发现“大钢炮”内也存在着大量的污垢,影响产冷。因为缺乏水冷系统维护经验,所以就“头疼医头”,请了专业清洗队伍,对“大钢炮”内的积污来了一次彻底的清洗。5套“大钢炮”经过长达1个月的“艰苦奋战”终于清洗完毕,原来被淤泥覆盖的铜管也恢复了亮堂堂的“土豪金”。

瞒以为清洗完毕后就可安枕无忧了,谁知,好景不长,“大钢炮”运行不到1周,产冷量每况愈下。愁云再次袭来,运营人员不得不再次“寻仙问药”了。

接下来是一番“四处求医”的曲折经历:西安,上海的少有几个水冷空调运营商都已涉足请教,还是“真经”难求。

在数据中心行业内找不到答案,只能转战商用中央空调行业。经空调业内人士指点,病源在于“水处理”技术上,现用的物理式“电子”水处理技术不成熟,无法有效处理水质过硬问题。需要引进“化学加药”水处理方式。于是,“化学水处理”行业的国际知名大牌公司一家又一家地被运营邀请至现场做分析。最终,我们选定了三家现场同步进驻试用,通过测试结果,再PK出一家性价比最高的公司作为长期合作伙伴。

功夫不负有心人,水质处理问题最终得到有效解决,设备也恢复和保持了应有的正常运行状态。问题发现和解决历时1年之久,但体现的是运营人员顽强不屈,攻坚克难的精神。(未完待续)

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

补充说明:文中部分图片来自互联网,如果涉及到版权问题请联系wizardgao@tencent.com。

本文分享自微信公众号 - 腾讯数据中心(Tencent_IDC),作者:will

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-09-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 在探索中前行---浅谈腾讯数据中心运营文化实践

    导语:倘若数据中心,有了完整的运营体系,有了统一的方法论,有了专业的运营团队,有了先进的运营工具,是不是能长治久安了呢?答案显然是不够的。如果我们在数据中心运营...

    腾讯数据中心
  • 一种推荐的空调系统运行模式调整方法

    我们知道,大型数据中心空调系统一般采用集中式供冷的中央空调,在运营前期,由于服务器使用数量较少,空调主机又不得不开启,系统能耗比重较大,PUE往往偏高。如何在前...

    腾讯数据中心
  • 磨砺,文火,慢熬,起锅前再加一点“匠料”

    ? ? 引言 ? ? 数据中心运营是一项复杂的系统性工作,涉及各类专业多达十余种。漫长的运营周期,赋予了一线运营人员专业专注、精益求精的工匠特质。每一次巡检、...

    腾讯数据中心
  • HTTPS 原理剖析与项目场景

    最近手头有两个项目,XX导航和XX产业平台,都需要使用HTTPS协议,因此,这次对HTTPS协议做一次整理与分享。

    哲洛不闹
  • 京东集团与冯氏零售集团达成战略合作:用AI赋能线下 开启无界零售新纪元

    2月2日,中国收入规模最大的零售商京东与线下零售巨头冯氏零售集团在北京签署战略合作协议,双方将共同搭建人工智能无界零售中心,并将在人工智能平台、智能零售两个方向...

    京东技术
  • 将你的网站打造成一个iOS Web App

    最近在做一个手机主题,据说借用类似 link href="xx.png" rel="nofollow" rel="nofollow" rel="apple-to...

    Jeff
  • 高赞新书《可解释的机器学习》出版:理解黑盒必备,免费资源

    最近,这本名为《可解释性的机器学习》书在推特火了起来,两天内2千多人点赞,将近700人转发。

    量子位
  • 循序渐进提升Kaggle竞赛模型精确度,以美国好事达保险公司理赔为例

    作者:Werner Chao 翻译:白静 术语校对:黄凯波 本文长度为2800字,建议阅读8分钟 线上心理健康公司KaJin Health首席数据分析师教你怎么...

    数据派THU
  • LNMP之Nginx

    Nginx (engine x) 是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。Nginx是由伊戈尔·赛索耶夫为俄罗斯访问...

    用户1173509
  • 已安装的nginx如何添加模块

    nginx的模块是需要重新编译nginx,而不是像apache一样配置文件引用.so。这里以安装第三方ngx_http_google_filter_module...

    菲宇

扫码关注云+社区

领取腾讯云代金券