事件背景
N年前,腾讯某租用机房出现1#冷机冷却水回水阀门有滴水现象并无法拧紧,经初步判断为阀门损坏所致。该机房冷水机组采用2+1冗余配置,单冷源制冷模式,机房水系统管路为单路由设计。如果对故障阀门进行更换,将影响IDC大楼制冷系统的正常运行,IT机房供冷预计中断4-5小时,业务服务若因此而中断,后果不堪设想。但如不更换故障阀门,机房空调系统运行则如履薄冰。
现在问题来了,如果你是腾讯的数据中心经理,你将如何决策,决策的过程中会考虑哪些关键事项?
图1 阀门故障点
风险分析
“结垢、腐蚀、藻类”是循环冷却水系统不可忽视的三大问题。
冷却系统为敞开式,冷却循环水的散热原理为冷却塔通过强制蒸发而带走热量,由于空气与冷却循环水接触,大气中的尘埃、细菌、氧气及某些有害酸性气体从冷却塔进入冷却管道系统。冷却水在运行过程中的蒸发,会导致水中溶解的盐类浓度增加,最后以垢的形式从水中沉淀出来,既我们通常见到的垢质。水中的溶解氧与金属器壁的氧化反应,会造成金属设备和用水管道的腐蚀。而水中大量的溶解物和充足的溶解氧以及合适的温度又是菌藻繁殖的极好场所。
尘埃、细菌、盐类、溶解氧等→产生菌藻、垢、锈渣→沉积在主机内铜管、过滤器→使循环变慢→散热效果差→空调制冷效果差。
短期风险&影响
翻查保养记录表,#1冷机在半年前做过一次停机保养,评估目前阀门滴水的严重性,短期内不影响系统的正常运行,对业务运营无影响,风险较小。
长期风险&影响
故障阀门长时间不更换,1#冷机的维护保养工作无法进行,冷凝器钢管结垢、换热器管壁生物污泥和锈渣将无法清洗,长此以往,1#冷机制冷效果下降且故障率增高,最终该机房的冷机2+1冗余性将失效,一旦冷机出现故障,机房运营将陷入被动应对局面。
风险分析结论
综合以上风险分析,从后续机房运营安全稳定的角度考虑,最终,该机房数据中心经理做出了更换故障阀门的决定。
应对已经存在的风险隐患,需要通过有计划性的变更来主动化解风险,切忌抱有侥幸心理。
制冷系统单管路的路由设计存在单点隐患,类似的阀门故障、爆管问题都将严重影响机房的正常运行。
优化管路设计、规避单管道路由所带来的安全隐患正当其时!
方案决策
方案一:直接更换阀门——由于该制冷系统为单冷源且单管路路由设计,直接更换阀门将会导致整个机房的供冷中断,需要协调该机房所有业务部门配合关机,涉及几千台服务器,对公司业务正常运行带来严重的影响。
方案二、新建一套冷却塔与冷却水管道——将#3冷机割接至新建的独立冷却系统,由于冷机系统为2+1的冗余设计,此割接方案不会对机房运营产生影响。后续故障阀门实施更换时,#3冷机可以为机房提供600冷吨制冷量,加上利用冰块、大功率风扇等辅助降温措施,预估能满足机房核心业务模块正常运行,从而降低了变更操作对业务的影响。新增的一套独立冷却系统,可提高机房供冷系统的可用性。然而此方案工程量大、需要投入一笔不小的改造资金。
经过反复讨论评估,最终,我们和运营商达成一致意见,执行方案二。
方案细化过程碰的几个问题&解决思路
一、关于变更实施时间
如果时间允许,尽可能安排在温度较低时段实施变更,同时考虑:
1.规避在业务高峰期间进行变更操作(寒假期属于业务高峰期)
2.现场施工人力保障(春节前较多工人返乡,节后一、两周内才陆续返回)
3.机房主要业务&业务运营特性(该数据中心主要运营游戏业务,每周定期执行停机维护操作,根据机房历史流量图,凌晨02:00后进入业务低峰期)
二、降低变更影响范围与影响程度
1.该数据中心还存放有其它公司业务,如何能在变更期间争取到更多资源且保证变更实施能按计划顺利实施,需要进行多方面因素的考虑与协调
2.强调业务对腾讯公司的重要性
3.结合考虑业务侧对机房变更影响范围的可接受程度设定可停机比例的范围
三、关于协调业务部门配合工作
1.业务停机数量是否满足方案需求
2.业务可执行停机时长是否与变更方案所需时长匹配
3.需重点保障的关键设备清单(需要控制总量)
4.分批、分时段执行停机操作列表
5.优先开机操作列表与异常设备处理清单
6.无带外或带外功能异常设备列表需提前汇总输出给现场运维人员(这部份设备需要现场运维人员手动执行开机)
四、机房内重点关注区域
重点关注机房内潜在高危风险区域、业务核心设备模块、网络核心模块区域。此案中例,所谓的高危风险区域是指在正常供冷情况下仍存在的局部热点的区域。在资源条件有限的情况下,需在方案中有针对性的对此三个重点区域制定更加精细化的保障措施。
1.通过回风温度、热成像仪、点温枪扫描的手段提前识别高温风险区域,采取重点的保障措施,降低因局部高温带来的宕机风险。
2.结合重点业务模块所在的现场物理位置信息,标识重点保障区域位置。
3.为冰块、大功率风扇的放置位置精准定位提供参考依据。
4.为温度计的放置位置提供参考依据。
5.为设定变更期间巡检路线关键点提供参考依据。
五、关于新建冷却塔与冷却水管道的清洗与试运行建议
在过往建设项目中关于水管路验收的经验告诉我们:
1.新建设管道因施工问题往往会导致管道内存在较多的杂质颗粒,容易堵塞运行中的管道过滤器。通常要加入化学试剂进行至少3次的清洗。
2.新建的冷却塔与水管管道需在变更实施前提前投入试运行,这样可以提前发现新建的冷却系统可能存在的风险隐患。
六、关于冷冻水出水温度最低值
在停机#1、#2冷机前,为缓解机房的温升速度,需提前将冷冻水温度尽可能降低,经与冷机厂商最终确认,冷冻水出水设置最低温度不应低于7度。
七、关于阀门拆卸与安装异常问题的处理预案
1.提前备好打磨机,临时电源,如果故障阀门的法兰紧固螺丝无法拧开,使用打磨机进行切割。
2.如果备用阀门无法安装,立即使用原来的阀门安装回去,现场配备一个水管快速接头,以防原来的阀门回装有漏水情况,立即安装快速接头。(由于机房是几年前建好的,市面上是否还有该类型阀门销售是一个问题,当时是否留有此类备件就变的很重要)
3.提前备好防水垫,若新装阀门固定不严造成泄漏,在阀门连接端加装防水垫。
八、温度计悬挂位置的选择
温度的监控采集最优的位置是在服务器的入风口处,但在综合考虑以下2点因素后,最终方案采取将温度计悬挂在机柜后门中上部,采取监控服务器出风口的温度的方式,并且将出风口温度预警值设为>=35度。
1.机房为机柜内下送风,机柜前门是非透明铁门,温度计如挂在机柜前门内,巡检人员无法直接查看温度计读数。
2.变更过程中需定时监控并抄录温度数值,如多次打开机柜前门一是会影响机柜内制冷效果,二是温度抄录的巡检工作量增大。
图2 温度监控图
九、冰块放置位置的选择
最佳制冷效果冰块放置位置次序:精密空调房地板下->冷通道->热通道。
在结合实际情况综合考虑以下几点因素后,最终却采取了将冰块放置在热通道的方案。
通过现场实际考察,冰块放置在精密空调房地板下将带来a、b两个问题:a、冰块溶化后,冰块补充操作困难,在原有容器直接加冰块将导致已溶化的冰水溢出。b、冰块溶化后,因为地板下空间较小的问题,对原有容器进行更换存在较大困难。考虑减载+提供600冷吨的制冷能力,通过演练检验冰块放置热通道效果
图3 冰块放置位置
图4 2小时后冰块融化情况
十、 更换阀门过程中如何保障在线#3冷机的工作正常?
1.#3冷机为变频机,考虑到变更期间电流百分比从70%增长到100%,需重点关注变频器的散热问题,固采取将空调配电房现场环境温度从27度调低至22度。
2.安排人员现场实时监控冷却塔工作状态(如液位、补水、风扇运行状态)
3.安排冷机厂家工程师到场支持,监控#3冷机实时工作状态。
十一、关于进行演练的必要性
在运营的环境下进行真实的演习意味着需要协调业务多次配合停机,现场需要对1#、2#冷机执行停机操作,只保留3#冷机供冷,因为是进行真实场景演练,一旦风险控制失效,将演变成运营事故,机房运营侧将变的被动且增加了业务侧对变更实施安全性的担忧。回来后在充分考虑了以下几点并且与业务部门进行了充分沟通后,最终才确定进行真枪实弹的演练。
通过演练可以检验准备工作的成熟度及提前发现变更期间可能产生的不确定因素。(包括人力准备、职责分工、工具&备件、降温辅材、温升速度、操作步骤)
通过演炼检验团队准备工作的成熟度与执行的有效性,同时,也进一步掌握各环节执行的关键控制点,确保变更实施能按计划有效执行。(业务运维人员、服务器运维人员、IDC现场支持与远程同步协调岗)
机房现场完全按真实变更场景准备相应的人力、物力(包括现场总协调员、施工人员、监控人员、冰块、大功率工业风扇、温度计、排插、阀门备件、拆卸工具、对讲机等等)
风险控制,演习中断条件(以下条件满足一项即中止演习):
1.服务器入风口温度超过27度
2.监控到有设备高温宕机
3.环境温度超过30度预警、超过33度中止变更
十二、 关于温升问题的分析
1.通过风柜回风数据与机柜温度数据可以定位到各机房高温机架区域,此数据将作进一步核实并作为后续空调系统故障场景下重点保障区域。
2.演习期间停机设备量较实际真实变更当天少560+,考虑天气因素,因2月20号演习当天外部温度较2月27号真实变更当天温度低5度。所以20号与27号变更期间监控到的温差无明显的变化。(外部气温低时冷却塔的散热能力较好)
3. 2月27号2:30-2:50分出现温度抖升的原因是真实变更当天为了更换阀门对部份管道实施了放水操作,在放水操作中因分流阀门无法完全关闭导致在线冷机冷却水流量减小,影响了冷机制冷量。
4. 2月27号2:50后温升进入平稳期,初步分析一是因业务侧进入低峰期,二是随着温度上升到一定程度,发热与散热能力基本达到平衡。
图5 20号变更风柜温升情况
图6 27号变更风柜温升情况
十三、关于更换阀门时遇到的问题
1.冷却水管道放水时间超过预计的15分钟,实际已延时了30分钟,但水流量仍未达到预期效果。异常情况排查及相应处理措施:
步骤一、检查4号冷却塔发现有补水现象。
步骤二、初步判断4号冷却管道与3号冷却管道的分流阀门可能存在关不严的情况。
步骤三、为确保变更按计划顺利进行,检查管路压力小于1KG,确认拆卸阀门风险较小情况下继续执行拆卸操作。
图7 冷却水管道放水遇到的问题和处理方法
图8 故障处理现场
2.阀门螺丝拆卸完后,阀门无法拉出。
原因:阀门处于打开状态,将阀门关闭后,顺利拉出。
十四、拆卸下的故障阀门的初步检查情况
1.未见阀门密封胶圈有明显的破损情况
2.阀门内部阀片无法处于完全闭合状态
图9 拆卸下的故障阀门的初步检查情况
图10 新增阀门替换备件
版权声明:本文为腾讯数据中心原创,欢迎转载,转载需保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码、版权声明等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。