制冷冷机为数据中心提供冷量,是保证数据中心安全有效运行的核心,但是在实际冷机运行过程中,常常会出现并联引起负载不均衡的问题,如果处理不当,可能引起冷机停机,数据中心供冷中断,威胁数据中心的安全运行。
一、某数据中心冷机负载率不均案例回顾
某数据中心某时机负荷偏大问题的发现及解决回顾:
第一周
某数据中心3、4号冷机并联运行期间,4号冷机的负载率比3号冷机高20%以上,且为持续现象。
第二周
某数据中心机切换到1、2号冷机之后,联合冷机厂家对冷机冷凝器做了通炮(即拆开4号机的冷凝器端盖板,清洗内部的铜管水路)以及清洗了水路过滤器,确实发现有堵塞导致流量不足的情况,所以初步判断是冷凝器侧水流量不足导致的。
第三周
某数据中心冷机切换到3、4号冷机之后,发现清洗后的4号冷机的负载率不仅没有下降反而急剧上升,现场基础设施运维人员检查冷机冷却系统侧,发现4号冷却塔的塔顶水流分配头部分堵塞,导致散热效果偏差,导致负载相对来说偏大,基础设施运维人员对其进行了处理,而后开始3、4号冷机负载率逼近,几日之后2台冷机负载率趋于相同。
图1 某数据中心某栋某月冷机负载变化图
二、并联冷机负载不均现象
在实际的运维过程中会出现多台冷机负载不均衡的现象,一般情况下并联冷机的负载率相差10%-20%以内都是在允许范围之内,对运维影响不大。
造成并联冷机负载不一现象的主要原因是冷机启动时间不一样以及冷机的超频现象。在数据中心运维过程中,为了保障数据中心安全有效不间断运行,冷机的配置至少为N+1,但是实际上往往由于数据中心服务器是由少到多,不断增加上架率,在这个过程中可能只需要部分冷机就能满足整个数据中心的需求。
假设某数据中心常备4台冷机(1号冷机、2号冷机、3号冷机、4号冷机),开启2台冷机就能保障数据中心安全运行,单周开启1号冷机和2号冷机,双周开启3号冷机、4号冷机,每周切换一次保障4台冷机均衡运行。
图2 冷机负载率随时间变化曲线
冷机切换逻辑顺序:3号冷机启动——1、2、3号冷机并行一段时间——关闭1号冷机——开启4号冷机——2、3、4号冷机并行一段时间——关闭2号冷机
从冷机负载率随时间变化曲线图上可以清晰的看到,3号冷机启动后其负载率迅速上升,1号和2号冷机负载率迅速下降;运行一段时间后,关闭1号冷机,开启4号冷机,同样4号冷机启动后其负载率迅速上升;此过程:
Q=η1PC+η2PC+η3PC+η4PC
此后3、4号冷机并联运行,由于 3、4号冷机是新开启的冷机,为了满足冷负荷需求,先开启的3号冷机会发生超频现象,4号冷机有可能也发生小幅度超频现象;此过程:
Q<η3PC+η4PC
最后,3、4号冷机稳定运行后,由于开启时间的先后有别再加上整个制冷系统管路设计沿程阻力的影响,3号冷机的负载率会略大于4号冷机的负载率;此过程:
Q=η3PC+η4PC
符号 | 物理意义 |
---|---|
η1 | 1号冷机的负载率 |
η2 | 2号冷机的负载率 |
η3 | 3号冷机的负载率 |
η4 | 4号冷机的负载率 |
PC | 冷机制冷量 |
Q | 数据中心需要的制冷量 |
图3 公式符号含义
三、并联冷机负载严重不均衡现象原因分析
在实际的运维过程中多台冷机负载率相差20%以上,我们就要足够重视,对整个并联冷机系统进行巡查,找到负载不均衡原因,排除安全隐患。
首先,我们需要了解冷机系统的组成,随着数据中心规模的不断扩大,为之服务的冷热源设备的规模也在不断扩大,因此需要多台冷机设备并联运行才能满足整个数据中心的制冷要求,整个并联冷机系统组成如下:
组成 | 功能 | |
---|---|---|
并联冷机 | 制冷压缩机 | 制冷压缩机从吸气管吸入低温低压的制冷剂气体,通过电机运转带动活塞对其进行压缩后,向排气管排出高温高压的制冷剂气体,为制冷循环提供动力,从而实现压缩→冷凝→膨胀→蒸发(吸热)的制冷循环 |
冷凝器 | 冷却水和制冷剂在冷凝器里进行热交换,冷却水带走制冷剂的热量 | |
蒸发器 | 冷冻水和制冷剂在蒸发器里进行热交换,冷却冷冻水回水 | |
冷冻水系统 | 冷冻水供回水管路 | 为冷冻水在冷机与末端换热器之间的流动提供通道 |
一次泵和二次泵系统 | 满足不同压力不同负荷情况下冷冻水的流量需求 | |
冷冻水供回水旁通管 | 旁通管是为了解决空调端和冷水机组端的水量不一致而设置的 | |
末端换热器 | 冷冻水通过末端换热器为数据中心提供冷量 | |
冷却水系统 | 冷却塔 | 从冷机流出的冷却水中吸收热量排放至大气中,以降低冷却水的水温 |
冷却水供回水管路 | 为冷却水在冷机与冷却塔之间的流动提供通道 | |
冷却水泵 | 为冷却水的流动提供动力 |
图4 并联冷机系统组成
并联冷机负载严重不均衡现象:并联冷机在稳定运行情况下负载率相30%以上,需要现场人员及时根据如下原因进行排查。
序号 | 现象 | 原因 |
---|---|---|
1 | 冷机型号不一 | 并联冷机为不同型号冷机,压缩机制冷功率不一,一般对制冷系统无影响,只需及时注意较小制冷功率冷机负载不要过小即可 |
2 | 压缩机油冷却系统漏油 | 压缩机油冷却系统漏油是冷机负载率急剧上升的原因之一,压缩机油冷却系统漏油,油会进入蒸发器或者冷凝器在换热单元上产生一层油膜,大大增加换热热阻,使冷机的制冷或者冷却效果下降,冷机负荷随之急剧上升 |
3 | 冷机冷却水分布不均 | 1 冷却塔和冷机一一对应单独连接的制冷系统:单个冷却塔故障可能造成其对应连接的冷机负载上升2 常用的冷却塔并联制冷系统:流入/流出冷却塔的冷却水分流不均,使流出/流入冷机的冷却水流量不均引起部分冷机负载率异常 |
4 | 冷机冷冻水分布不均 | 1 冷冻系统侧一次泵流量不一,造成进入冷机的冷冻水流量不一,影响冷机负载率2冷冻系统侧供回水之间的旁通阀开度不一,造成进入冷机的冷冻水流量不一,影响冷机负载率 |
5 | 冷凝器侧结垢 | 冷凝器内制冷剂温度一般在65℃以上,虽然冷却水在进出冷凝器时整体的最高温度不超过35℃,但在冷凝器换热单元中靠近65℃以上制冷剂的局部冷却水由于温度较高,会产生水垢等增加换热热阻,影响冷机的负载率 |
图5 并联冷机负载严重不均衡原因汇总
四、改进建议
1、针对冷凝器结垢问题,建议今后冷机厂家维保时强化定期检查冷凝器结垢现象;
2、针对冷却塔顶水流分配头部分堵塞问题,此现象便于检查,建议今后基础设施巡检可以增加此项;
3、梳理冷机运维中处理负载不均衡的流程文档,并把冷机负载严重不均的各种原因及处理方式下发给运维团队,以便今后更加快捷的排查问题。
图6 冷机冷凝器通炮现场
版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。