专栏首页腾讯数据中心数据中心并联冷机负载不均案例分析

数据中心并联冷机负载不均案例分析

制冷冷机为数据中心提供冷量,是保证数据中心安全有效运行的核心,但是在实际冷机运行过程中,常常会出现并联引起负载不均衡的问题,如果处理不当,可能引起冷机停机,数据中心供冷中断,威胁数据中心的安全运行。

一、某数据中心冷机负载率不均案例回顾

某数据中心某时机负荷偏大问题的发现及解决回顾:

第一周

某数据中心3、4号冷机并联运行期间,4号冷机的负载率比3号冷机高20%以上,且为持续现象。

第二周

某数据中心机切换到1、2号冷机之后,联合冷机厂家对冷机冷凝器做了通炮(即拆开4号机的冷凝器端盖板,清洗内部的铜管水路)以及清洗了水路过滤器,确实发现有堵塞导致流量不足的情况,所以初步判断是冷凝器侧水流量不足导致的。

第三周

某数据中心冷机切换到3、4号冷机之后,发现清洗后的4号冷机的负载率不仅没有下降反而急剧上升,现场基础设施运维人员检查冷机冷却系统侧,发现4号冷却塔的塔顶水流分配头部分堵塞,导致散热效果偏差,导致负载相对来说偏大,基础设施运维人员对其进行了处理,而后开始3、4号冷机负载率逼近,几日之后2台冷机负载率趋于相同。

图1 某数据中心某栋某月冷机负载变化图

二、并联冷机负载不均现象

在实际的运维过程中会出现多台冷机负载不均衡的现象,一般情况下并联冷机的负载率相差10%-20%以内都是在允许范围之内,对运维影响不大。

造成并联冷机负载不一现象的主要原因是冷机启动时间不一样以及冷机的超频现象。在数据中心运维过程中,为了保障数据中心安全有效不间断运行,冷机的配置至少为N+1,但是实际上往往由于数据中心服务器是由少到多,不断增加上架率,在这个过程中可能只需要部分冷机就能满足整个数据中心的需求。

假设某数据中心常备4台冷机(1号冷机、2号冷机、3号冷机、4号冷机),开启2台冷机就能保障数据中心安全运行,单周开启1号冷机和2号冷机,双周开启3号冷机、4号冷机,每周切换一次保障4台冷机均衡运行。

图2 冷机负载率随时间变化曲线

冷机切换逻辑顺序:3号冷机启动——1、2、3号冷机并行一段时间——关闭1号冷机——开启4号冷机——2、3、4号冷机并行一段时间——关闭2号冷机

从冷机负载率随时间变化曲线图上可以清晰的看到,3号冷机启动后其负载率迅速上升,1号和2号冷机负载率迅速下降;运行一段时间后,关闭1号冷机,开启4号冷机,同样4号冷机启动后其负载率迅速上升;此过程:

Q=η1PC+η2PC+η3PC+η4PC

此后3、4号冷机并联运行,由于 3、4号冷机是新开启的冷机,为了满足冷负荷需求,先开启的3号冷机会发生超频现象,4号冷机有可能也发生小幅度超频现象;此过程:

Q<η3PC+η4PC

最后,3、4号冷机稳定运行后,由于开启时间的先后有别再加上整个制冷系统管路设计沿程阻力的影响,3号冷机的负载率会略大于4号冷机的负载率;此过程:

Q=η3PC+η4PC

符号

物理意义

η1

1号冷机的负载率

η2

2号冷机的负载率

η3

3号冷机的负载率

η4

4号冷机的负载率‍‍‍‍

PC

冷机制冷量

Q

数据中心需要的制冷量

图3 公式符号含义

三、并联冷机负载严重不均衡现象原因分析

在实际的运维过程中多台冷机负载率相差20%以上,我们就要足够重视,对整个并联冷机系统进行巡查,找到负载不均衡原因,排除安全隐患。

首先,我们需要了解冷机系统的组成,随着数据中心规模的不断扩大,为之服务的冷热源设备的规模也在不断扩大,因此需要多台冷机设备并联运行才能满足整个数据中心的制冷要求,整个并联冷机系统组成如下:

组成

功能

并联冷机

制冷压缩机

制冷压缩机从吸气管吸入低温低压的制冷剂气体,通过电机运转带动活塞对其进行压缩后,向排气管排出高温高压的制冷剂气体,为制冷循环提供动力,从而实现压缩→冷凝→膨胀→蒸发(吸热)的制冷循环

冷凝器

冷却水和制冷剂在冷凝器里进行热交换,冷却水带走制冷剂的热量

蒸发器

冷冻水和制冷剂在蒸发器里进行热交换,冷却冷冻水回水

冷冻水系统

冷冻水供回水管路

为冷冻水在冷机与末端换热器之间的流动提供通道

一次泵和二次泵系统

满足不同压力不同负荷情况下冷冻水的流量需求

冷冻水供回水旁通管

旁通管是为了解决空调端和冷水机组端的水量不一致而设置的

末端换热器

冷冻水通过末端换热器为数据中心提供冷量

冷却水系统

冷却塔

从冷机流出的冷却水中吸收热量排放至大气中,以降低冷却水的水温

冷却水供回水管路

为冷却水在冷机与冷却塔之间的流动提供通道

冷却水泵

为冷却水的流动提供动力

图4 并联冷机系统组成

并联冷机负载严重不均衡现象:并联冷机在稳定运行情况下负载率相30%以上,需要现场人员及时根据如下原因进行排查。

序号

现象

原因

1

冷机型号不一

并联冷机为不同型号冷机,压缩机制冷功率不一,一般对制冷系统无影响,只需及时注意较小制冷功率冷机负载不要过小即可

2

压缩机油冷却系统漏油

压缩机油冷却系统漏油是冷机负载率急剧上升的原因之一,压缩机油冷却系统漏油,油会进入蒸发器或者冷凝器在换热单元上产生一层油膜,大大增加换热热阻,使冷机的制冷或者冷却效果下降,冷机负荷随之急剧上升

3

冷机冷却水分布不均

1 冷却塔和冷机一一对应单独连接的制冷系统:单个冷却塔故障可能造成其对应连接的冷机负载上升2 常用的冷却塔并联制冷系统:流入/流出冷却塔的冷却水分流不均,使流出/流入冷机的冷却水流量不均引起部分冷机负载率异常

4

冷机冷冻水分布不均

1 冷冻系统侧一次泵流量不一,造成进入冷机的冷冻水流量不一,影响冷机负载率2冷冻系统侧供回水之间的旁通阀开度不一,造成进入冷机的冷冻水流量不一,影响冷机负载率

5

冷凝器侧结垢

冷凝器内制冷剂温度一般在65℃以上,虽然冷却水在进出冷凝器时整体的最高温度不超过35℃,但在冷凝器换热单元中靠近65℃以上制冷剂的局部冷却水由于温度较高,会产生水垢等增加换热热阻,影响冷机的负载率

图5 并联冷机负载严重不均衡原因汇总

四、改进建议

1、针对冷凝器结垢问题,建议今后冷机厂家维保时强化定期检查冷凝器结垢现象;

2、针对冷却塔顶水流分配头部分堵塞问题,此现象便于检查,建议今后基础设施巡检可以增加此项;

3、梳理冷机运维中处理负载不均衡的流程文档,并把冷机负载严重不均的各种原因及处理方式下发给运维团队,以便今后更加快捷的排查问题。

图6 冷机冷凝器通炮现场

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文分享自微信公众号 - 腾讯数据中心(Tencent_IDC),作者:腾讯数据中心

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-03-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 变频冷机在超低负载下如何安全又节能运行?

    使用变频冷机是为了节能,节能的前提是“冷机处于非满载工况下运行”。但如果当冷机负载太低(低于30%以下),冷机不仅无法有效节能,甚至不能正常工作——此时冷机会反...

    腾讯数据中心
  • 一种推荐的空调系统运行模式调整方法

    我们知道,大型数据中心空调系统一般采用集中式供冷的中央空调,在运营前期,由于服务器使用数量较少,空调主机又不得不开启,系统能耗比重较大,PUE往往偏高。如何在前...

    腾讯数据中心
  • 天津数据中心群英传——之呼风唤水篇(下)

    励炼四:运营模式的精细化是如何炼成的? 4.1: 不断“试优”造就了运行模式的“多样化”: 随着运行环境的变动和运营经验的积累,空调系统的运营模式也“丰富多彩”...

    腾讯数据中心
  • 变频冷机在超低负载下如何安全又节能运行?

    使用变频冷机是为了节能,节能的前提是“冷机处于非满载工况下运行”。但如果当冷机负载太低(低于30%以下),冷机不仅无法有效节能,甚至不能正常工作——此时冷机会反...

    腾讯数据中心
  • 数据中心蓄冷时间多长合适呢?-孙长青

    2010年3月25日,据国外媒体报道,由于欧洲数据中心过热以及应急措施失效,导致维基百科周三出现大范围宕机。

    数据中心DATACenter_PUE-POE
  • 腾讯副总裁Brent Irvin:互联网法律问题是全球性问题

    11月22-23日,由北京大学法学院、斯坦福大学法学院、牛津大学法学院共同主办、腾讯互联网与社会研究院支持的第三届“2014北大·斯坦福·牛津:互联网法律与公共...

    腾讯研究院
  • golang 某一段IP端口扫描并且尝试ftp弱口令登录

    先上githubhttps://github.com/china-muwenbo/goScanPort 使用golang开发的端口扫描程序,ftp弱口令登录...

    地球流浪猫
  • 本人andriod开发,一直害怕有一天领导让我接fpga开发,而我年龄大,怎么办?

    开发安卓距离fpga还是有点距离,这个问题还是显得有点让人捉摸不透,安卓开发本身也分为几种情况,安卓底层开发,安卓框架层开发,安卓应用级别的开发,安卓底层开发主...

    程序员互动联盟
  • 互联网开发模式的经验之谈

    互联网开发模式的经验之谈 在这篇文章中: 互联网开发的核心问题 本质:服务,而不是产品 管理:手段.vs.工具 资产:代码.vs.流程 敏...

    用户3119497
  • HDU 2639 Bone Collector II(01背包变形【第K大最优解】)

    Bone Collector II Time Limit: 5000/2000 MS (Java/Others)    Memory Limit: 32768/...

    Angel_Kitty

扫码关注云+社区

领取腾讯云代金券