专栏首页腾讯数据中心IDC续航焦虑,何以解忧?(上篇)

IDC续航焦虑,何以解忧?(上篇)

导语

“养兵千日,用兵一时”,这句话用来形容蓄电池再合适不过了。作为数据中心常用的后备储能器件,蓄电池大部分时间都处于“闲置”充电状态,但在应对各种突发市电异常时,它能够将内部存储的化学能转换为电能,并通过高压直流(HVDC)或UPS等电源设备持续不断地将能量提供给重要负载使用,保障业务的连续性,其重要程度不言而喻。

腾讯数据中心运营着近百个各种规模的IDC,面对机房内数量庞大的蓄电池,运维人员通过各种技术手段掌握着蓄电池的健康状况,并依靠合理的维护策略保持其良好性能,使其在生命周期内尽可能地发挥出更大的价值。

蓄电池运维困惑

从1800年世界上第一节电池发明至今,电池行业已经走过了两百多年历史。随着技术与材料的发展,市场上各类电池多种多样,已经无所不在地融入了我们的工作和生活当中。阀控式免维护铅酸蓄电池(简称VRLA,图1)因技术成熟、原材料广泛、相对稳定等因素,目前仍然是众多数据中心的首选。

图1,阀控式免维护铅酸蓄电池

通常一个超大规模数据中心需要的蓄电池数以万计,其建设及维护成本非常高昂。为了满足大功率放电需求,各数据中心在设备选型时大多采用了理论设计寿命达到10年的高放电功率产品(环境温度25℃)。但理论不等于实际,根据多年的运维经验发现,即使设计寿命长达10年的蓄电池,往往也可能会过早地开始出现失效故障,根本原因就在于实际应用环境及使用方式无法同设计寿命所参考的因素一模一样,当多个因素偏离项出现时,将对蓄电池寿命产生难以估量的影响。

图2是表示产品可靠性的浴盆曲线,在经过了早期失效期(受原材料质量、生产工艺等因素影响)后,如果能通过良好的应用环境、以及合理的维护方式延长偶发失效周期,则会极大地提高蓄电池的实际使用寿命,从而延缓设备更新采购的时间,降低折旧成本。

图2,产品可靠性浴盆曲线

作为运营管理者,当我们在面对机房内数量众多的蓄电池,思考提高其使用寿命的维护方案时,又不免会出现以下困惑:

本文将结合腾讯数据中心多年的运营经验,围绕以上问题探讨提升机房蓄电池运维管理水平的一些思路。

蓄电池应用环境要求

通风是蓄电池应用环境的基本要求,这是因为铅酸蓄电池内部化学反应过程中会产生少量氢气(图3),在内部压力释放时通过单向排气阀排出。从防腐蚀及防爆安全的角度考虑,不管是电池柜、电池架,还是电池室,都应设计专门的通风装置,避免在完全密封环境下使用蓄电池。同时有条件的机房还可安装氢气检测装置。

图3,电池内部化学反应产生氢气

除了通风,温度则是与蓄电池使用寿命强相关的环境因素,图4是某品牌蓄电池的技术参数,从中可以看到蓄电池寿命是随温度而变化的。目前类似于蓄电池、电容等产品的可靠性推算可以参考一个较为通用的近似方式,即10℃法则。该法则实际是由瑞典化学家阿伦尼乌斯创立的经验公式Arrhenius equation,即化学反应速率常数随温度变化关系公式推导而来,简单来说就是当温度每上升10℃,产品寿命约减半。

但是对于蓄电池而言,过低的温度却又会导致蓄电池内部活性的下降,从而造成放电容量的降低(图5),因此各品牌蓄电池在设计寿命时的环境温度同多数电器电子产品一致,都以25℃作为了基准。这个温度值在±2℃的浮动范围内刚好同大部分机房的环境温度要求保持了一致,比如IT设备冷通道。

图4,某品牌蓄电池寿命温度关系图

图5,某品牌蓄电池运行温度与放电容量关系图

当前,在腾讯数据中心机房内,蓄电池的安装环境主要有以下两种类型:

电池架

蓄电池安装于开放式电池架上(如图6),并单独放置在独立电池房间内,主要用于动力辅助设施、以及传统IT机房的HVDC、UPS等设备配套使用。优点是处于同一房间内的电池环境温度一致性较好,且电池架高度一般不超过4层,所有电池外观及接线端子可视,便于日常巡检和维护。

图6,开放式电池架

电池柜

蓄电池按分组安装于电池柜内(图7),主要用于MDC、T-Block等模块化机房中的HVDC设备配套使用。优点是当蓄电池物理安装位置靠近IT设备时,可以保持蓄电池在相对独立的运行环境里,不会受到热通道高温的影响,且降低了IT运维人员可能接触到直流电源的风险。

图7,电池柜

从维护便利性上来看,开放式电池架是优于电池柜的,但是在配套模块化结构设计的机房使用时,只有电池柜才能在与其它设备拼接后,组成封闭的环境实现冷热通道的隔离。因此为了给电池柜内的蓄电池提供良好的环境温度,腾讯数据中心在电池柜的结构设计上做了一定的考虑(如图8)。

  • 电池柜前后门设计防水百叶,同时在前门增加散热风扇,且百叶面积通孔率以及风扇规格均通过详细计算,满足电池柜内散热需求;
  • 前门散热风扇具备手/自动控制功能,可通过电池柜内温度监测实现自动启停;
  • 电池组各层间距(即电池顶部到上一层板底部)距离规定不小于140mm,同层蓄电池水平间距不小于30mm,保证电池柜内通风顺畅。同时电池柜尺寸余量足够,充分适应各品牌多种容量电池尺寸;
  • 电池柜侧板增加阻燃隔热棉,避免柜体两侧的HVDC或IT设备运行时产生的热传导。

图8,电池柜散热结构设计

除此以外,为提高同组蓄电池的温度均衡性,在模块化机房内使用电池柜时,还应关注空调设备的控制参数设置,优化从冷通道进入柜体内的气流,以确保柜体内不同位置蓄电池散热条件的一致性。以图9的数据为例,该图显示的某组安装于电池柜内的蓄电池在放电测试后恢复充电时的数据,通过绿色的温度柱状图可以发现不同编号的蓄电池出现了较大的温度差异,其中最高的接近29℃,而最低的只有24.5℃。

图9,某电池组充电时的温差

经过检查发现,该模块化机房因负荷较低,现场开启的列间空调数量少,且空调的风速参数设置只有0.4Pa,导致冷热通道的风压差过小,无法提供充足冷量流经蓄电池表面带走热量。在调整空调风速参数至3Pa后,各只电池温度开始逐渐变得均衡,极差从4.4℃快速降至0.9℃(见图10)。在模块化数据中心大规模发展的同时,作为运营管理者,不仅要重视IT类设备的运行环境,同样也不能忽视了蓄电池这类传统基础设施设备在新的应用场合下的环境条件。

图10:调整列间空调参数后的温差

既然提到了温度,这里就再讨论一下温度补偿功能。蓄电池在低温环境下适当提高充电电压、在高温环境下适当降低充电电压,这是所有蓄电池厂家的技术要求。而现如今的UPS、HVDC都具备了温度自动补偿功能,但是从风险和管理角度并不太推荐在数据中心室内环境下使用该功能,主要有以下几点原因:

  • 为了保证后备时间,数据中心采用多组电池并联的方式,而UPS、HVDC对蓄电池的充电管理是无法做到每组电池独立控制的,且温度补偿大都只能接入一个位置的采集数据,当蓄电池组之间有温差时,就不能做到每组电池都以合理的电压充电;
  • 温度采集器自身也存在精度偏差甚至故障的问题,假设温度采集数据低于了实际温度,若未及时发现并采取干预,便可能出现因充电电压过高而导致的过充甚至热失控事故;
  • 数据中心机房内电池环境温度由精密空调控制,且有动环监控系统,因此环境温度是实时可控的,能够长期满足电池厂家要求的标准温度。

因此建议,UPS、HVDC等电源设备配置并接入电池温度传感器,但只需要用来监测电池环境温度并用作报警、或进一步通过报警禁止均充功能即可(降低热失控风险),而不需要将温度值用做充电电压的实时补偿调节。

蓄电池管理参数设置

一个数据中心可能会同时选用多个品牌的蓄电池,每个厂家对电池充放电管理参数都有一定的要求且不尽相同,比如充电电压、均充时间等,而同样配套使用的UPS、HVDC也是品牌型号多样,电池管理的软件逻辑就各不相同了。

以某个机房为例,电池品牌涉及A品牌和B品牌两家(后面以A电池、B电池表示),配套的电源设备包含C品牌HVDC、C品牌UPS、D品牌HVDC三种,按照现场实际配置关系有以下4种组合:

首先根据不同蓄电池厂家的技术要求,我们可以理解A电池和B电池会有两套不同的电池管理参数。但是为什么同样是A电池,在C品牌和D品牌的电源设备中参数设置会不同,并且同是C品牌的HVDC和UPS还不同?为了解释清楚,首先介绍电池管理参数里的几个设置:

(1)浮充转均充电流

当电源设备检测到电池充电电流超过该设定值(一般为0.06C,C等于蓄电池容量)时,电源设备可以由浮充切为均充。

(2)浮充转均充容量

电源设备会计算电池放电过程中的放电容量,若放电容量超过设定值(一般为20%),在由放电恢复为充电后,电源设备可以将浮充切为均充。

(3)均充转浮充电流

电池处于均充过程时,随着容量的增加,充电电流会逐渐降低,当电源设备检测到电池充电电流低于该设定值(一般为0.02C,C等于蓄电池容量)时,电源设备可以将均充转回浮充。

(4)均充延时(也叫稳流均充)

电池处于均充过程时,当HVDC检测到电池充电电流低于均充转浮充电流,再保持一定时间的小电流均充状态,然后才转回浮充,这个时间就是均充延时。

(5)手动均充

电池长期未放电、且一直处于浮充状态,需要每隔一定时间手动执行一次均充,每次保持8至12小时,以保持电池的活性及单体电压均衡性。

先来看C品牌HVDC和D品牌HVDC在浮充转均充判据上的差别,以及现场针对性的参数调整:

然后再来看一下同为C品牌的UPS和HVDC,这两类产品虽是同一个厂家生产,但是属于不同的设备类型(设计团队可能不同),实际在电池管理功能上也会存在一些差异。比如UPS软件则没有“均充延时”这个逻辑,因此在每次放电完成后,只要“均充转浮充电流”达到判据条件,则会立即转浮充。而HVDC在同等判据下,还会根据“均充延时”维持一段时间的小电流均充过程。

所以如果UPS和HVDC设定为同样的均充转浮充电流,则会在同等放电工况下出现HVDC配套蓄电池均充时间大于UPS蓄电池的情况。在参数设置时,HVDC若启用了“均充延时”功能,可考虑将“均充转浮充电流”判据适当调高一些。

图11,UPS软件逻辑中的电池充放电过程示意图

那么过长的均充状态会有什么危害呢?如果各单体蓄电池电解液饱和度有一定的差异,在均充过程末期,饱和度较高的蓄电池电压就会开始上升,导致各单体之间电压不均衡,进而触发后台监控系统告警。尤其是对于使用寿命已到中后期的蓄电池来说更要特别注意,因为非计划性的均充较多情况出现在电池放电后,该过程完全由电源设备自动控制,现场运维人员若未及时关注均充时的单体电池状态,部分老化电池则有可能在长时间的均充过程中出现电压持续上升、异常发热的情况。

图12为某组蓄电池放电后,在自动均充下的电压数据曲线,可以看到在21:50左右,开始有个别电池电压出现持续上升,在人为手动关闭均充前,最高值达到了15.4V。

图12,某组蓄电池均充后期的单体电压数据

由上可以看出,现场运维人员应该仔细了解不同品牌蓄电池的参数特性,并熟知各类型电源设备的电池管理功能,同时对蓄电池的运行数据进行分析,以便于对不同搭配组合进行差异化参数设置,而不是让系统工作于默认参数下。但由此带来的问题是设备组合一旦变多,就会导致机房设备参数的复杂性,增加管理的难度。

因此对于大体量的数据中心建议采取的做法是:对不同蓄电池厂家的技术要求进行梳理,然后制定统一的电池管理功能需求,通过软件逻辑定制化的方式实现不同品牌类型电源设备的电池管理功能一致性。

结语

当蓄电池工作于良好的环境下,如果电源设备的电池管理参数设置也完全匹配了蓄电池的要求,是否仅依靠自动管理功能,就能提高电池使用寿命了呢?敬请期待下篇内容详解……

【说明】本文仅供学习和交流,文中部分图片来自网络,如涉版权,敬请联系删除,谢谢。

本文分享自微信公众号 - 腾讯数据中心(Tencent_IDC),作者:IDC鹅

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 腾讯第三代数据中心的节能成绩单

    2019年7月9日,全球知名绿色认证组织USGBC(美国绿色建筑委员会),以及旗下的绿色数据中心委员会等多个机构的业内专家应邀前往腾讯深圳光明数据中心,对其P...

    腾讯数据中心
  • 热门话题|T-Block数据中心建设经验分享

    曾宪龙:上午好,我是腾讯的曾宪龙,下面我分享的题目叫做T-Block数据中心建设经验分享,也是想借这样一个机会,向各位数据中心建设领域的专家讨教经验。简要介绍一...

    腾讯数据中心
  • 快讯:腾讯T-block数据中心斩获两项DCD大奖

    2016年11月9日晚,在香港国际会展中心举行的2016年度DataCenterDynamicsAPAC(DCD亚太地区) 颁奖典礼上,250多位行业同仁共同见...

    腾讯数据中心
  • 国产游戏开发者批Steam不了解东亚文化 美少女≠色情

    今年一月Steam开始严查成人向游戏作品,连《筑盛计划》这样的美少女画风的GALGAME作品都成了“祭品”,如此随性的操作,让许多制作人无所适从,并吐槽Stea...

    Zip
  • iOS持续集成(CI)——OCLint静态代码分析

    通过 -e 选项来忽略Cocoapods 来pod文件,通过--来分割 oclint-json-compilation-database 的参数与 oclint...

    羊羽shine
  • 检测应用的内存泄漏情况(shell)

    改来改去可能还存在一些没发现的问题,在工程量大的时候更容易出现,例如内存泄漏这样的问题,严重影响着系统性能。

    jianghaibobo
  • 移动web开发问题和优化小结

    到目前为止,互联网行业里,手机越来越智能化,移动端占有的比例越来越高,尤其实在电商,新闻,广告,游戏领域。用户要求越来越高,网站功能越来越好,效果越来越炫酷,这...

    守候i
  • 《coredump问题原理探究》windows版8.8节堆布局heap corruption第三个例子

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xuzhina/article/detai...

    血狼
  • 一日一技:如何使用弱引用优化 Python 程序的内存占用?

    Python 的垃圾回收机制通过引用计数来决定一个对象要不要被回收。当一个对象被引用次数为0时,它就会被作为垃圾回收从而释放 Python 内存。

    青南
  • Asp.net Webform 使用Repository模式实现CRUD操作代码生成工具

    Asp.net Webform 使用Repository模式实现CRUD操作代码生成工具 介绍 该工具是通过一个github上的开源项目修改的原始作者https...

    阿新

扫码关注云+社区

领取腾讯云代金券