首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机房运维实战经验:机房UPS异常停机事件的案例分析

在数据中心机房供电保障设备中,UPS在不同等级的机房中广泛应用。UPS因常年处于运行状态,难免会出现一些故障,正确使用UPS并做好维护工作是降低不间断电源故障率的关键因素,同时还要防范因 UPS 内部控制(接线、软件等) 系统引起的异常停机事故!

下面跟大家分享一个 UPS 因控制系统异常导致的停机事件,望引起各位运维小伙伴的重视!

故障现象:

电力监控系统突然报出多条告警信息:UPS 异常、UPS 输出屏失电(电压、电流同时归 0)、机房 N 个列头柜失电、UPS 系统 BCB 电池开关跳位等;

现场状况:

值班人员立即到场检查报警UPS,现场状态如下:

1、现场 UPS 输入柜主路、旁路电源开关状态无异常;

2、输出柜各开关处于合闸位置,输出柜失电;

3、输出柜各开关对应机房列头柜失电;

4、报警 UPS 对应蓄电池组开关处于跳闸位置;重合无法合闸;

5、UPS 本体各状态指示灯熄灭,报警灯常亮,同时伴有报警声。

应急措施:

1、立即对UPS 电源各开关状态及电量各参数进行检查, 电源柜三相电源电压无异常,主路、旁路开关均处于合闸位置,电流为 0;将 UPS 输出屏主进开关分闸;

2、按 UPS 本体故障清除键按钮;

3、将UPS 输入主、旁路断路器分闸,静待 30 秒后恢复合闸;此时 UPS 自动转为旁路运行状态;

4、将 UPS 运行状态由旁路供电模式转换为正常整流逆变模式;检查 UPS 输出各项电量参数无异常;此时再将电池组开关由跳位分闸到分位,然后重新进行合闸,开关恢复正常合闸位置;

5、将 UPS 输出屏各开关恢复合闸位置,机房失电列头柜恢复供电;

6、通知 UPS 厂家人员到场对故障设备进行检查,排除故障隐患。

故障原因排查:

UPS 厂家维护工程师到达现场,对 UPS 内部数据导出检查;发现在本 UPS 故障时,UPS 本机发出了紧急停机指令,导致 UPS 停机。随后对 UPS 本体仔细检查,发现 EPO 连线插头未插实!无其他异常现象。

结合现场实际情况:

1、UPS 电源柜主、旁路开关状态正常,输出中断,BCB 电池组开关跳闸,无法手动恢复合闸状态;

2、UPS 设备本体主、旁路输入回路锁死;

3、UPS 设备市电输入主、旁路分(UPS 本体断电)合闸后,UPS 自动恢复旁路运行模式;

4、手动启动逆变器,UPS 切换至主路逆变供电状态;

5、合 BCB 电池开关操作成功。

以上现象符合EPO 动作后紧急停机特征,故本次故障可判定为UPS 因内部错误指令导致停机故障。

后续改进措施:

UPS 是设备是供电可靠性的最后一道保障,为保障数据中心供电安全可靠,维护团队举一反三,防止类似问题再次发生。

立即对所有 UPS 运行安全隐患进行检查:全面检查UPS 运行环境,检查风扇运行情况,确保 UPS 散热条件满足要求; 检查 UPS 电池运行状态,确保电池具有后备保障能力;检查各 UPS 的内部EPO 接线情况,防止类似故障再次发生。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190111A0G4GP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券