前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >真的那么巧吗?——加油站停业改造就遇上停电

真的那么巧吗?——加油站停业改造就遇上停电

作者头像
腾讯数据中心
发布2018-03-16 16:37:02
1.3K0
发布2018-03-16 16:37:02
举报
文章被收录于专栏:腾讯数据中心

2016年4月28日上午,腾讯数据中心高级工程师小K突然收到一张微信图片——《关于F加油站(腾讯B机房协议油站)停业改造升级的通知》。

小K当时心想,改就改嘛!反正我们签署了供油协议,只要停电不会影响我们机房供油就行。而且加油站停业改造就撞上停电概率也太低了,除非真的有那么巧!

转念又一想,通知都来了,还是要多嘴问问,应急时能否保障供油?小K微信联系F加油站的财务同事“如果期间停电,要加油,可以加吗”,财务答复:“不可以,没有员工上班了”,不问不知道,一问吓一跳!小K的职业神经开始紧绷。

小K偷偷溜出会议室,第一时间电话站长。借着日常良好的关系,拿到以下保障:

1油站现场配备2桶200升的柴油;

2配备一部油车及人员,用于到其他油站拉油;

3提前联系好其他油站,确保能持续供油。

或许在F加油站财务眼里,眼前这个紧张兮兮的人有点小题大做。腾讯B机房近一年都没停过电,短短5天内,就会停电,要加油,真的有那么巧?

2016年5月2日,伴随客厅音响传来的悠扬音乐,小K边收拾边享受这劳动节假期的最后一天。就在这时,不停作响的手机短信打破了这份宁静。对于运维人员来讲,来者不善!小K赶紧拿起手机查阅,很不巧,值班室传来电话。小K按下绿色接听键后,听到的是:B机房市电停电...@#¥%……&*

紧接着,几个电话的轮番轰炸,小K意识到事态的严重性,决定立马赶去机房支援(这时候小K母亲正在厨房做午饭,了解后,说垫点肚子再去吧,不过心系前线的小K称已经完全没有饿的感觉)。万幸的是,事发于白天,小K没有夜里的瞌睡。

不过,对于机房运维人员,从凌晨极低的“CPU利用率”到上升至100%,也就是一个电话或一条短信的事,小K早就习以为常。而且,在CPU满载的情况下,离心力通常是偏向你所属的机房的。

小K

小K用手机连接上车载蓝牙,与现场人员保持密切的沟通。得知柴发正常启动带载,冷机已经开启,他深呼了一口气,放慢了车速。随后前线又传来”机房温度、UPS供电及电力总负荷数据均正常“等好消息。不过,也有一个坏信息:环网柜在冒烟,应该炸掉了……不管怎么样,短期内,还是力保柴发正常及稳定供油为上策。

此后,小K给数经P电话通知停电情况,P与网络运维同事保持密切联系,监控网络设备是否有异常告警,发公告、更新公告信息等。

在飞驰的路上,小K算是第一时间(7分钟后)收到了供电局官方发来的停电短信通知。擦!影响不小,停了几条村、几个工业城。墨菲定律说“如果你担心某种情况发生,那么它就更有可能发生”——加油站停业改造就遇上停电,真的发生了!

30分钟后,小K达到现场,看到供电局派来的施工队正在拆环网柜内的线缆,略微有些惊讶:施工队何以能如此迅速地赶来,而且是在放假期间?问了几句,人家根本不搭理。也罢,先恢复现场服务再排查故障原因!

随后,小K到柴发房查看柴发运行情况。柴发面板上赫然显示着一个报警:FAIL TO CRANK(系统不起动) 。其实,刚才在停电后,1号柴发正常启动,而这台2号柴发并未正常启动,现场值班人员尝试启动无效,急!急!急!

3分钟后,2楼机房部分机柜前已经陆续开始报高温,这时候,值班人员已经“束手无策”,第一时间联系他们的主管。5分钟后主管到场(讲真的,这就是运维人员住得近的好处),5分钟后,柴发终于成功启动!(事后,主管回忆称,有种起死回生的感觉)。然后,2号柴发陆续对5台变压器后面的负载送电……@#$%^&*,2楼机房温度终于开始下降了。(片尾再讲柴发不能正常启动里面的故事吧)。

随后,小K到柴发加油处,看到了熟悉的面孔,向加油师傅打了一个招呼:怎么没有放假,应了一句:为你们服务。想了下,其实,Q民们,我也是为你们服务!

后来小K了解到,加油站本预留的车,因油站改造被挡住去路,开出不来(墨菲定律也说过,任何事都没有表面看起来那么简单)。还好,凭借资源调动的能力,他们调配到一辆油车,再到附近的加油站拉油保障(原油站现场预留的2桶油,其实早已经派上用场了)。

然后,小K叫上外包值班人员及主管简单碰了下,大概是对齐如下几点,也是经典的几点(所谓经典,基本上就是其他机房也可以通用的):

1要求每隔30分钟检查一次柴发运行情况并抄柴发运行数据(发现数据异常及时反馈);

2保障柴发用油,与油站保持良好的信息沟通;

3加强巡检频次,要求每小时对机房巡检一次;

4要求主管新增人力,到场协助保障运营安全;

5关注环网柜故障处理进展情;

6建立微信群,及时同步最新信息。

机房侧安排妥后,小K开始把注意力转向故障点上:什么原因导致,怎么修复,需要多长时间?(故障点见下图蓝色圈:大电流把电缆头瞬间熔断)

通过和现场施工人员的交谈,小K慢慢明确了问题的原因

1、什么原因导致?

柜内潮湿,导致某一相接地,国家电网官方客服电话95598也答复是腾讯侧环网柜故障导致停电(这里还是建议,有条件的机房每1-2年,停电检查一次环网柜。由于天气或负荷的起降,也可能导致端子处热胀冷缩引起松动发热等);变电站侧故障,导致某线路下多个环网柜烧毁(施工人员如是说)。

2、怎么修复?

需要更换环网柜。

3、需要多长时间?

正在协调环网柜货源,如果有合适的现货,当天内可以到货并修复。后面各环节进展顺利:环网柜到货——吊车到位——故障环网柜调离——新环网柜就位——加班接线——接线完毕——供电局人员到场——检查绝缘(23:10)——等待送电——及后续一整套熟悉的送电流程——联系网络运维同事发送结束公告——完毕(23:40)。

此次市电中断12小时24分钟,加油3200升,未造成业务影响。

有些时候国企的办事效率就是高,一般的单位很难做到。国家电网完全修复这起故障只需要不到12小时。遥想2014年,B机房另外一路专线(自己产权,所以故障也是自己搞),也是环网柜故障,经历48小时才修复。

到片尾了,讲讲柴发不能正常启动的故事吧。

原B机房有2路市电,但是不能互备(即相对独立的),因B机房进入裁撤末期,每路市电只使用10%左右容量负荷,为减少不必要的基本电费支持,我们决定对专线线路报停。专线现有负荷,则通过简单的改造,转移至另外一路市电去(也就是今天停电这路)。

Q&A

小编

报停一路市电后,安全等级是不是有所降低?

小K

原来2路市电下,也是市电+柴发保障,整体安全等级与设计等级一样。

绕了一圈,回到柴发不能启动的问题。因配电改造拆除了专线停电柴发自启信号线,导致柴发异常报警,本报警需要厂家前来解除(厂家计划五一后过来处理。也是无巧不成书,就遇上了停电),不过,主管是有测试过,手动可以把柴发启动,算是有应急处置的方案,也有知会其他人员,但偏偏那位同事一着急没能学以致用,也是有那么巧,哈哈。

小结

作为运维人员,千万不要抱有侥幸心理,相反,凡事都抱着就是有那么巧的想法,做好充分的准备及应急处置的对策,这样才能更好地保障机房运营安全、为业务稳定运行保驾护航。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
短信
腾讯云短信(Short Message Service,SMS)可为广大企业级用户提供稳定可靠,安全合规的短信触达服务。用户可快速接入,调用 API / SDK 或者通过控制台即可发送,支持发送验证码、通知类短信和营销短信。国内验证短信秒级触达,99%到达率;国际/港澳台短信覆盖全球200+国家/地区,全球多服务站点,稳定可靠。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档