真的那么巧吗?——加油站停业改造就遇上停电

2016年4月28日上午,腾讯数据中心高级工程师小K突然收到一张微信图片——《关于F加油站(腾讯B机房协议油站)停业改造升级的通知》。

小K当时心想,改就改嘛!反正我们签署了供油协议,只要停电不会影响我们机房供油就行。而且加油站停业改造就撞上停电概率也太低了,除非真的有那么巧!

转念又一想,通知都来了,还是要多嘴问问,应急时能否保障供油?小K微信联系F加油站的财务同事“如果期间停电,要加油,可以加吗”,财务答复:“不可以,没有员工上班了”,不问不知道,一问吓一跳!小K的职业神经开始紧绷。

小K偷偷溜出会议室,第一时间电话站长。借着日常良好的关系,拿到以下保障:

1油站现场配备2桶200升的柴油;

2配备一部油车及人员,用于到其他油站拉油;

3提前联系好其他油站,确保能持续供油。

或许在F加油站财务眼里,眼前这个紧张兮兮的人有点小题大做。腾讯B机房近一年都没停过电,短短5天内,就会停电,要加油,真的有那么巧?

2016年5月2日,伴随客厅音响传来的悠扬音乐,小K边收拾边享受这劳动节假期的最后一天。就在这时,不停作响的手机短信打破了这份宁静。对于运维人员来讲,来者不善!小K赶紧拿起手机查阅,很不巧,值班室传来电话。小K按下绿色接听键后,听到的是:B机房市电停电...@#¥%……&*

紧接着,几个电话的轮番轰炸,小K意识到事态的严重性,决定立马赶去机房支援(这时候小K母亲正在厨房做午饭,了解后,说垫点肚子再去吧,不过心系前线的小K称已经完全没有饿的感觉)。万幸的是,事发于白天,小K没有夜里的瞌睡。

不过,对于机房运维人员,从凌晨极低的“CPU利用率”到上升至100%,也就是一个电话或一条短信的事,小K早就习以为常。而且,在CPU满载的情况下,离心力通常是偏向你所属的机房的。

小K

小K用手机连接上车载蓝牙,与现场人员保持密切的沟通。得知柴发正常启动带载,冷机已经开启,他深呼了一口气,放慢了车速。随后前线又传来”机房温度、UPS供电及电力总负荷数据均正常“等好消息。不过,也有一个坏信息:环网柜在冒烟,应该炸掉了……不管怎么样,短期内,还是力保柴发正常及稳定供油为上策。

此后,小K给数经P电话通知停电情况,P与网络运维同事保持密切联系,监控网络设备是否有异常告警,发公告、更新公告信息等。

在飞驰的路上,小K算是第一时间(7分钟后)收到了供电局官方发来的停电短信通知。擦!影响不小,停了几条村、几个工业城。墨菲定律说“如果你担心某种情况发生,那么它就更有可能发生”——加油站停业改造就遇上停电,真的发生了!

30分钟后,小K达到现场,看到供电局派来的施工队正在拆环网柜内的线缆,略微有些惊讶:施工队何以能如此迅速地赶来,而且是在放假期间?问了几句,人家根本不搭理。也罢,先恢复现场服务再排查故障原因!

随后,小K到柴发房查看柴发运行情况。柴发面板上赫然显示着一个报警:FAIL TO CRANK(系统不起动) 。其实,刚才在停电后,1号柴发正常启动,而这台2号柴发并未正常启动,现场值班人员尝试启动无效,急!急!急!

3分钟后,2楼机房部分机柜前已经陆续开始报高温,这时候,值班人员已经“束手无策”,第一时间联系他们的主管。5分钟后主管到场(讲真的,这就是运维人员住得近的好处),5分钟后,柴发终于成功启动!(事后,主管回忆称,有种起死回生的感觉)。然后,2号柴发陆续对5台变压器后面的负载送电……@#$%^&*,2楼机房温度终于开始下降了。(片尾再讲柴发不能正常启动里面的故事吧)。

随后,小K到柴发加油处,看到了熟悉的面孔,向加油师傅打了一个招呼:怎么没有放假,应了一句:为你们服务。想了下,其实,Q民们,我也是为你们服务!

后来小K了解到,加油站本预留的车,因油站改造被挡住去路,开出不来(墨菲定律也说过,任何事都没有表面看起来那么简单)。还好,凭借资源调动的能力,他们调配到一辆油车,再到附近的加油站拉油保障(原油站现场预留的2桶油,其实早已经派上用场了)。

然后,小K叫上外包值班人员及主管简单碰了下,大概是对齐如下几点,也是经典的几点(所谓经典,基本上就是其他机房也可以通用的):

1要求每隔30分钟检查一次柴发运行情况并抄柴发运行数据(发现数据异常及时反馈);

2保障柴发用油,与油站保持良好的信息沟通;

3加强巡检频次,要求每小时对机房巡检一次;

4要求主管新增人力,到场协助保障运营安全;

5关注环网柜故障处理进展情;

6建立微信群,及时同步最新信息。

机房侧安排妥后,小K开始把注意力转向故障点上:什么原因导致,怎么修复,需要多长时间?(故障点见下图蓝色圈:大电流把电缆头瞬间熔断)

通过和现场施工人员的交谈,小K慢慢明确了问题的原因

1、什么原因导致?

柜内潮湿,导致某一相接地,国家电网官方客服电话95598也答复是腾讯侧环网柜故障导致停电(这里还是建议,有条件的机房每1-2年,停电检查一次环网柜。由于天气或负荷的起降,也可能导致端子处热胀冷缩引起松动发热等);变电站侧故障,导致某线路下多个环网柜烧毁(施工人员如是说)。

2、怎么修复?

需要更换环网柜。

3、需要多长时间?

正在协调环网柜货源,如果有合适的现货,当天内可以到货并修复。后面各环节进展顺利:环网柜到货——吊车到位——故障环网柜调离——新环网柜就位——加班接线——接线完毕——供电局人员到场——检查绝缘(23:10)——等待送电——及后续一整套熟悉的送电流程——联系网络运维同事发送结束公告——完毕(23:40)。

此次市电中断12小时24分钟,加油3200升,未造成业务影响。

有些时候国企的办事效率就是高,一般的单位很难做到。国家电网完全修复这起故障只需要不到12小时。遥想2014年,B机房另外一路专线(自己产权,所以故障也是自己搞),也是环网柜故障,经历48小时才修复。

到片尾了,讲讲柴发不能正常启动的故事吧。

原B机房有2路市电,但是不能互备(即相对独立的),因B机房进入裁撤末期,每路市电只使用10%左右容量负荷,为减少不必要的基本电费支持,我们决定对专线线路报停。专线现有负荷,则通过简单的改造,转移至另外一路市电去(也就是今天停电这路)。

Q&A

小编

报停一路市电后,安全等级是不是有所降低?

小K

原来2路市电下,也是市电+柴发保障,整体安全等级与设计等级一样。

绕了一圈,回到柴发不能启动的问题。因配电改造拆除了专线停电柴发自启信号线,导致柴发异常报警,本报警需要厂家前来解除(厂家计划五一后过来处理。也是无巧不成书,就遇上了停电),不过,主管是有测试过,手动可以把柴发启动,算是有应急处置的方案,也有知会其他人员,但偏偏那位同事一着急没能学以致用,也是有那么巧,哈哈。

小结

作为运维人员,千万不要抱有侥幸心理,相反,凡事都抱着就是有那么巧的想法,做好充分的准备及应急处置的对策,这样才能更好地保障机房运营安全、为业务稳定运行保驾护航。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需注明出处并保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2016-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

再见了,接码平台:交互式语音验证码

和传统意义上的验证码(CAPTCHA)专治“人机识别”有些不一样,有时我们需要确认用户是否正在持有某个特定的设备(当然也可以顺便做一下人机识别)。 此时,我们通...

1.6K7
来自专栏编程坑太多

踢球有球感,其实码农做开发有种感觉叫码感!

PS:┋◆冃.狌.交.伖,释.鲂.压.劦、棑.解.漃.瘼◆ 真 人】视||频. █网.址:wWw. GitHub 。Com◆┋

1342
来自专栏在线教育平台软件相关技术交流

在线教育平台,视频加密一机一码技术如何实现

录制的视频放在网上销售,但是又不希望视频被公开传播;主要是满足付费会员观看加密视频一机一码,非付费会员可以试看或者直接不能看;如果有传播泄露也能准确知道是哪个会...

1944
来自专栏机器人网

Aquabotix发布全新水下机器人,将AUV和ROV合二为一

在专业级的水下机器人世界中,基本上分为两种类型:对执行检查任务有好处的遥控无人潜水器(ROV)和更适合网格搜索的自主水下航行器(AUV)。最近Aquabotix...

2904
来自专栏知晓程序

好看又好玩!这些优质小程序,让你的周末绝不无聊 | 晓榜 #26

如何能够快速地提取这些信息?这款智能的文字识别小程序,可以帮你识别图片中的文字,解放你的双手。

1012
来自专栏PPV课数据科学社区

身为码农,为12306说两句公道话

我曾在淘宝写过一段时间代码,2012年在一家百强民企做电商副总,当时在极为艰苦的条件下带队开发了一个B2C网站,走支付宝和银联支付通道,年营业额千万级(当然实在...

4418
来自专栏黑白安全

进行社会工程学攻击前,你要做的准备

如果发现对方用facebook,那么我们就赚大了,你能得到对方更多的信息,甚至能混进他的圈子里面。

971
来自专栏镁客网

「视频」最智能的姨妈杯问世,分分钟秒杀姨妈巾!

1693
来自专栏黑白安全

浅析所谓的“安全圈黑客”

清一色的废站,无人管理,无人运维,甚至只是网上随便下一套源码随便改改,改改版权改改Logo

1042
来自专栏吉浦迅科技

【应用篇】原来Jetson TX2还能干这个....

加拿大公司Connect Tech开发了一款产品,在一个1U的机架里放置了24片Jetson TX2模组,这些模组通过其 1-Gbit 以太网连接,这些与带有两...

92210

扫码关注云+社区

领取腾讯云代金券