数据中心人力备份冗余方案及实践

一个机房启用后,我们通常希望人员稳定,且由于各个机房情况不同或启用已久的老机房,我们一般都希望熟悉机房特殊环境的驻场长久工作下去,不要轻易更换。一个稳定且熟悉机房环境的驻场能快速高效的处理机房各项事务,有利于机房稳定运营。

但稳定长久的驻场也会带来一些问题,比如:机房内的历史问题、特殊环境只有驻场一人知晓,一旦驻场离职就会造成信息的断层,可用数据的丢失。由于过于依赖于某一个人,即使明知驻场技能或积极性等不能满足日常运营的要求,也不愿轻易替换他人接手,害怕新人过来后不能承接历史信息,影响日常运营的稳定。

为规避以上问题,可以通过驻场在不同的机房、不同的职位轮岗来解决。

1.机房轮岗

驻场在各机房之间轮岗,可以让更多的人员熟悉不同的机房的特殊情况和历史信息。

2.职位轮岗

通过培训,让驻场具备各种岗位的能力需求,并轮流负责服务器故障处理、资产管理、网络故障处理等事项。

经过轮岗,使得各机房间、各职位间具有高度的冗余备份,不论哪个驻场离职或休假,都有熟悉机房环境、了解处理流程的人员立即顶替,真正做到机房的稳定运营。尤其是资产管理员轮岗更替时,需要进行资产交接盘点,每次的盘点都能检验机房资产是否完整、准确,有利于机房资产管理。

第一阶段:机房轮岗

机房轮岗不以学习技能为目的,主要是为了熟悉机房环境、了解属地处理流程。

1、服务器驻场在其他机房轮岗期间需熟悉机房运营环境、认识运营商相关负责人员、了解机架开关电流程、设备放行流程、人员进出流程、盘点服务器部件。轮岗结束后输出部件盘点报告、机房平面示意图、机房开电流程、设备放行流程、人员进出流程,针对轮岗机房给出可能的优化建议。

2、网络驻场在其他机房轮岗期间需熟悉机房环境、认识运营商相关负责人员,清点网络备件、网优部件,了解机房网络拓扑(包括专线和互联网出口等)、网络架构、机房主要网络设备型号、核心设备和波分所在位置、专线跳接ODF柜所在位置,识别运营商专线标签,以及设备放行流程。轮岗结束后输出盘点报告、机房平面示意图、机房网络拓扑图、机房网络架构图、标注核心设备所机架、ODF所在位置、运营商标签识别规则、设备放行流程、人员进出流程,针对轮岗机房给出可能的优化建议。

3、资产管理员在其他机房轮岗期间需熟悉机房环境、认识运营商相关负责人员;记住保险柜、仓库位置,以及其他可供存放资产的地方;审计货位划分是否正确、资产签收发货流程是否规范、资产领用流程是否规范、线上线下记录表格是否详细;清点保险柜和仓库内所有设备。轮岗结束后输出盘点报告、审计报告、机房平面示意图、机房货位示意图、设备放行流程,针对轮岗机房给出可能的优化建议。

4、由外包厂商定期安排非驻场人员到机房轮岗,作为各机房后备人员,在机房驻场请假或离职时能及时顶上承接日常工作,保证机房运营的稳定性。各类型后备人员需按照前述3项要求在轮岗结束后输出相应的报告,以作为后备人员熟悉机房的能力凭证。

第二阶段:职位轮岗

职位轮岗要求相对较高,需要驻场同时具备服务器、网络、资产三方面的技能。在保证机房稳定运营以及尊重驻场个人意愿的前提下,可以安排专门的技能培训以及其他驻场相互带教,待专业技能能够达到腾讯要求并通过腾讯评审后,可以开始定期承接或交换岗位,做到机房资源复用技能共享,从而形成高度冗余备份保障机房日常工作的连续性和稳定性。

1、服务器岗位轮岗要求:在服务器岗位轮岗前,驻场需通过培训和带教熟悉服务器硬件、操作系统、故障处理流程、报修流程等,在通过数经面试后方可进行轮岗;轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

2、网络驻场轮岗要求:在网络轮岗前需熟悉网络知识,能够熟练操作网络设备,了解属地机房网络架构和主要设备特性,在通过网络面试后需由原网络驻场带教一段时间,熟悉并输出网络故障处理流程后,方可进行轮岗;轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

3、资产管理员轮岗要求:在资产管理轮岗前,需非常熟悉各项资产管理规范,并配合原资产管理员进行资产管理,在通过数经面试后方可进行轮岗;正式轮岗前需要对仓库和保险柜内所有资产进行盘点交接,交接双方确认数据后正式启动资产管理岗位的轮岗。轮岗期间每周输出工作总结,反馈本周轮岗的内容和心得体会。

轮岗计划

1.机房轮岗

A和B机房之间进行机房间轮岗:机房稳定运营后,每季度安排一位B驻场到A机房轮岗,安排一位A驻场到B机房进行轮岗,同时每季度由外包厂商安排一位后备人员到B和A机房轮岗,了解各个机房情况;每次轮岗一个星期。

2.职位轮岗

A机房具备常驻的服务器、网络驻场和资产管理员,能够进行3个职位之间的轮岗;每半年安排至少安排一位驻场轮岗承担另一职位工作,每次轮岗一个月。

轮岗收益

1、 潘同学原是A机房的资产管理员,在通过自身学习和其他驻场的带教下已经成功转型为服务器驻场和网络驻场,同时负责服务器和网络;现在A机房在资产管理员、服务器驻场、网络驻场这3个职位已经全部形成了双备份;

2、 前A机房服务器驻场徐同学,通过自身学习、参与机房网络变更故障处理等网络事务,通过网络驻场面试成为正式的腾讯网络驻场,使得A机房当时的网络驻场做到了双冗余备份;

3、 2014年8月份安排A机房服务器驻场潘同学到B机房轮岗,轮岗期间潘同学熟悉B机房收发货物、机架开电、人员进出、资产审计等事务。通过这些工作,潘同学充分熟悉了B的机房环境、日常工作流程,运营商相关负责人员。10月原B驻场陆同学休假的半个月中,潘同学已完全独立承担B机房的日常事务,成功验证了机房轮岗的收益。

小结:通过这种轮岗机制,提升了跨区域、多岗位的人力资源储备,能有效应对数据中心运营过程中的各种人力和技能问题,真正实现人力备份冗余,保障数据中心的安全稳定运营。

版权声明:本文为腾讯数据中心原创,欢迎转载,转载需保持原文(包括标题、导语、正文、图片、数据以及文尾的二维码、版权声明等全部内容)完整。版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2016-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java思维导图

一个架构师谈什么是架构,以及怎么成为架构师

作者:袁鸣凯 来源:https://blog.csdn.net/lifetragedy/article/details/43925857 今天,来点轻松的话题。...

32560
来自专栏程序人生

Alexa:梦中的女神

引子 中午老婆发来一条消息:昨夜,你梦中叫了一个女人的名字,还两遍。 我大吃了一鲸。平日里我的梦话都 base64 简单编码了一下,怎么昨个直接明文输出了?我赶...

30670
来自专栏罗超频道

手Q微信:内部竞争与手足相残的微妙边界

罗超为虎嗅网撰稿,2013年5月10日发表于首页头条 手机QQ已开启腾讯经典模式——如同虎嗅之前预测,腾讯正在用生命山寨腾讯。用腾讯内网推荐的一篇生活电商团队...

36050
来自专栏程序员互动联盟

Android开发到底做什么?

android开发时下很流行,且工资高需求量大。随便大街上看一堆人手里都是拿着android手机,屌丝嘛我也是用android手机的,便宜嘛,不好用了不好看了换...

33850
来自专栏机器之心

测评 | 我们帮你测试了 Google Home,它会是你想要的完美助手吗?

机器之心原创 作者:高琳 Google Home 是谷歌在 2016 年 I/O 开发者大会上推出的一款智能硬件产品。时隔一年,Google Home 新增了 ...

38050
来自专栏互联网数据官iCDO

越长越好:简单6个步骤,教你创建吸引361,494个访客的内容

你煞费心机的为你的目标受众创建简短而精妙的内容;你喝了大量的咖啡,排除日常的一切噪音,想要给他们你的一切。

17030
来自专栏阮一峰的网络日志

技术的热门度曲线

全球最大的 IT 咨询公司高德纳(Gartner),有一个"技术热门度曲线"模型(Gartner Hype Cycle)。 该模型认为,一门技术的发展要经历五个...

30630
来自专栏软件

比较一下UG,CATIA,PRO/E,和SOLIDWORKS的优缺点?

ace_zh solidworks最简单,各种操作符合大部分人的操作习惯,功能满足绝大部分工业设计需要,普及程度很高,包容性好,和其他软件的互相导入导出协作都做...

85170
来自专栏CDA数据分析师

【干货】小白学数据分析:怎么做一份数据日报?

很多人反映刚刚接手数据分析工作,不知道怎么来做一份数据日报,不知道取哪些数据,关注哪些重点指标,事实上对于新手而言最好的办法就是去参考前辈和看看行业一些日报的形...

39970
来自专栏PPV课数据科学社区

【资料 】20大数据可视化工具及资料

巴西的新闻网站Visualoop,这是一家汇集来自互联网的信息图表和数据为中心的可视化网站,今年,他们继续评选出这一年最优秀的大数据可视化相关工具。 “我们很艰...

30540

扫码关注云+社区

领取腾讯云代金券