前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >腾讯数据中心海量设施运营解决之道

腾讯数据中心海量设施运营解决之道

作者头像
腾讯数据中心
发布2018-03-16 10:32:47
1.1K0
发布2018-03-16 10:32:47
举报
文章被收录于专栏:腾讯数据中心腾讯数据中心

犹记得腾讯数据中心开放日,在天津数据中心参观的嘉宾们,得知腾讯现场设施运营团队只有十几人后,流露出的那一脸惊讶的表情。

虽然,腾讯数据中心的大部分运营工作都可以远程进行,但对于数以万计平米的天津数据中心来说,大量的基础设施(腾讯天津数据中心拥有几十家厂商的几千台大型基础设施。)运营工作必须要依靠现场人员完成,这些运营工作涵盖复杂的高压系统、空调系统等,运营人员还需掌握多样的数据中心新产品新技术应用。而天津数据中心负责基础设施运营屈指可数,How can we do that?

答案就是设施运营外包。本文将抽丝剥茧,带你了解腾讯数据中心设施运营外包的战略发展。

中压运营外包——从无到有

2010年下半年,天津数据中心1号楼建成在即。其中的数据中心配电系统是我们从未接触过的,包含2路中压市电及中压自控逻辑(在此之前,我们接触到的基本都是低压)。我们像大姑娘上花轿一般头一次要运营如此大型而复杂的数据中心,内心既兴奋又忐忑。面对这个挑战,我们遇到了问题:1、按照中压运营的制度要求,每班需要配备3人,7*24倒班,至少需要12人,短时间内很难招聘这么多人;2、中压运维太过专业,员工后期跨专业发展困难;3、交付压力巨大,运营团队接管已经箭在弦上。

综上考虑,我们选择了中压运营外包。经过供应商招标选出的专业中压运营外包公司,负责中压值班巡检和应急处理,顺利承接起数据中心的运营工作。此举大解放了我们的自有人力。

空调系统运营外包——怎能浅尝辄止

我们始终贯彻“灰度放量,迭代优化”的行事准则。在空调系统运营中,由于北方风沙较大,我们需要进行大量精细的清洗和更换滤网工作,但我们自有的技术人员缺乏与之相关知识、经验和实践能力。在尝到了专业外包的甜头后,我们很快想到并选择了空调系统运营外包。这些外包工作主要是日常保养、白天巡检和应急响应。不过,自有人员仍需值班,负责7*24低压巡检和夜班的空调系统巡检。

随着自控和BMS系统的不断完善,我们再次对外包工作进行优化。考虑到1号楼拥有较好的冗余设计基础,在中压外包人员充分掌握了现有中压系统运营技术的情况下,我们适当降低了中压系统巡检次数,优化了巡检路线,减少了对非核心系统的巡检。同时我们对外包人员开展了空调系统巡检和低压巡检的培训,配合不断进行的演习提高了中压外包人员的应急响应能力,使他们具备了能够承担全天所有配电巡检以及夜间的空调系统巡检工作的能力。至此,腾讯天津数据中心实现了7*24的“巡检工作、保养工作和应急响应”的全面外包化。

外包化蔚然成风,设施运营总包呼之欲出

14年,天津数据中心1号楼设施全部出质保期。对于核心设施,我们的维保策略是购买原厂维保。但核心设施之外繁杂的配套设施(如上万个阀门、开关、配电柜)以及公用连接工程(如管道等),需要设立质保期内建设总包,承担起维保职责。另外,3号楼的交付也迫在眉睫。

面对扑面而来的海量数据中心运营工作,设施运营总包成了自然而然的选择。我们采用了基于SLA指标的全新模式,由外包公司保证各项运营指标。外包公司可以发挥自己的特长和想法,以最终的运营指标作为服务交付。在商务团队的配合下,我们快速完成了招标并组建了设施总包团队,平稳接管运营,确保了天津数据中心能够给公司业务提供可靠的基础架构支撑。

不容小觑的设施运营外包战果

回首近四年的设施外包历程,我们的主要收益有:

1、极大降低了组建和管理自有团队的难度,控制运营成本;

2、专业外包公司分担了我们的设施维保和运营风险;

3、职能分工明确,外包人员和自有人员各司其职。

居安思危,思则有备,有备无患

相比于比较成熟的IT外包,设施运营外包存在更多的挑战:

1、运营管理欠缺:我们希望合作的外包公司能接管好设施运营,使我们得以抽身做其它业务,但实际上一些设施外包公司在主动运营管理的意识和作为方面存在短板;

2、成熟运营体系欠缺。IT外包遵循业界成熟的ITIL体系,经过不断的实践优化,大部分都已形成完善的管理体系,很多还有自己的电子流平台体系支撑。而设施运营体系则没有类似于ITIL的实践指导体系,很多外包商停留在外包技工人力阶段,工作管理也处于初级阶段,存在较大的随意性;

3、自动化工具的缺失。IT运营经过几十年的发展,已经形成了标准的协议和接口,各种自动化管理工具能较好地实现远程系统化管理;而设施自动化工具需求随数据中心发展快速增长,但传统的设施厂商出于市场的考虑都有自己的技术壁垒,各自的软件接口具有不同的组态,使得统一的自动化工具开发举步维艰。虽然国内也有一些设施自动化工具提供商,也可以做一些定制化,但实际的使用情况难以满足运营要求,使得设施管控更多依赖于现场一线人员的巡检、记录和操作。

4、专业人才不足。IT外包经过十几年的发展,从业人员较多;而设施运营人员需求仅仅是这两年随着数据中心的蓬勃发展而爆发性增长,这带来的问题有:(1)招聘有经验的人员很难;(2)有经验的人员年岁较大,不太愿意学习使用现代化工具;(3)部分传统行业运维人员主动性差;(4)人员流失率高。

继往开来,直面挑战

针对这些挑战,我们有一些不成熟的解决思路,欢迎大家共同探讨。

1、完善考核激励制度;

2、建立适用于自己的数据中心运营体系。借鉴业界标准,基于我们的文化在实践中不断试优,及时固化,持续迭代;

3、完善自动化运营工具。目前该项目正在进行初步的尝试;

4、推进设施运营的工作流程标准化,完善外包团队的培训体系、员工的发展通道和梯队建设。

未来无论是移动互联网、云计算或者人工智能,都需要强大的数据中心支撑。而数据中心的设施运营外包工作又是数据中心运营工作中的重中之重。我们希望和我们的合作伙伴一起完善外包工作,寻求解决方案,共同成长,实现共赢!

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文部分图片来自互联网,如果涉及到版权问题,请联系serenadeyan@tencent.com。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2014-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯数据中心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档