浅谈数据中心IT外包管理

【开篇语】

记得十年前刚入行的时候,我们部门还叫管理工程部,数据中心已经存在了,不过那时我们都喊他机房,而我的主要工作就是做好我们租用的运营商机房内几十台服务器和几台交换机的运维工作。

慢慢的我们的业务越来越好,服务器数量乘以10(也就是几百台),我的工作除了做好这几百台服务器运维工作的同时,开始要考虑机房的规划和设计、建设。这时问题来了,我就一个人怎么会有时间做这么多事情?运营质量如何保证?效率如何保证?员工幸福感从何谈起……

出于这些运营中的思考,结合实际的成本,我们有了第一批有设备厂商提供的驻场工程师。他们的出现解放了当时的我们,为我们快速规模化的发展提供了有效的支撑。

又过了几年,服务器数量又乘以10(达到了几千至上万台),我的工作又增加了基础设施、运营商管理等等等,一两个人的驻场已经不难满足我们的需求了,于是更为专业的外包团队出现了……

本文将以腾讯的IT外包的管理为基础,简单和大家探讨下数据中心的IT外包管理。

【名词解释】

外包是指企业动态地配置自身和其他企业的功能和服务,并利用企业外部的资源为企业内部的生产和经营服务。简单来说就是一些通过外部引进将一些专业资源快速解决人员不足的问题。本文主要谈的是外包中的人事外包管理。

目前的我们的数据中心外包主要是针对于运维而言,分为基础设施外包和IT外包。其中基础设施外包主要是针对数据中心内风火水电的相关基础设施的运行和维护工作(如配电、UPS、精密空调、柴油发电机组等),IT外包主要是指IT设备的运行和维护工作(如服务器、交换机、存储等)。

【引】

随着互联网行业的快速发展,数据中心也呈规模性发展,相应的在其基础上的业务规模也呈海量发展,对人们日常生活的影响也越来越大。以腾讯为例,其拥有即时通讯活跃账户8.08亿个,最高同时在线1.8亿个;微信/wechat合并月活跃账户数达到3.55亿个;QQ空间月活跃账户数达到3.55亿个;每日发送通信信息数超过180亿条;每日上传图片3.60亿张……牵一发而动全局,在我们万级服务器节点的数据中心内,任何一点疏忽或者误操作都会对我们的设备乃至我们的用户造成巨大的影响,从而直接影响腾讯的服务水平和用户的口碑。

所以说,如果外包是我们通往解决日益扩大的数据中心道路上的一扇大门,那么外包管理就是打开这个大门的一把钥匙。如何在质量、效率、提升的维度上把这群人捏合成一个整体,就是我们主要需要面对的问题。

一个数据中心的生命周期分为规划、建设、交付、运营、裁撤,而我们的IT外包团队从交付末期开始进入。从合同签署完毕开始,我们会进行人员的筛选面试,通过外包供应商提供的名单做针对性面试,挑选出适合数据中心运营的工程师进行岗前培训、资产交接后就可以正式上岗了。

【人员面试】

数据中心的IT外包团队一般有3个岗位,我们把他们分别命名为资产管理员、网络工程师、服务器工程师。

按照人员能力不同,我们一般会按照资产管理、网络、服务器三个岗位构建一个小型的人力模型,以责任心、专业能力、工作经验三个维度为标杆,通过HR、现场主管、现场笔试、数据中心经理这四轮面试进行综合评述,挑选出适合腾讯数据中心的外包工程师。

笔试题目示例

【岗前培训】

资产管理员负责数据中心现场和仓库的所有资产的管理,包括运营资产(如交换机、服务器等)、非运营资产(如服务器备件)、消耗品(如办公用品);网络工程师负责数据中心内涉及网络状态的相关运中心内涉及服务器故障的处理,如服务器故障的判断处理、系统部署的现场支撑等。

相应的,我们会准备一份独立于外包公司的新员工培训,或者称之为带训计划,由数据中心内的老员工指导他们更快地熟悉工作内容,适应腾讯数据中心体系的运维工作。我们按照资产、网络、服务器三个岗位分类,组织了约三十门和腾讯数据中心运营相关培训课程,并按照时间进度制定了一份带训计划表,2周完成,考核合格后可正式进入岗位。

此外,我们还会针对新进外包工程师的自身特点,安排一些跨专业培训,提升他们的综合能力,以解决突发情况下的人力限制,并促进团队内良性竞争,提升团队运维水平(人力复用计划)。比如,一名网络工程师在进行服务器知识培训后,经过测试可以处理服务器故障,提升了运维效率的同时,自身也得到了提高。

我们做了一份调查,在一个数据中心内两名专职工程师(1个服务器工程师和1个网络工程师)和两名复用计划的工程师在处理同样的10个服务器故障或网络故障时,效率居然可以相差100%甚至更多(算法:每个故障按0.5小时计算,专职工程师处理20个故障需要10小时;复用的仅需5小时)。

培训文档示例

【效率提升】

数据中心内规模简单可以通过服务器数量进行估算,腾讯的中等规模数据中心(简称AC)和大型数据中心(简称DC)有几百至几万台服务器。假设一个3000台服务器的机房,我们会安排一名网络工程师和一名服务器工程师,按照每天1%的故障率,每个故障处理30分钟估算,光服务器故障处理就要花费5小时,还不包括为了处理这个故障所花费的沟通、判断、报障、等备件的时间……

那怎么解决呢?

方案一:增加人力(土豪优选)

优势---快速解决问题;劣势---成本会成倍增加

方案二:复用人力(屌丝优选)

优势---成本增加为0,人员充分利用,复合问题解决能力加强(单兵作战能力);劣势---突发情况的应对成问题

方案三:复用人力+SO计划运维(谁用谁知道)

优势---同方案二;劣势---暂无

亲们,看到这里,方案三无疑最适合大型数据中心的运营。它除了将人员做最大化的复用,使其不存在运维死角,并有充足的人员储备,还通过制定计划,将故障分类:一级故障即时处理,二三级故障进行判断后根据实际情况能合并的统一合并在下午特定时间段处理(厂商备件也可以到位),超过报障时间的自动滚入下一SO(非一级故障)。通过SO,保障了整体的运维时间可控,提升了团队积极性,避免了工程师反复折返机房到办公室,使其可以有更多的时间进行现场效率的优化和自身技能的提升。

【互助提升】

一个人的提升方法有很多,可以问人、可以自学、也可以找专业的培训机构……

那一个团队的提升方法呢?自学?问人?培训机构?当然可以,如果时间和经费充足的情况下。那有没有办法在经费不足、时间有限的情况下让整个团队能一起提升呢?

在过去条件不好的时候,家里如果来了重要客人没法招待,街坊邻居往往会伸出援手每家每户提供一两盘拿手菜……不仅问题得到解决还加强了邻里之间的凝聚力。

基于这个典故,我们也开展了类似百家宴的技术分享会,每个季度,每一个工程师可以在这个小型论坛上畅所欲言,展示自己的专业技能、自己新学的知识或者是工作中发现的问题以及解决方法等。虽然每个人时间不是很长,但是积少成多,每一次的分享都成了团队成员共同的知识,就像百家宴一样,不仅凝聚了人心,还让大家养成了自学、自律、勤观察的良好习惯,再加上会后的团建,分享已经脱离了会议的本质而是变成了一个快乐的日子,也间接提升了团队的战斗力。

【绩效考核】

团队的考核相信对每个管理者而言都是很困难的。

腾讯有专门的服务管理组,负责制定绩效方面的考核标准,如技术能力、响应时间、处理效率、投诉率等,结合外包商内部的考核计划,每半年对外包团队做综合考评,对优秀员工给予奖励,并在考核后对外包团队每位成员进行PDI(工作发展面谈)面谈,指出其不足,共同制定符合其发展目标的IDP(个人发展计划),并经常性review,确保其茁壮成长。如果达不到标准,我们一般会根据PDI结果制定的IDP进行review,如果仍然达不到将直接予以劝退。

除此之外,我们也会对有突出贡献的外包工程师给予书面表彰,根据贡献大小给予一些实时激励。

【结束语】

腾讯的数据中心经过近十年的发展,从过去的几百台服务器到现在的几十万台服务器,已经变成了一个巨无霸。对工作的执着、精益求精、不断创新才使我们在经历这么大变化的情况下仍然能提供专业的服务。

就像我们的口号:“专业、服务、伙伴”,在外包管理上我觉得我们也是一个专业的服务伙伴,只有这样才能在海量运营的大背景下将我们的运维水平始终保持在一个高点。

Let’s do things better!

版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

本文部分图片来自互联网,如果涉及到版权问题,请联系serenadeyan@tencent.com。

原文发布于微信公众号 - 腾讯数据中心(Tencent_IDC)

原文发表时间:2014-10-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏知晓程序

王者荣耀上分不求人!有了这 4 款小程序,朋友都想找我开黑

然而,许多人虽然沉迷王者荣耀,左手行进右手大招忙着打野守塔,但却空有着王者的意识,日渐消瘦也不见段位改变,实在是令人扼腕痛惜!

922
来自专栏BestSDK

API接口成企业数字化转型基石,85%企业已采用API开发模式

在CA近日所披露的《API与数字化企业:由运营效率到数字化颠覆》全球调查报告中显示,中国大陆82%以上的组织已经采用了API,而有35%的组织已经达到了API应...

1213
来自专栏罗超频道

移动互联网悄然发生的十大变化,你必须知道

文:罗超 最近收到一份手机应用行业趋势绿皮书,长达60页的内容满满都是干货。一般行业都是白皮书,这个报告被称为“绿皮书”在于发布者是钟爱绿色的360公司。作为国...

36210
来自专栏人称T客

APP已死?开发者迎来最坏时代 也是最好时代

随着智能型手机成为新一代工具,应运而生的App开发也越趋竞争。现在,无论在苹果App Store或是Google Play上都已有超过 200 万个App,要如...

2995
来自专栏养码场

一周播报|一本顶级好书安利给各位JAVA

我觉得以后会出现一套家庭智能互联接口规范,任何开发的家用物联设备都能自动去匹配互联这个规范体系内的产品。但是这种设备成本主要在开发上,如果大量生产成本不会很高。...

773
来自专栏PPV课数据科学社区

大数据史记2013:盘点中国2013行业数据量(上)

说人类步入了信息时代,有个事情是非常重要的,就是物理世界的信息化,包括信息基础设施建设和数字化,紧接着就是如何将数字化的东西(数据)进行储存、传输、交...

4137
来自专栏企鹅号快讯

各行各业中微信小程序的巨大发展潜力

众多的成功案例,无不揭示小程序在各行各业的盈利能力和未来发展潜力: 1、小程序与丁香医生服务号关联后问诊数量飙升,提问转化率提高了10倍,满足足不出户就可以方便...

2548
来自专栏BestSDK

API接口成企业数字化转型基石,85%企业已采用API开发模式

在CA近日所披露的《API与数字化企业:由运营效率到数字化颠覆》全球调查报告中显示,中国大陆82%以上的组织已经采用了API,而有35%的组织已经达到了API应...

38213
来自专栏区块链领域

Datawallet发布DX Research—一个新的数据交易平台

2018年5月4日,Datawallet在app上发布了一个新的数据交易平台—DX Research。DX Research是Datawallet的研究开发平台...

1323
来自专栏数据猿

【案例】江苏银行—智多星大数据分析云平台

数据猿导读 平台上线至今,日均分析量在300左右,参与分析人员30人次。业务人员积极利用该平台获取大量有价值的信息,提升了数据需求的响应速度,减少了手工报表工作...

4278

扫码关注云+社区

领取腾讯云代金券