上篇介绍京东“11·11”备战中基础设施管理中的机房管理环节,《和我去京东的机房走一走》一文刷爆朋友圈,“去没去过机房?”已经成为11.11工程师见面问好的标配。
今天要介绍的是服务器在机房拆箱核对上架通电之后,接下来服务器进入的另一个专业环节——系统部署。
(系统支持团队)
工期紧张、设备数量庞大
京东IT资源服务部的基础设施管理部中,系统支持负责人刘永刚说:“我们的工作就是保障负责京东所有IDC机房里服务器的操作系统部署、系统排障和机器上架通电后的系统配置推送。
”这和我们买来新电脑需要安装操作系统相似,但是不同的是,‘11·11’大促新服务器上架量一次就有数万台,系统部署需要按照各个业务条线的需求进行安装;不同的业务场景,需要匹配的系统是不同的。”
除此之外,他们的团队还要负责对已经上线在运行中的服务器进行系统升级、迁移,比如让千兆的网络环境升级到万兆的网络环境等,相对应的系统也需要调整部署等,这些服务器的量加起来,工作也是十分量巨大的。
为备战“11·11”,从7月开始,京东IT资源服务部系统支持团队的同事们就开始和京东各业务一线展开沟通。确认他们的需求、系统版本、系统优化配置、BMC配置和软件部署需求等等。
基本上各个部门都有一套自己的需求,几年前这些都需要实地手动去安装,但是随着这几年京东迅猛发展,机器数量也激增,通过手动已经是不可能完成的任务了。
在IT资源服务部负责人吕科针对未来机房运维走向自动化,智能化的指导思想下,刘永刚团队牵头,通过对业务需求的深入分析和过往积累的丰富一线经验,和研发团队共同开发了服务器操作系统自动化部署平台,实现了:
(1)优化服务器系统安装,实现服务器自动化配置RAID和操作系统的自动化部署;
(2) 实现Web程序控制操作系统安装,减少手工配置繁琐的工作;
(3)批量操作系统自动化安装。
“从8月份到现在,我们团队已经接收了业务部门近千份单子。”负责IDC操作系统部署的席荣武介绍,“11·11备战期间因为有“国庆”和“十九大”,系统安装的最高峰值超过数千,一次性安装量将近千台设备。
流程优化,效率提高
回顾几年前,在还没有现在这样流程化、自动化、标准化的系统部署的时候,一切都靠他们人工配置设备系统。“那时京东的业务规模还没有现在这么大,新设备交付到手后,我们十几号人,对服务器进行人工安装,还算能应对。
”后来随着京东的业务量越来越庞大,除了IDC平台上有系统部署版块,刘永刚他们还另外开发了一套“克隆版”的系统部署平台,两套平台功能基本相同,目的一是为了随时备用,二是为了给有特殊需求(业务要求网络限制、网络隔离等)的业务方提供更好的服务。
“今年我们针对部分业务部门的特点,采取了一些优化手段,这在之前是没有的。比如在大数据部门的项目中,我们提前收集好他们的需求,在设备到货后先进行预部署,这样等到他们拿到服务器后就可以直接验收和部署应用。大大缩短了交付时间,保证大促正常进行。”刘永刚说。
一般情况下,流程要求系统支持部只有在业务部门分配到资源之后才可以开始部署系统,但是在“11·11”工期紧急的背景下,采取这种优化流程的手段是一种“客户为先”的创新,这也是京东IT资源服务部负责人吕科一直在团队中强调并践行的原则之一。
在新旧服务器系统部署工程接近尾声时,大部分服务器已经开始运行业务,系统支持的同事7*24小时随时待命,一起见证今年京东11·11全球好物节全民消费狂欢的顶峰时刻。京东IT资源服务部未来将会更加集中发力,全力支持京东各方业务创造新的历史。
京东技术:11.11基础架构峰会
将在11月25日,国家会议中心举办