前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >和我去京东的机房走一走 | 11·11 倒计时

和我去京东的机房走一走 | 11·11 倒计时

作者头像
京东技术
发布2018-04-10 15:14:56
1.9K0
发布2018-04-10 15:14:56
举报
文章被收录于专栏:京东技术京东技术

“ IT资源服务”:京东商城、物流、金融、科技等京东所有业务的基层支持,有关基础IT资源的一切,包括设备采购的需求对接、部分IT设备的实际采购、机房服务器上架、操作系统部署、服务器运维保障等都是他们来完成实现的,没有他们,线上业务就没有了物理基础。

今天要介绍的,正是京东IT资源服务部里的一群硬件“发烧友”——基础设施管理部团队,他们承载了服务器设备从上架安装到交付使用的全部环节。

有一篇爆料文章:《11.11前夕撞见京东秘密武器进入某机房》正在朋友圈刷屏,今天就带大家一起,真正到京东的机房走一走。

11月11日即将来临,覆盖全中国的电商用户摩拳擦掌,一边疯狂的往购物车里囤积想要购买的商品,一边等待凌晨“00:00”时刻的到来。

对于京东IT资源服务部来说,也有一场购物的“狂欢”,不过这场“狂欢”是从7月份开始的,时间长达4个月。在他们的“购物车”里占比最大的一部分,则是数万台的硬件设备——服务器。

这数万台硬件设备服务器被分为多个批次和多个时间点,从各大厂商发货,无论是空运还是陆运,最终都会先交付给机房运维的同事们。

机房环境改造工程

在设备上架之前,首先要完成的就是机柜验收、综合布线等准备工作,京东IT资源服务部的综合支持服务的同事使用业内最先进的仪器,完成机房内综合布线的数据探勘,再进行机房综合布线的施工改造,最终交付给机房团队和网络团队使用。

(席地而坐与线缆斗争)

综合支持服务团队王少珩介绍:“在机房投入使用之前,我们先要完成机房网络的综合布线工作,机房输出和网络规划输出后,综合支持服务团队会先派工程师做机房的综合布线工程探勘,根据网络核心机柜的规划、网络架构的规划及现场机柜物理环境的分布,完成综合布线耗材的测量工作,提交线缆耗材的采购申请。”

“测量数据包括:线缆数量、长度、各个桥架的线缆走线方向等。还要根据网络的规划及现场机柜弱电桥架的走向,进行合理的改造建议。因为每个机房物理环境都不太一样,这样提前探勘是为了保证综合布线数据的准确性,以及在确保方案正常实施的同时,减少不必要的资源浪费。”

(综布团队的成果之一)

这些工作一般在设备到达现场之前半个月到一个月就要开始准备了,网络综合布线完成后,他们的工作也并没有结束,需要再继续协助机房运维的同事解决排障链路等问题。

其实在今年的“6·18”之前,并没有“综合支持服务”这一专业的技术团队,以往这方面的工作是通过外包给第三方公司完成的。

机房运维部的负责人董大伟说:“从公司的利益考虑,今年7月份我们IT资源服务部的负责人吕科总提出方案,8月份我们就正式成立了综合服务支持团队。历经3月的学习和磨练,我们已经发展成为一个专业的技术团队。

从9月中旬起,综合服务支持团队分成几拨人马,同时在不同的机房进行施工,仅18天就完成了近千个机柜的综合布线部署工作。10月初,为了保障公司大促设备的网络及设备使用,团队成员又主动放弃了国庆、中秋假期,还有同事是带病坚持,仅用13天时间就完成了别人需要45天完成的机柜综布工作。这一战果无论从效率还是质量方面,已经远远超过了以往给我们做综布的第三方公司。

更加值得一提的是在节约成本发面,我们做到了每部署一个机房就能比原来节省20%~40%的费用,大大节约了综合布线的成本。”

服务器上架,时间紧任务重

机房物理环境准备完毕后,就可以开始上架设备服务器了。今年京东“11·11”有数万台的服务器从大江南北汇集到各京东大机房投入使用,其中到货数量最多的就是L机房。

(冰山一角)

京东L及R机房负责人张海龙具体介绍了他们的工作:

“我们日常要对机房内的所有动作进行严格把控和管理,比如设备移动、设备的硬件扩容、机柜内布线、设备信息反馈以及日常的维护工作等。备战期间,我们的工作重点转移到了新设备的到货、上架部署、相关硬件扩容、还有协助OS组(系统支持)和SA组(技术保障)对于设备的维护和故障排错。目前服务器上架已经接近尾声,从7月备战到现在已经有数万台服务器完成上架交付工作。”

数万台的设备上架工作内容十分庞杂。首先根据业务及机柜数量、机柜电力、机柜空间做出设备上架规划,再根据厂商提供的设备到货日期做好机柜内线缆的预部署和机柜内托条等物理环境改造工作。

设备到货后,就要开始拆箱、验收、上架、硬件配置、连线、测试一直到最后的交付。每一环节单列出来都是一份耗时耗力、需要耐心的工程:

验收:按照厂商当天的到货数量、硬件配置信息、外观验收等,进行现场逐一核对;

硬件配置:核对配置清单,包括查看CPU、内存、加速卡、SSD硬盘等信息;

测试:主要测试带外管理的连通性测试、测试设备可以正常加电开机运行。

……

(小空间大工程)

像“11·11”的到货量,每一批设备从到货到上架,张海龙团队都需要完成“T+1”的工作模式,即当日到货,第二日完成交付,平均每天投入三十人左右。

如此庞大的设备量,在上架过程中有哪些挑战呢?张海龙说到:“一是对总体施工进度的把控,包括现场工作的协调,我们的备战预案上要规划好厂商发货的日期、发货量、物流周期、运输道路、甚至运输车辆的型号;二是在‘国庆’、‘十九大’期间,运营商会停止我们一切施工行为,针对这一问题,需要提前与运营商沟通好。”

这段时间,除了必要的加班加点,团队成员甚至废寝忘食,不仅没时间吃饭还经常睡在机房,一切都是为了“11·11”正常交付、保障业务正常运行。

董大伟补充说:“今年备战与往年有一点不同,以往每年7月份就开始备战工作,但是今年有很多需求是在8月份和9月份临时增加的,这给我们的工作带来了很多难点。临时性服务器数量增加、临时性机柜采购与交付,相当于把整个7、8月份的工作大部分压缩到了9月份和10 月份。而且又遇到了‘国庆’和‘十九大’期间运营商停止我们施工,更是压缩了工期。”

工期缩短,机房运维团队不得不临时变更规划,好在团队内在备战大促上已经积攒了丰富的经验,在紧张的时间里有保质保量完成所有进度。

无怨无悔京东人

IT资源服务部负责人吕科谈到:“京东每一年的IT设备、服务器、机柜数量都在逐年上升,但是机房运维部的人员并没有快速增加,而是更加注重每一位团队成员的技术和能力提升,以及工作从人工逐渐向自动化、智能化发展。”

备战期间,虽然面临很多临时性的需求变化,但是机房运维部的同事们从不惧怕困难险阻,他们以实际行动完成了一次又一次的极限挑战、一次又一次成功的完成了备战工作。

董大伟自豪的说到:“现在团队里任何一个人都有能力独挑大梁!大家的核心价值观、集体荣誉感、团队意识都很强。我们很荣幸也很开心的在京东这个平台发展,对于我们来说,京东发展的越快我们发展的也才越快,我们也希望通过自己的努力使京东发展的更好!”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-11-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 京东技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文档服务
文档服务(Document Service,DS)是腾讯云数据万象提供云上文档处理服务,支持多种类型的文件生成图片或 html 格式的预览,可以解决文档内容的页面展示问题,满足 PC、App 等多端的文档在线浏览需求。同时,本产品还提供文本隐私筛查能力,可以有效识别文本中的身份证号、银行卡号、手机号等敏感数据,满足数据可用性和隐私保护的各种要求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档