首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >京东商城技术架构部 | 我为11.11保驾护航

京东商城技术架构部 | 我为11.11保驾护航

作者头像
京东技术
发布2018-12-12 15:32:40
12.6K0
发布2018-12-12 15:32:40
举报
文章被收录于专栏:京东技术京东技术

集群技术部

京东快速发展的同时,应用规模、数据中心以及机器的规模都同步倍增,在面对如此大规模的机器,应运而生了京东数据中心操作系统(JDOS,JingdongDatacenter OS)。历经多年时间的技术沉淀与发展,JDOS不仅仅作为京东数据中心操作管理资源,更作为京东统一的PaaS平台致力于支撑业务系统快速交付、稳定运行,基础中间件托管提升基础平台敏捷交付。尤其是线上运行的阿基米德系列系统,将应用于实现京东商城数据中心资源智能调度,支撑在线业务系统与大数据计算混合部署融合计算,并节约采购成本。而每一次的11.11都是对JDOS系统的一次检验和挑战,经过无数次的紧张演练,问题排查,系统升级优化,服务应用快速交付;从容支撑大促高峰流量,保障了业务的高速发展。

全力保障双十一,集群平台来助力。

脚踏实地,再创佳绩。

统一调度,自由计算。

科技引领,正道成功。

▲集群技术部-南京职场日常备战

▲集群技术部-北京职场日常备战

系统保障部

随着京东的快速发展,各业务系统的复杂度也同步倍增,每个系统的故障都可能会产生意想不到的影响。针对各业务系统可能出现的故障,我们的“故障演练系统”在11.11备战期间为多个0、1级系统做了故障演练,验证各系统的稳定性,以及对已知故障是否具备足够的冗余度。同时也演练了各系统的研发和运维人员是否能够及时发现故障并启动应用响应预案。通过故障演练,各系统的研发和运维人员,查漏补缺,将所有可能薄弱点予以修复。最终将系统的风险点消灭于无形中,确保系统在遭遇各种故障时,都能够具备较高的可用性、连续性。11.11备战,资源准备也非常重要的一环,我们通过积极有效的系统资源调度,投入最少的资源、满足了所有部门对容器、中间件、数据库等的需求,充分保障了各系统的备战工作。

随着业务量的增长对系统的稳定性要求也将越高,呼叫中心主要对语音呼叫系统及网络进行了11.11前的功能灾备演练工作。语音系统此次主要针对呼叫中心的电话语音系统、录音系统、办公电话、电话会议等系统做了设备重启,功能模块灾备,系统性能进行了演练压测,保障各系统的稳定性。对业务60余条400热线进行应急流程开发以便应对11.11期间的话务高峰。对新上线网络电话、语音导航进行重点监控及性能优化确保稳定性。网络侧主要对宿迁呼叫中心一期、二期、扬州职场的办公互联网及交换机设备进行保障演练,对一期机房、二期机房、联通机房、扬州机房网络进行演练巡检,对各中心机房至成都、扬州、北京、联通机房、IDC机房及全国102所校企网络进行演练保障。监控中心重点监控内容接入smartcall自动外呼,确保重点告警及时率99.5%+,基础监控语音提醒,人工外呼,3分钟及时率99%+;2. 和ump开发团队多次沟通,提升ump运营首解率,目前首解率90%+。系统、网络、监控及桌面维护人员通力合作确保11.11各项备战工作圆满完成。

统筹资源,夯实基础,

全力保障双十一

在线存储部

在电商场景下大量业务需要提供高负载、高并发能力,数据读写速度往往会成为业务并发能力瓶颈,在线存储部所提供的高速存储能力很好的解决了用户这一痛点,海量存储容量、急速读写速度,对于数据存储系统来说这些近乎苛刻的要求如今已成为在线存储部各种产品的标配,应用这些产品之后各业务线研发人员从此可以将精力主要集中到自己的业务逻辑,大大减轻了备战压力。

在线存储部,为您提供每天24小时的可靠存储服务。

在线存储部的备战流程及相关准备:

1、 服务器巡检,包含:服务器内存、swap、crc、磁盘;

2、 均衡服务器内存;

3、 将繁忙的实例提前扩容;

4、 提前指定预案;

5、 故障演练;

6、 重新梳理监控报警;

7、 重点业务集群单端排查是否存在隐患。

▲备战中

智能存储部

智能存储部负责京东图片系统和对象存储整体架构与维护,保障11.11大促期间图片展示及整体存储服务稳如泰山!智能存储部参与前台千人千面项目,提供APP首页首焦广告图智能排版、各推荐位透底图输出等服务,保障11.11大促期间千人千面高效落地!

智能存储,坚如磐石,

稳如泰山,无懈可击!

智能存储部负责了大促期间图片系统和对象存储等系统研发,加强各环节监控,保证系统稳定,并设置完备的应急预案,对紧急事件快速响应,保障大促顺利平稳!

中间件平台部

在各团队的紧张而稳步的准备中,我们又迎来了全行业的现象级狂欢盛宴-11.11。整个11月,消费者翘首以盼,商家摩拳擦掌,友商蓄势以待,一切都为了那激情燃烧的狂欢。巨大的期待带来的不仅仅是巨大的销量,同样也会给系统带来巨大的压力。在京东过去的十二年中,一次又一次辉煌的11.11胜绩背后,是众多研发兄弟们的不懈努力。今年预计又会迎来一个新的流量高峰。

从10月开始,本部门开始对和系统进行梳理检查,继续落实责任制,下游系统对上游系统提要求,并对服务提供方和调用方的服务能力进行梳理,以此推动服务的提供方和调用方充分沟通。随后大家就各中间件系统JSF、MQ、ES和日志监控等负责运维以及测试人员的各环节进行讨论和探索,并且指定相关负责人,推动各项大为促准备工作开展。

中间件一心,其利断金

Team最近几个月中间件做的备战准备:

1、10月份开始我们就开始一个系统一个系统的梳理问题和需求,分享技术方案,仔细盘查可能的风险点,并做好容灾的方案;

2、安排所有系统负责人基于梳理的结果做系统的优化和稳定性的完善;

3、基于所有系统都梳理过一遍,正式进入备战阶段,包括应用梳理、部署扩容、应急预案确认以及值班计划;

4、各系统分别做功能测试,性能测试,压力测试;

5、结合业务场景做切换演练。

数据库技术部

数据库技术部对数据库系统进行优化和智能化改造,通过智能分析预测技术,在大促前对资源进行合理调度;通过对监控升级,在大促期间应对高峰及时预警;通过接入ContainerFS对备份系统升级,在事后灾备方面做好切换及恢复的准备和方案,从事前、事中、事后对11.11大促进行全面保障,力争做到防患未然,及时发现,最快处理,确保11.11数据库安全、稳定、高效运行。

知识计算部

知识计算部基于大规模商品知识图谱,对商品数据提供类目错挂预测、山寨、违规商品治理等,累计下架近亿SKU。对用户社区的评价问答提供最后的防火线,违禁识别占比99%。为前台提供情感理解、语义标签、差异化京豆激励等一系列服务,有效防止问题商品和低质评论进入京东生态,提升用户体验。

在备战期间,知识计算部联合业务团队明确定制化的应急预案,对全链路进行多机房互备和软硬件服务扩容,同时采用全流量压测进行演练,能够确保在11.11流量洪峰下平稳运行,另外,增加了全天候人工值守+短信异常报警等监控,保证在第一时间能够发现问题,并采取有效应急措施对异常进行快速处理。

聚焦知识、强化计算

------------------END------------------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-11-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 京东技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档