京东商城技术架构部 | 我为11.11保驾护航

集群技术部

京东快速发展的同时,应用规模、数据中心以及机器的规模都同步倍增,在面对如此大规模的机器,应运而生了京东数据中心操作系统(JDOS,JingdongDatacenter OS)。历经多年时间的技术沉淀与发展,JDOS不仅仅作为京东数据中心操作管理资源,更作为京东统一的PaaS平台致力于支撑业务系统快速交付、稳定运行,基础中间件托管提升基础平台敏捷交付。尤其是线上运行的阿基米德系列系统,将应用于实现京东商城数据中心资源智能调度,支撑在线业务系统与大数据计算混合部署融合计算,并节约采购成本。而每一次的11.11都是对JDOS系统的一次检验和挑战,经过无数次的紧张演练,问题排查,系统升级优化,服务应用快速交付;从容支撑大促高峰流量,保障了业务的高速发展。

全力保障双十一,集群平台来助力。

脚踏实地,再创佳绩。

统一调度,自由计算。

科技引领,正道成功。

▲集群技术部-南京职场日常备战

▲集群技术部-北京职场日常备战

系统保障部

随着京东的快速发展,各业务系统的复杂度也同步倍增,每个系统的故障都可能会产生意想不到的影响。针对各业务系统可能出现的故障,我们的“故障演练系统”在11.11备战期间为多个0、1级系统做了故障演练,验证各系统的稳定性,以及对已知故障是否具备足够的冗余度。同时也演练了各系统的研发和运维人员是否能够及时发现故障并启动应用响应预案。通过故障演练,各系统的研发和运维人员,查漏补缺,将所有可能薄弱点予以修复。最终将系统的风险点消灭于无形中,确保系统在遭遇各种故障时,都能够具备较高的可用性、连续性。11.11备战,资源准备也非常重要的一环,我们通过积极有效的系统资源调度,投入最少的资源、满足了所有部门对容器、中间件、数据库等的需求,充分保障了各系统的备战工作。

随着业务量的增长对系统的稳定性要求也将越高,呼叫中心主要对语音呼叫系统及网络进行了11.11前的功能灾备演练工作。语音系统此次主要针对呼叫中心的电话语音系统、录音系统、办公电话、电话会议等系统做了设备重启,功能模块灾备,系统性能进行了演练压测,保障各系统的稳定性。对业务60余条400热线进行应急流程开发以便应对11.11期间的话务高峰。对新上线网络电话、语音导航进行重点监控及性能优化确保稳定性。网络侧主要对宿迁呼叫中心一期、二期、扬州职场的办公互联网及交换机设备进行保障演练,对一期机房、二期机房、联通机房、扬州机房网络进行演练巡检,对各中心机房至成都、扬州、北京、联通机房、IDC机房及全国102所校企网络进行演练保障。监控中心重点监控内容接入smartcall自动外呼,确保重点告警及时率99.5%+,基础监控语音提醒,人工外呼,3分钟及时率99%+;2. 和ump开发团队多次沟通,提升ump运营首解率,目前首解率90%+。系统、网络、监控及桌面维护人员通力合作确保11.11各项备战工作圆满完成。

统筹资源,夯实基础,

全力保障双十一

在线存储部

在电商场景下大量业务需要提供高负载、高并发能力,数据读写速度往往会成为业务并发能力瓶颈,在线存储部所提供的高速存储能力很好的解决了用户这一痛点,海量存储容量、急速读写速度,对于数据存储系统来说这些近乎苛刻的要求如今已成为在线存储部各种产品的标配,应用这些产品之后各业务线研发人员从此可以将精力主要集中到自己的业务逻辑,大大减轻了备战压力。

在线存储部,为您提供每天24小时的可靠存储服务。

在线存储部的备战流程及相关准备:

1、 服务器巡检,包含:服务器内存、swap、crc、磁盘;

2、 均衡服务器内存;

3、 将繁忙的实例提前扩容;

4、 提前指定预案;

5、 故障演练;

6、 重新梳理监控报警;

7、 重点业务集群单端排查是否存在隐患。

▲备战中

智能存储部

智能存储部负责京东图片系统和对象存储整体架构与维护,保障11.11大促期间图片展示及整体存储服务稳如泰山!智能存储部参与前台千人千面项目,提供APP首页首焦广告图智能排版、各推荐位透底图输出等服务,保障11.11大促期间千人千面高效落地!

智能存储,坚如磐石,

稳如泰山,无懈可击!

智能存储部负责了大促期间图片系统和对象存储等系统研发,加强各环节监控,保证系统稳定,并设置完备的应急预案,对紧急事件快速响应,保障大促顺利平稳!

中间件平台部

在各团队的紧张而稳步的准备中,我们又迎来了全行业的现象级狂欢盛宴-11.11。整个11月,消费者翘首以盼,商家摩拳擦掌,友商蓄势以待,一切都为了那激情燃烧的狂欢。巨大的期待带来的不仅仅是巨大的销量,同样也会给系统带来巨大的压力。在京东过去的十二年中,一次又一次辉煌的11.11胜绩背后,是众多研发兄弟们的不懈努力。今年预计又会迎来一个新的流量高峰。

从10月开始,本部门开始对和系统进行梳理检查,继续落实责任制,下游系统对上游系统提要求,并对服务提供方和调用方的服务能力进行梳理,以此推动服务的提供方和调用方充分沟通。随后大家就各中间件系统JSF、MQ、ES和日志监控等负责运维以及测试人员的各环节进行讨论和探索,并且指定相关负责人,推动各项大为促准备工作开展。

中间件一心,其利断金

Team最近几个月中间件做的备战准备:

1、10月份开始我们就开始一个系统一个系统的梳理问题和需求,分享技术方案,仔细盘查可能的风险点,并做好容灾的方案;

2、安排所有系统负责人基于梳理的结果做系统的优化和稳定性的完善;

3、基于所有系统都梳理过一遍,正式进入备战阶段,包括应用梳理、部署扩容、应急预案确认以及值班计划;

4、各系统分别做功能测试,性能测试,压力测试;

5、结合业务场景做切换演练。

数据库技术部

数据库技术部对数据库系统进行优化和智能化改造,通过智能分析预测技术,在大促前对资源进行合理调度;通过对监控升级,在大促期间应对高峰及时预警;通过接入ContainerFS对备份系统升级,在事后灾备方面做好切换及恢复的准备和方案,从事前、事中、事后对11.11大促进行全面保障,力争做到防患未然,及时发现,最快处理,确保11.11数据库安全、稳定、高效运行。

知识计算部

知识计算部基于大规模商品知识图谱,对商品数据提供类目错挂预测、山寨、违规商品治理等,累计下架近亿SKU。对用户社区的评价问答提供最后的防火线,违禁识别占比99%。为前台提供情感理解、语义标签、差异化京豆激励等一系列服务,有效防止问题商品和低质评论进入京东生态,提升用户体验。

在备战期间,知识计算部联合业务团队明确定制化的应急预案,对全链路进行多机房互备和软硬件服务扩容,同时采用全流量压测进行演练,能够确保在11.11流量洪峰下平稳运行,另外,增加了全天候人工值守+短信异常报警等监控,保证在第一时间能够发现问题,并采取有效应急措施对异常进行快速处理。

聚焦知识、强化计算

------------------END------------------

原文发布于微信公众号 - 京东技术(jingdongjishu)

原文发表时间:2018-11-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏工科狗和生物喵

一个机械人到半只程序猿的进化之旅

开篇语 好吧,名字是不是很有新意?写出来的刹那我差点在自习室感动到落泪,但是后来想想,好像有点文不对题啊~~但是谁叫这个标题这么帅呢?一向务实的我都忍不住败倒在...

492100
来自专栏自动化测试实战

面试如何发挥才能拿到高于自己当前水平的工资?

大家好久不见啦~谢谢大家对船长的关注。最近船长认识了好多有着3-5年工作经验可是工资还没到15k的朋友。所以船长觉得有必要和大家说一下该如何面试,才能拿到高于自...

12830
来自专栏原创

Bad Push-让人恍然大悟的14种错误推送方式

导语 APP开发商们总是在不断尝试新的东西,有些行得通,有些却不行。 删除一封垃圾邮件是件微不足道的事情,又或者随手把一张无关紧要的广告纸丢进垃圾桶,但是消息...

45190
来自专栏程序人生

为什么我比你有时间

这个话题好几周前就有人问,我当时考虑了一下,觉得其实自己不是很适合讨论时间管理或者精力管理,就一直拖着。最近又有不少人在问,所以决定还是作答。但先声明:我个人的...

28140
来自专栏企鹅号快讯

元旦这一天,很多程序员都做了这10个决定!

今天是2018第一天,我们又开始了新的一年。在大家都为新年制定目标计划的同时,作为一名程序猿,要想在互联网世界混得风生水起都有哪些要做的?下面小编为你列出了20...

182100
来自专栏惶心 - 技术博客

我所要说再见的 网易云

比如说其实无论 PC 端还是 移动端,界面我觉得都比 QQ音乐 易于操作,功能更简单。

37430
来自专栏张善友的专栏

陈皓谈对待技术的态度

最近在酷壳上,陈皓撰文阐述了对待技术的态度,如何面对技术的快速更新?是否做软件开发比以前更加困难了?他都给出了自己的见解。 陈皓首先针对“如何看待日新月异的新技...

22350
来自专栏java一日一条

优秀的前端开发工程师简历是怎么样的?

在阿里常年招聘,筛过各式各样的简历,每到招聘季,筛简历、面试过程非常耗精力,当然,原因之一是我想招非常优秀的人,宁可多花些时间,另一方面,除了那些不合格的简历之...

9910
来自专栏Java学习网

一个程序员的时间管理

  如果每天都有86400元进入你的银行户头,而你必须当天用光,你会如何运用这笔钱? 天下真有这样的好事吗?   是的,而且这种好事每天都在发生着,你真的有这...

29140
来自专栏web前端教室

【今晚8点】- 先行者计划:作业 &总结 & 讲一些有难度的事情

这就至于了一个问题,很多同学会花了很多心思在教程的收集上,花心思在各种示例、demo等的代码的整理上面。就像七龙珠一样,收集了n篇教程之后,你的前端开发能力就自...

9000

扫码关注云+社区

领取腾讯云代金券