万台服务器一人挑的五大挑战

视频内容

前言

SNG运营部组件运维团队主要负责SNG自研业务接入层和逻辑层的运营维护, SNG自研业务包括QQ、Qzone、看点、社交增值、企鹅电台、微云、腾讯课堂等,团队负责其中1.8万个域名、3000个业务模块的运维,在春节期间运维设备超过4万,单人运维设备超2万。我们在海量服务运维过程中面临哪些挑战呢?

五大挑战

1 挑战一:上万域名如何保证就近接入,如何应对运营商出口网络故障?

中国国土面积世界第三,横跨8个时区,有34个省、自治区、直辖市,腾讯IDC机房的分布主要是深圳、上海、和天津,那么问题来了:“江西离上海近还是离深圳近”,我们在招运维人员的时候是不是还得要求这个人上知天文下知地理才能做到就近接入?

不止如此,我们还有三大运营商和众多小运营商,问题变得更加复杂了,对于中国网络的现状,有人调侃过:“世界上最远的距离不是生与死,而是你在电信,我在联通”。我们在服务接入的时候还需要保证尽量不跨运营商,能够按照“国家+省份+运营商”的纬度进行调度。

2 挑战二:上万域名的https证书如何高效统一维护?

自动苹果颁布ATS安全规范之后,https支持就成为了腾讯域名接入的标准,团队负责1.8万个域名,这些域名的证书如何高效地申请、部署。大家也都知道,为了保证证书的安全性,域名证书都有有效期,我们证书的有效期一般是一年,如何没有任何遗漏地监控所有域名证书的有效期,建立稳定的证书过期的监控和续期机制,也是我们组件运维团队需要去保证的。

3 挑战三:服务器宕机如何保证业务无损和故障自愈?

当单人运维的服务器数量超过万台的时候,每天几台设备死机会成为常态,而且会在任何时间和任何地点发生,发生在你外出旅游时、发生在你和家人欢聚时,如果这些常态的单机故障会对运维人员的工作和生活造成影响,那么这个运维一定是干不长久的。如何保证单机故障无需运维人员介入干预,同时对现网服务无损;在设备故障之后,又是如何保证故障自动处理,在设备修复好之后服务流量自动恢复呢?

4 挑战四:如何维持现网服务的整齐划一,实现自动化能力?

自动化从来就不是运维侧单方能够搞定的,她是研发、运维和测试整个研发体系协同合作的结果,为了保证现网服务的整齐划一,运维在现网运营方面坚持了哪些原则,采用了哪些技术手段和管理方式,和研发、QA做了哪些配合?

根据互联网服务上线容易下线难的特点,一个线上业务,研发周期也就几个月,但是在线上的运营时间往往有几年、生命力强的生生不息,会长期运营下去,即使是已经从战略纬度放弃的业务,也往往死而不僵,由此可见服务的可维护性对于业务的重要性。运维对研发侧的影响力和研发侧对线上程序可维护性的重视程序很大程度上决定了自动化这里的包袱有多重。

5 挑战五:如何有效应对大型活动事件几百模块、上万设备的快速缩扩容?

社交业务的节假日效应非常明显,往往大家happy的节假日就是运维的苦难日,特别是春节的零点高峰和红包活动,将用户的欢乐和运维的苦难推上了高潮。SNG运维团队在苦难中成长,在一年又一年的春节活动中积累经验,直到现在能够比较轻松应对这一切。刚刚过去的2018年春节和红包活动,2周内总计交付设备32000多台设备,组件运维团队在设备交付后不到一周内,扩容641次,涉及535个模块,15701台设备。我们是如何有效应对大型活动事件几百模块、上万设备的快速缩扩容的呢?

应对挑战

在4月份的GOPS全球运维大会,我将以组件运维团队的实战经验为基础,从下面三个方面阐述我们如何应对上述挑战,做到万台服务器一人挑:

  • 海量服务的基础架构
  • 运维实践中总结的几个原则
  • 支撑大型活动事件的实战技巧
视频内容

原文发布于微信公众号 - 腾讯织云(TencentCOC)

原文发表时间:2018-03-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

下一代语音界面:从亚马逊 Echo 看未来的人机交互

【新智元导读】作为Web 2.0概念的提出者之一,著名科技媒体O'Reilly出版社的 CEO Tim O'Reilly 在本文中谈了他对下一代用户界面的思考:...

3344
来自专栏大数据挖掘DT机器学习

Twitter 数据分析师: 我们实际工作内容究竟是哪些

今天就让我们走进 Twitter 的数据分析世界,看看科技公司对于一个数据分析师的要求是什么?他们的实际工作内容究竟是哪些? ...

3299
来自专栏互联网数据官iCDO

最佳移动应用程序分析解决方案

译者:池金锐 审校:李晓艳 本文长度为1447字,预估阅读时间5分钟。 引言:230个开发者和180万个apps案例向我们展示了什么是最好的移动应用程序分...

3658
来自专栏Linux Python 加油站

面试 Linux 运维工作至少需要知道哪些知识?

作者:defcon来源:马哥教育链接:https://mp.weixin.qq.com/s/ZocozTkCNViMAtZIr7C7ww前言我们已经发过不少 L...

1922
来自专栏互联网数据官iCDO

做营销的你,用对数据分析工具了吗?

一个流程会很容易让人养成一个习惯,而若无意识或干预的话,习惯可能就不会再被改变了。

1461
来自专栏互联网高可用架构

从点线面体谈开发到架构师的转型【完整版】

1495
来自专栏互联网杂技

创业做一个App究竟要花多少钱?

作为互联网从业者,被外行的朋友们问及最多的问题是: “做一个网站需要多少钱?”或者“做一个APP需要多少钱?”。 作为做过完整网站项目和APP的人,今天从产...

4937
来自专栏互联网数据官iCDO

无需购买广告,25种方法教你驱动更多的电商流量(下)

促使紧迫感的内容效果有14%的点击打开率,59%的交易点击率,并且是其他营销邮件转化率的两倍。

832
来自专栏about云

大数据融合将解锁物联网真正潜力

随着洛杉矶CES大会的落幕,局势渐渐明朗:2015年将成为物联网元年。从牙刷可以安排体检到瑜伽垫可以实时分析你的动作,今年的CES大会上,3000多家企业推出了...

3897
来自专栏BestSDK

3个方法2个准则,让你玩转小程序

2007年1月9号,乔布斯发布了第一代IPhone手机,从此拉开了移动互联网的大幕,十年后,2017年1月9日,微信小程序正式问世,张小龙选择这个时间点推出小程...

3618

扫码关注云+社区