TEG海量运维服务背后的秘密

TEG为腾讯提供互联网行业全方位的运营解决方案和服务支持,运营着亚洲最大的网络、服务器集群和数据中心,拥有业内领先的基础架构云运营平台、云数据处理平台、互联网海量应用支撑服务平台,为亿级用户提供云计费服务和安全保障。这背后离不开一群7*24小时默默耕耘,负责标准化模块化数据中心网络架构、大集群平台自动化建设与运营,以及运营系统相关规划和建设,提供高可用保障体系的伙伴们。

机会来了,TEG三位运营大咖首次联袂参与2018第十届GOPS全球运维大会,为你揭晓海量运维服务背后的秘密。

内容如下:

《微信图片语音等海量存储及CDN的自动化运维体系》

《亿万级大促活动自动化保障体系》

《大型DCI网络智能运营实践》

1

云存储和接入让文件和消息内容实时存放。腾讯云平台总文件数达4000亿,用户数超20万;音视频平台上,日播放视频量近100亿次,视频带宽超20Tb。整体业务带宽超70Tb, 接入微信、QQ、视频等近千个自研业务。背后的自动化运维体系是怎样构建的?赶快学习一下。

《微信图片语音等海量存储及CDN的自动化运维体系》

裴泽良

腾讯TEG架构平台部运营开发负责人

个人简介:

从事运营系统相关的建设工作超过8年,参与建设了腾讯云CDB、腾讯海量文件存储系统TFS以及腾讯CDN服务的运营体系从初级到较为完善的各个阶段,目前专注于提升腾讯云上直播、点播、静态文件CDN、COS等业务的运营质量,以及建设更为高效与安全的自动化运维体系。

议题简介:

EB级存储量,百T级带宽,超十万台服务器,遍布全球多地域、多运营商的网络环境,公司内部业务与外部云上业务的接合,如此重体量下的多个业务如何在保证安全运营前提下的高效率运维,日常的海量监控,频繁的业务变更,复杂又多变的生产环境运维需求,需要尽量减少运维人工的参与,才能尽力提升运维效率,同时这里面的各个点又需要具备灵活应对的能力,本次分享藉由微信图片、语音业务入手介绍腾讯海量存储及CDN服务的自动化运维体系,着重介绍在监控告警、容量管理、变更方面的自动化运维,以及灵活需求下的自动化运维方案。

分享大纲:

1、 业务简介

2、 安全与高效率运维的挑战点

3、 监控告警、变更以及容量评估的运维体系

4、 灵活需求下的自助化运维方案

2

计费服务让游戏充值快速实现。TEG以全球领先的云计费平台,服务百万商户、亿级付费用户及支持百亿账户托管,具备千亿流水处理、秒级监控实时风控和7x24小时容灾的技术能力。而当大批量业务同时段集中大促营销活动,动辄几十倍的活动峰值,计费平台如何应用自动化、高可用大促保障体系来应对挑战。请听他为你细细道来。

《亿万级大促活动自动化保障体系》

黄宇

腾讯TEG计费平台部运营质量中心负责人

个人简介:

负责公司计费收入大盘的整体运营及管理工作,在虚拟支付、多终端移动支付、海量账户存储等领域长期耕耘,拥有十多年丰富的运营开发和运维规划经验,目前专注于devops、私有化运营平台、智能监控等能力建设。

议题简介:

腾讯业务规模和数量逐年迅猛增长,节假日、周年庆等大促活动日趋常态化,特别是在节假日期间包括LOL 王者荣耀 QQ飞车等公司头部应用的大批量业务同时段集中大促营销活动,动辄几十倍的活动峰值,如何对集群容量进行趋势预判、如何进行业务间隔离保护,以及在资源调度、运营可用度等方面都对公司计费平台提出了巨大的挑战。对此,腾讯计费构建了一套集现网压测、资源扩缩容、播测监控、鹰眼扫描、智能调度于一体的自动化、高可用大促保障体系,确保公司收入大盘万无一失。

分享大纲:

1、 介绍腾讯计费面对的业务大促复杂场景

2、 基于现网压测的容量评估体系

3、 资源扩缩容及智能调度实现

4、 实时鹰眼监控扫描平台

3

腾讯DCI网络为公司业务提供了高速、稳定、安全的数据同步传输、访问穿透、流量调度以及IDC数据中心的“无限”扩展能力,为业务的发展提供了强有力的保障;同时也是公司基础设施的强大竞争力之一,具有非常重要的战略意义。然而,随着业务发展与使用,腾讯DCI网络也面临着巨大的挑战。如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。TEG的网工们是怎样应对的呢?

《大型DCI网络智能运营实践》

何维兵

腾讯TEG网络平台部基础架构运营负责人

个人简介:

资深运维老兵,拥有10年运营商网络、6年互联网基础设施运营经验,擅长大型骨干网络、数据中心网络维护管理和运营支撑系统规划建设,目前专注于网络自动化运营、NetDevOps以及网络智能运营的实践探索。

议题简介:

大型DCI互联网络规模宏大、技术复杂度高,如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。传统的网工们往往需要花大量的时间总结经验,遍历故障路径进行排查,效率较低;或引入自动化,对分析逻辑进行自动化封装,但仍然存在通用性瓶颈和覆盖盲区;为此,腾讯针对DCI网络引入智能化的监控、定位系统,实现最快10分钟内快速发现网络异常并恢复业务。

分享大纲:

1、 黑镜智能监控定位系统介绍

2、 流量智能监控介绍

3、 诺克机器人助手介绍

4、 腾讯NRE体系介绍

2018第十届GOPS全球运维大会

(9月13日-14日上海站)

扫码报名通道

TEG运营/运维圈 & TEG人力资源中心

原文发布于微信公众号 - 腾讯TEG科技云端(TEGYunduan)

原文发表时间:2018-08-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

迈向云服务 要清楚的几件事

向云过渡前,数据中心用户真正应该关心的问题是什么?面对不同的服务需求,数据中心应该寻找什么样的云技术进行改造?决定云计算数据中心效率、能耗、管理等问题的关键技术...

3265
来自专栏PPV课数据科学社区

如何从一开始就设计好数据分析的基本框架

关于数据分析,避免6个错误 1.走得太快,没空回头看路 初创公司里的人们仿佛一直在被人念着紧箍咒:“要么快要么死,要么快要么死。”他们是如此着急于产品开发,以至...

2965
来自专栏BestSDK

飞语推出SDK集成方案,一天搞定多人语音开发

近日,飞语推出了SDK解决方案,开启多人语音功能新篇章。众所周知,真正让多方语音普及的并不是我们通常都会想到的电话会议或者类似QQ语音的第三方社交软件,而是多人...

3845
来自专栏人称T客

2018预测:互联互通、集成 SaaS需要跨过的两座大山

多少年信息孤岛、难集成困挠着CIO们多年,没想到SaaS的到来并没有改变这一现状,很多SAAS供应商总是喜欢说他们的SAAS产品和技术是多么完美无瑕的,如果独立...

3646
来自专栏大数据文摘

演讲精华:车品觉“实战大数据”高峰论坛

2946
来自专栏量子位

亚马逊Alexa再次抽风,莫名其妙把私人对话发给同事

两周前的一个晚上,俄勒冈波特兰一名女士Danielle接到她老公同事的电话,提醒他们赶紧关掉亚马逊音箱Echo。

1014
来自专栏CSDN技术头条

黄勇:真正的开源并非只是代码的开源,而是思想的开源

【编者按】一个普通的技术人讲述不平凡的技术人生路。黄勇,在工作十年后,写了一本书:《架构探险——从零开始写Java Web框架》,这本书是给他十年技术路的最好礼...

2578
来自专栏Java架构师学习

一名程序员的2017年末总结

眼看着又一年结束,想想今年过的还真是快,上个画面还是去年年末各种处理故障的场景,一眨眼一年就过去了。既然过了一年,还是得留下些思考和展望,否则就有些太无趣了。 ...

3737
来自专栏大数据文摘

【大数据100分】大数据架构及行业大数据应用(中级教程)

31015
来自专栏Java架构

什么是架构师?一 什么是架构师 二 架构师的职责三 架构师的误区四 架构师的基本素质五 架构师需要掌握的技术体系

很多的创业公司,一人身兼数职的情形还是很常见的。至少,我是经历过的,一个人包办了所有的开发过程,连测试我都做了,绝对的一条龙,但是经常踩钢丝、骑独轮车总会有失足...

932

扫码关注云+社区

领取腾讯云代金券