前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >TEG海量运维服务背后的秘密

TEG海量运维服务背后的秘密

作者头像
TEG云端专业号
发布2018-09-25 15:53:22
2.9K0
发布2018-09-25 15:53:22
举报

TEG为腾讯提供互联网行业全方位的运营解决方案和服务支持,运营着亚洲最大的网络、服务器集群和数据中心,拥有业内领先的基础架构云运营平台、云数据处理平台、互联网海量应用支撑服务平台,为亿级用户提供云计费服务和安全保障。这背后离不开一群7*24小时默默耕耘,负责标准化模块化数据中心网络架构、大集群平台自动化建设与运营,以及运营系统相关规划和建设,提供高可用保障体系的伙伴们。

机会来了,TEG三位运营大咖首次联袂参与2018第十届GOPS全球运维大会,为你揭晓海量运维服务背后的秘密。

内容如下:

《微信图片语音等海量存储及CDN的自动化运维体系》

《亿万级大促活动自动化保障体系》

《大型DCI网络智能运营实践》

1

云存储和接入让文件和消息内容实时存放。腾讯云平台总文件数达4000亿,用户数超20万;音视频平台上,日播放视频量近100亿次,视频带宽超20Tb。整体业务带宽超70Tb, 接入微信、QQ、视频等近千个自研业务。背后的自动化运维体系是怎样构建的?赶快学习一下。

《微信图片语音等海量存储及CDN的自动化运维体系》

裴泽良

腾讯TEG架构平台部运营开发负责人

个人简介:

从事运营系统相关的建设工作超过8年,参与建设了腾讯云CDB、腾讯海量文件存储系统TFS以及腾讯CDN服务的运营体系从初级到较为完善的各个阶段,目前专注于提升腾讯云上直播、点播、静态文件CDN、COS等业务的运营质量,以及建设更为高效与安全的自动化运维体系。

议题简介:

EB级存储量,百T级带宽,超十万台服务器,遍布全球多地域、多运营商的网络环境,公司内部业务与外部云上业务的接合,如此重体量下的多个业务如何在保证安全运营前提下的高效率运维,日常的海量监控,频繁的业务变更,复杂又多变的生产环境运维需求,需要尽量减少运维人工的参与,才能尽力提升运维效率,同时这里面的各个点又需要具备灵活应对的能力,本次分享藉由微信图片、语音业务入手介绍腾讯海量存储及CDN服务的自动化运维体系,着重介绍在监控告警、容量管理、变更方面的自动化运维,以及灵活需求下的自动化运维方案。

分享大纲:

1、 业务简介

2、 安全与高效率运维的挑战点

3、 监控告警、变更以及容量评估的运维体系

4、 灵活需求下的自助化运维方案

2

计费服务让游戏充值快速实现。TEG以全球领先的云计费平台,服务百万商户、亿级付费用户及支持百亿账户托管,具备千亿流水处理、秒级监控实时风控和7x24小时容灾的技术能力。而当大批量业务同时段集中大促营销活动,动辄几十倍的活动峰值,计费平台如何应用自动化、高可用大促保障体系来应对挑战。请听他为你细细道来。

《亿万级大促活动自动化保障体系》

黄宇

腾讯TEG计费平台部运营质量中心负责人

个人简介:

负责公司计费收入大盘的整体运营及管理工作,在虚拟支付、多终端移动支付、海量账户存储等领域长期耕耘,拥有十多年丰富的运营开发和运维规划经验,目前专注于devops、私有化运营平台、智能监控等能力建设。

议题简介:

腾讯业务规模和数量逐年迅猛增长,节假日、周年庆等大促活动日趋常态化,特别是在节假日期间包括LOL 王者荣耀 QQ飞车等公司头部应用的大批量业务同时段集中大促营销活动,动辄几十倍的活动峰值,如何对集群容量进行趋势预判、如何进行业务间隔离保护,以及在资源调度、运营可用度等方面都对公司计费平台提出了巨大的挑战。对此,腾讯计费构建了一套集现网压测、资源扩缩容、播测监控、鹰眼扫描、智能调度于一体的自动化、高可用大促保障体系,确保公司收入大盘万无一失。

分享大纲:

1、 介绍腾讯计费面对的业务大促复杂场景

2、 基于现网压测的容量评估体系

3、 资源扩缩容及智能调度实现

4、 实时鹰眼监控扫描平台

3

腾讯DCI网络为公司业务提供了高速、稳定、安全的数据同步传输、访问穿透、流量调度以及IDC数据中心的“无限”扩展能力,为业务的发展提供了强有力的保障;同时也是公司基础设施的强大竞争力之一,具有非常重要的战略意义。然而,随着业务发展与使用,腾讯DCI网络也面临着巨大的挑战。如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。TEG的网工们是怎样应对的呢?

《大型DCI网络智能运营实践》

何维兵

腾讯TEG网络平台部基础架构运营负责人

个人简介:

资深运维老兵,拥有10年运营商网络、6年互联网基础设施运营经验,擅长大型骨干网络、数据中心网络维护管理和运营支撑系统规划建设,目前专注于网络自动化运营、NetDevOps以及网络智能运营的实践探索。

议题简介:

大型DCI互联网络规模宏大、技术复杂度高,如何在出现DCI网络故障时,快速发现异常、定位并恢复受损业务,是诸多网络管理人员面临的首要挑战。传统的网工们往往需要花大量的时间总结经验,遍历故障路径进行排查,效率较低;或引入自动化,对分析逻辑进行自动化封装,但仍然存在通用性瓶颈和覆盖盲区;为此,腾讯针对DCI网络引入智能化的监控、定位系统,实现最快10分钟内快速发现网络异常并恢复业务。

分享大纲:

1、 黑镜智能监控定位系统介绍

2、 流量智能监控介绍

3、 诺克机器人助手介绍

4、 腾讯NRE体系介绍

2018第十届GOPS全球运维大会

(9月13日-14日上海站)

扫码报名通道

TEG运营/运维圈 & TEG人力资源中心

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯TEG科技云端 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
内容分发网络 CDN
内容分发网络(Content Delivery Network,CDN)通过将站点内容发布至遍布全球的海量加速节点,使其用户可就近获取所需内容,避免因网络拥堵、跨运营商、跨地域、跨境等因素带来的网络不稳定、访问延迟高等问题,有效提升下载速度、降低响应时间,提供流畅的用户体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档