腾讯游戏背后的运维服务

随着大数据、云计算时代的到来,传统运维工作早已不能满足业务对用户体验和效率的要求,游戏运维更是如此。在腾讯,游戏运维除了需要负责日常发布、变更、故障、迁移等基础工作之外,更重要的是要能够挖掘业务用户的痛点并通过技术解决方案推动解决,这构成运维最核心的价值。

简单来说,运维不再仅是负责业务后端基础设施建设,不光提供业务稳定运营环境的技术支持,更是肩负着游戏可运营性建设,体验优化,以及现网技术数据统计、架构优化等工作。

从传统的IT运维到新形势下面向业务的技术运营,这并不是一蹴而就的,必然要有明确的指导方向,并经过长期的实践积累,还要有强大的工具支撑平台以及服务体系建设。

纵观整个腾讯游戏服务化建设,大致可分为以下三个阶段:

1.腾讯游戏运维四化的提出

早在2012年之前,腾讯互动娱乐运营部游戏运维团队即率先提出了运维发展的四化:标准化、自动化、专业化、服务化。

下图是四化之间的关联和转化示意:

2.初探运维服务体系

在2013年随着工具平台的建设,特别是底层工具平台不断丰满,运维团队得以在基础运维之上开始思考和构建以“触达用户、提升直接业务效益”为目标的运维增值服务,比如:用户触达优化服务,高可用&成本优化服务等。开始从业务、玩家的角度去思考整体的运维服务框架并进行落地建设,这个时候的运维服务体系并不成熟但是已经初具框架,初探的运维服务体系如下:

3.腾讯游戏服务体系正式推出

2014年随着服务实例落地实践不断累积,基础运维的自动化程度不断提升,运维的核心价值得以明确“以解决业务和用户的痛点为核心,通过技术解决方案提供服务以及配套服务衡量体系”,腾讯游戏服务体系正式推出,分为六大模块:用户体验优化服务、运营活动服务、版本服务、运营成本控制&优化服务、业务安全保障服务以及运维咨询服务。

如下图所示:

下面将以具体的实战案例向大家介绍,腾讯运维服务是如何做的?

案例一:用户体验优化服务从玩家进入游戏前开始

通常玩家在进入客户端(端游、手游)游戏之前,都需要经历下载、安装、升级、登录等四个阶段,其中任何一个步骤都可能成为阻拦玩家进入游戏的绊脚石,如何尽早的识别出他们并有效解决成为运维思考的重点。

关注业务运营数据,下载阶段,数据显示超过一半的玩家是因为下载速度过慢而取消下载。

技术先行,因此,运维团队很容易想到提速,但提速将直接影响业务的实际带宽成本,粗放地提速不一定有效果反而可能导致其他的不可控的内容,那运维第一步技术方案就是:有针对性的给玩家提速。

  • 针对IP地址提速:发现按照省份区分,每个地区的下载完成率是不同的,并且是长期保持在恒定区间内,所以可以针对下载完成率低的地区进行适当提速。
  • 针对qq号提速:游戏经常会有拉新、拉回流活动,针对不同的号码包进行提速,会尽可能的减少该类玩家在下载这一环节受影响。

持续深入挖掘玩家和业务痛点,最终形成了以下技术解决方案:

  • 支持不同的玩家甚至“单用户”的配速,而不是统一的速度,渗透到单用户级别;
  • 突破玩家家庭带宽限制,与运营商合作,让下载速度几倍增长;

收益&运营成本控制,上面解决了用户速度的问题,下面有效控制成本的问题,如下为实时动态智能调速示意图:

如上所示,动态智能调速通过在业务带宽高峰期来临之前,有效的调节下载速度,使玩家尽可能的在高峰来临前完成下载,减少高峰并发,从而保证高峰时刻即使玩家速度有所提升,因同时下载人数相对减少,实际带宽并不会相应的增加,并且因此有独立的计算方式以及专利。

以同样的方式我们将玩家进入游戏前的环节进行一一优化,统一采用运营数据展示、分析、有效技术干预,成本控制和收益体现,这里因为文章篇幅不再一一详细介绍,以下面示意图为例。

通过以上这些技术解决方案,将好的收益带给玩家,并且玩家也给我们丰富的回报,我们将下载成功率平均提升15%,玩家转化率近10%。

案例二:游戏中的直播

近年来直播非常的火热,而QQ炫舞早在2013年就开始上线明星直播,但跟现在大多数直播不同的是游戏直播在主播端进行转码,所以对主播的电脑硬件和网络有较高要求,同时在业务模式上会有普通主播以及演唱会模式。

深入业务问题,架构先行:

流量问题:游戏直播流量很大,对网络也要求较高,通过在不同的IDC部署接入点实现就近接入,避免单个接入点负载过大,按照ping值来随机排序,对大型的直播还会采用独立的接入点。

资源共享:普通主播和演唱会模式采用统一的直播房间架构,资源可以共享,并且可以平行扩展,极大的方便了业务的扩缩容,也减低了业务的运营成本。

用户体验--视频直播卡顿:

运营数据分析发现,影响直播卡顿的除了众所周知的网络质量、跨网访问外,还有比较关键的两点是:重传机制和主播端上行流量限制。重传机制指主播端出现上传发包错误时,或者在网络质量较差的情况下,系统都会进行数据包的重传,进而更进一步挤占上行流量。在直播开始时,正常的主播端上行在20~30KB/S,而有问题的主播端则达到了220KB/S。实际运营数据发现,直播刚开始的一分钟内不会有明显异常,但一旦出现卡顿触发重传机制生效,随着上行流量的拥塞会进一步导致发包错误率的上升,最终形成恶性循环,加剧卡顿,如下图所示:

技术解决:

1.优化重传机制,降低重传尝试时间,减少上行流量,避免拥塞。

2.打开用户的上行带宽限制。

3.联动电脑管家关闭不必要的上传如:大多音乐软件、下载软件都会偷偷的上传数据。

运营数据持续追踪

解决了以上问题之后,游戏中的娱乐直播对网络要求较为敏感,网络波动、cdn异常都可能造成极坏的影响,为了及时的发现外网问题,必须有一套完善的监控,通过数据分析,及时的捕获异常,尽快的介入解决。整个运营数据追踪平台思路如下:

在直播过程中,客户端也可以进行智能限速,同时当主播端的视频质量出现问题时,系统能够实时提醒主播,并给出自助解决方案建议,让主播在自助解决问题的同时,也能实时和观众互动,提升观看体验。

经过上述的优化调整,目前玩家连接主播CDN成功率和CDN处理成功率都可以保持在95%以上。

案例三:合服辅助决策

游戏合服,简单来讲是指分区分服的游戏在运营一段时间之后,会通过后台服务器与玩家数据的合并,使原来隔离的区服玩家在合服之后可以一起游戏,即有利于提升玩家的活跃度,同时也可降低运营成本。

这听起来可能很简单,只需要按照准备好的步骤,执行个脚本工具完成数据合并就OK了。但这只是最基础最简单的一个执行环节,仅仅是基础运维工作,如果从业务和玩家的角度考虑并不足够,运维想的更多的是如何深入到合服前协助产品决策,合服后数据效果跟踪,以及给玩家更好的体验和对业务的拉升。

所以,为了让合服变的更简单、更有效,运维主要从以下4个方面入手:

  • 合服决策因子:通过将多个游戏的合服数据整合,系统提供多维度的合服决策因子,由产品自定义条件,筛选合服大区。
  • 合服自动化执行:确认合服大区后,一键触发合服流程,自动完成合服操作。
  • 数据跟踪:系统输出合服前后数据收益对比效果。
  • 合服辅助决策:根据业务历史合服收益情况,纵向对比同类型合服数据,智能为业务团队输出下次合服条件,并筛选推荐大区。

合服辅助决策示意原理图:

合服辅助决策系统根据合服决策因子和合服条件选择自动计算业务符合条件的合服大区,提供产品运营选择。

合服完成后会自动计算分析合服前后的效果数据对比,输出合服效果报告。

通过对合服效果数据的分析,根据方法库中的历史合服收益、同类型业务合服策略,定期推荐收益最优的合服预估列表。

总结

通过游戏背后的运维系列文章,希望大家能够对这群游戏背后的小伙伴们有所了解,以上仅为服务建设的个别案例,未来还将继续分享。

当然我们也清楚的看到,运维在这个快速变化的时代,也面临着前所未有的挑战和机遇,运维人即要坚持以无比的耐心、责任、专业、技术为业务的快速发展保驾护航,也要努力转变思维从业务支撑、被动式服务向业务技术运营、主动提供服务转变,更要持续不断的打磨自身技术,坚持以业务为导向,贴近业务,理解业务,深入挖掘业务痛点,创造价值,做游戏智能化运营的领航者。

这就是,游戏背后的运维。

腾讯游戏运维 云梯服务团队

我们专注于海量运维、高可用以及自动化运维等相关技术,建设运维岗位的成长体系,最终通过运维服务输出,不断提升运维团队的岗位价值和核心竞争力。

原文发布于微信公众号 - 腾讯大讲堂(TX_DJT)

原文发表时间:2016-11-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏王磊的博客

一个好的技术团队应该怎么选择开发语言

1674
来自专栏CDA数据分析师

【干货】小白学数据分析—留存率是什么?

在网站分析、电商分析、网游分析中,对于留存率的关注度极高,这一浪潮随着APP应用、社交游戏的火爆逐渐成为一个很重要的衡量准则,也甚至有了40-20-10准则。对...

2457
来自专栏罗超频道

为什么说社交才是微博的下一头现金牛?

微博Q3财报显示其广告营收首次突破1亿美金关口,这里面有多少来自微博搜索,却只字未提,信息流为代表的原生广告是微博的大头。这说明微博尚未围绕搜索进行过多商业化,...

3645
来自专栏腾讯大讲堂的专栏

腾讯游戏背后的运维服务

随着大数据、云计算时代的到来,传统运维工作早已不能满足业务对用户体验和效率的要求,游戏运维更是如此。在腾讯,游戏运维除了需要负责日常发布、变更、故障、迁移等基础...

28010
来自专栏Cloud Native - 产品级敏捷

流程, 敏捷实践 (框架), 团队成员的三边关系

前言: 流程是轨道, 敏捷实践 (框架) 是行驶在这轨道上的火车, 团队成员便乘著这列火车, 迈向版本交付的终点◦ 本文: 企业内推行敏捷变革时, 往往将敏捷...

2255
来自专栏云计算D1net

不要仅仅将云计算当成一项技术

现代企业数据中心对云计算基础设施的采用,为CIO们提供了一个机会,挪动悬在头上的几把利剑与最经常被引用(而往往成绩不佳)的IT目标:更短的新产品上市与服务时间,...

3336
来自专栏云计算D1net

实现DevOps成功的十项重要提示

目前越来越多大型企业与组织机构开始将DevOps作为指导自身运营的关键性原则,然而成功实现转型仍是一大难以解决的挑战。 ? 根据今年6月的Puppet调查报告显...

3485
来自专栏企鹅号快讯

怎么提高微信公众号粉丝的互动性?提高公众号粉丝的互动方法

随着微信公众号的增多,运营公众号已经越来越困难了。而且有很多的人只是把公众号作为一个信息推送的工具,根本不在乎与粉丝的互动性,完全不顾粉丝需求,所以到最后很多的...

3887
来自专栏PPV课数据科学社区

《游戏数据分析的艺术》之游戏数据分析的流程(下)

点击上方 “蓝色字” 可关注我们! 作者:TalkingData高级咨询总监 - 于洋力作《游戏数据分析的艺术》第一章第一节的前三点的重点阐述。 来源:Talk...

33310
来自专栏Java后端技术栈

目前最流行的开发模式DevOps究竟是什么鬼?

随着业务复杂化和人员的增加,开发人员和运维人员逐渐演化成两个独立的部门,他们工作地点分离,工具链不同,业务目标也有差异,这使得他们之间出现一条鸿沟。而发布软件就...

1451

扫码关注云+社区

领取腾讯云代金券