大数据产品-腾讯信鸽之手游流失预测

背景

随着游戏市场竞争的日趋激烈,越来越多的游戏运营服务选择借助大数据挖掘出更多更细的用户群来进行精细化,个性化运营,从而更好的抓住用户,获得更大的收益。在游戏运营中,无论是流失挽留,还是拉新,以及付费用户预测都是游戏运营的重要内容。 本文将着重介绍手游用户的流失预测。对于游戏运营者,如果能够尽早的发现可能流失的用户,尽早的有针对性的对这些用户进行适当的干预,从而最大限度的延长用户在游戏中的停留时间,使得游戏运营者获得更大的收益。 本文中介绍的手游流失预测主要依托于腾讯信鸽这个平台,为这个平台提供精准定位即将流失用户的功能。腾讯信鸽是专业的移动应用推送平台,支持百亿级的通知/消息秒级触达移动用户。开发者可以方便地通过嵌入SDK,通过API调用或者Web端可视化操作,实现对特定用户发送通知/消息,提升用户活跃度,挽回潜在流失用户,并实时查看推送效果。 我们在这三面都有深入研究,取得了不错的效果。

需求的挑战

1.海量的用户行为

目前该套流失预测系统,每天最高时承接着4‍80亿条上报的用户行为记录。

2.海量的用户

在已经接入的游戏中,每天活‍跃着数亿级用户

3.模型的通用性

流失预测的实际应用中,不仅仅包含了公司内的游戏,还有公司外的游戏,以及各种各样的应用。每个应用上报的自定义事件更是各不相同,但算法还要统一接入。

4.应用接入压力

目前实际已经介入100多款公司内游戏应用,几乎囊括了公司内大部分主力手机游戏,包括天天炫斗,天天德州等。

鉴于上述的挑战性,结合了腾讯大数据精准推荐平台以“数据+算法+系统”的3方面打法,我们针对手游也总结了一套通用的业务流失预测模型。

下面是3个部分的展开介绍。系统--TRC平台

TRC的全称是Tencent Real-time Computing,是大数据精准推荐平台专为海量数据实时处理而构建的提供基础计算能力的服务平台,从全流程的实时计算体系的角度看,整个TRC由核心的平台支撑层和扩展的平台应用层构成。平台支撑层主要包括实时数据接入,实时数据处理,实时数据存储;平台应用层主要包括实时算法预测,实时模型训练,实时效果统计,实时系统监控,实时数据展示。总体结构如所示:

TRC平台经过两年多的现网运营,已经逐步成熟稳定,该平台每天支撑公司2,000多亿实时数据接入,每天26,000多亿次实时计算,每天5,000多亿次数据访问,已经在广点通广告推荐、电商物品推荐、视频推荐、新闻推荐、微信业务性能监控/实时统计等产品中大规模使用。数据

在机器学习,算法建模中,数据是输入,也是起点。数据的质量的高低,优劣,将直接影响着最终的算法效果。对于数据的研究和分析,往往耗费了研究者大量的时间和精力。在流失预测模型运用到的数据中,存在着优势和劣势。优势是数据量大。每天高达百亿级别的用户行为记录,数亿日活跃用户。并且有着丰富的用户行为。比如,登录,打怪,升级,加血,得分,领取金币等,还有着更为丰富的各个游戏,应用的自定义事件。劣势也非常明显。虽然行为丰富,但是每个应用上报的具体数据内容无法规范统一,特别是自定义事件更无法控制,同时,还要达到无论是公司内部手游,外部手游,还是各类应用都要模型通用,只能从这众多丰富的数据中抽取它们共性的且有效的特征。在本算法中,考虑到,通用性,有效性,并且易拓展性,具体抽取的特征有:登录天数,登录频次,最后登录时间,登录时长,等级等特征。算法

在本次流失预测的建模中,采用了LR模型。在这里简单介绍一下LR模型Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。Logistic回归为概率型回归模型,是研究分类观察结果y与一些影响因素x(单变量,多变量都可以)之间关系的一种分析方法 。在流失预测模型中,具体输入的用户特征为登录天数,登录频次,最后登录时间,登录时长,目前等级等特征,输出为用户的流失可能性。同时,通过算法的结果的准确率,和召回率来评价算法效果。流失预测的整体流程如所示,从公司内外部游戏以及各类应用中抽取各类用户,日常的登录天数,登录频次,最后登录时间等特征,以及最后的流失状况,来训练LR模型。然后根据每天用户相应特征,使用训练好的模型来进行预测,得到最可能流失的用户。

算法效果

基于玩家的在线时长,使用频率等特征,建立流失用户预测模型,精准预测潜在流失用户。在公司外游戏美人国的AB Test中,预测覆盖率超过85%,准确率超过91%。利用信鸽对该用户群推送针对性的营销活动,回流率比随机推送提升120%。在腾讯内部XX游戏的AB Test中,我们的算法的预测覆盖率达到79.847%,准确率达到85.646%。利用信鸽对该用户群推送针对性的营销活动,回流率比随机推送提升326%。通过实践证明:充分利用大数据的优势,帮助游戏大幅提升玩家留存率,同时减少对玩家的骚扰,保障用户体验。结语

游戏市场的竞争日趋激烈,游戏增速的逐渐放缓,越来越多的游戏运营开始借助于大数据,机器学习,来挖掘出更多更细的用户群,从而更有针对性的进行运营活动,能够帮助游戏大幅提升玩家留存率,减少对玩家的骚扰,保障良好的用户体验。

原文发布于微信公众号 - 腾讯大数据(tencentbigdata)

原文发表时间:2015-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

收藏 | 来自微软大神的机器学习秘籍!

在这个人人都可能是学霸的全民学习时代,为什么人与人的差距依然很大?像优达学城这样的学习网站可以为每一个人想要学习的人带去技能和知识的补充,但要成为一个优秀的人才...

10930
来自专栏人工智能头条

小团队撬动大数据——当当推荐团队的机器学习实践

25990
来自专栏大数据挖掘DT机器学习

【解析】数据挖掘工具的评判

要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发...

29640
来自专栏量子位

如何为智能投顾打造对话系统?这有一份指南可供参考

主讲人:灵智优诺CTO 许可 屈鑫 颜萌 整理编辑 量子位 出品 | 公众号 QbitAI 作为人工智能和语言学的重要分支,自然语言处理(NLP)的相关研究一直...

38260
来自专栏华章科技

干货|3分钟让你了解个性化推荐算法

如果去商场里买东西,我并不愿意听导购小姐讲的话,但是电商网站上的推荐,我还真的愿意看一看。【猜你喜欢】,好,那你就猜猜吧。

11120
来自专栏镁客网

黑科技 | 用算法分析图像,实现对神经元行为的精准“录像”研究

16000
来自专栏新智元

【生物网络为什么需要层次?】三大演化动力有助智能诞生

【新智元导读】最新研究发现,包括人脑在内的生物网络结构之所以会具有层次,是为了减少网络连接点,从而提高网络连接效率。该研究不仅揭开了生物网络拥有层次的原因,还有...

42750
来自专栏ThoughtWorks

【好文分享】别再提“估算”了

估算一词具有某种特定的含义。 提到这词,人们就会联想到费用和时间。回想下你上次找技工为你修车,或找油漆工为三楼的窗子刷新油漆的场景。你正在考虑时间和费用,不是吗...

292110
来自专栏AI科技评论

盘点 | 聊天机器人的发展状况与分类

AI科技评论按:本文作者王海良,呤呤英语开发总监,北京JavaScript/Node.js开发者社区的运营者,曾就职IBM创新中心。本文为系列文章第一篇,由AI...

61480
来自专栏大数据文摘

别错过这张AI商用清单:你的生产难题可能被一个应用解决

16930

扫码关注云+社区

领取腾讯云代金券