杨列昂:腾讯移动分析与服务架构

作者:杨列昂,腾讯大数据高级工程师,2011年加入腾讯,前后负责腾讯大数据产品、海量用户画像、腾讯移动分析(MTA)、腾讯移动推送(信鸽)等核心产品的设计研发工作,专注于产品价值挖掘,系统架构优化等方向。

大家好,我今天分享的题目是腾讯移动分析与产品运营。首先是自我介绍,我是来自腾讯大数据,2011年加入腾讯,先后负责过腾讯大数据的海量应用画像,腾讯移动分析、腾讯移动推送等各个产品的设计和研发工作,主要专注于产品的价值挖掘、系统架构优化。

今天分享的主题大概有三个

  • 首先是移动分析工具能为我们做哪些事情,它的价值在哪里。
  • 二是作为一站式的产品营销平台,我们如何改善产品营销推广的过程。
  • 三是借助于腾讯的数据积累和大数据的能力,赋能企业建立一个互利共生的服务生态。

移动分析工具

移动分析进化论

移动APP的分析需求,可以分为四个阶段。首先是最基础指标、报表、移动画像,不同平台的数据都能接入进来,协同做分析。等到APP发展到一定阶段,开始出现付费,有了自己的盈利模式之后,我们就需要更专注于精细化的运营,这个时候我们更加关注用户流失和潜在付费这些特点的群体。

到了APP的推广环节之后,更加关注的是从APP推广的点击、下载到最终的激活,乃至注册、付费整个流程,以及关注营销推广的效果。做完以上这些事情,其实还可以多做一步,应该就是利用大数据的能力,来去解决行业上的一些痛点,比如说金融领域的评估模型,希望能输出一整套的行业解决方案来帮助新进的一些企业和用户能更快地进入他的行业,解决一些运营上的痛点。

回头来看整个过程,其实是从知道、了解业务整体的状态,到有针对性的洞察特定的目标群体,采取动作,最后成为一个行业专家的过程。

业务指标和价值评估体系

关于业务指标,企业在不同阶段可能他们关注的重点会有所不同,在产品最小价值阶段,也就是MVP阶段,企业可能更关注的是能撬动用户需求的功能点。而到了快速增长阶段,我们就更加专注于用户的拉新和留存。到了付费的阶段,我们就会更加的去留意一个盈利周期、渠道转化等等指标。我们根据海盗模型,我们熟知的2A3R的营销理论创建了一整套的业务指标体系,包括用户获取、用户活跃、留存、传播、收入,再结合渠道效果分析、用户生命周期管理、事件分析等等搭建出一整套APP的体系。

此外还要结合业界竞品和行业趋势,比如现在火的AI或者区块链的一些行业,身处这些行业中的一些企业,它未来的发展状况相比夕阳产业所待的企业,大家就更加看好一些。结合APP自身、竞品和行业趋势,推出一个九维的价值评估体系,能更加立刻、客观地来刻画APP整体的运营状态。

多平台接入

业务数据存在形式多种多样,在不同平台上,给出了特定的一个解决方案。首先是移动端,两大主流操作系统,安卓和IOS,我们都提供了十分钟快速接入的能力,目前这一块的接入已经被精简到一行代码就可以解决。HTML5作为移动端特有的一个开发模式,它的开发周期更短,可移植性好、更新也快,普遍应用移动公众号、Web网页等等,我们也针对H5推出了一整套的分析框架。也有一些APP,比如微信里面集成了H5的容器,我们在这方面做了一些努力打通H5和Hybrid。

微信小程序,我们也推出了自己的统计分析工具,这一块也有很多行业标杆在使用。说到智能硬件,谷歌和苹果最近几年开始发力,推出了自己的一些软件开发包,我们也在这里做了一些布局。还有一些数据是从服务端更新的,比如一些用户帐号的内部的状态更新,我们因此也是提供了服务器端的接入方式。

移动设备画像

接入到MTA的用户经常会问一个问题,我们如何知道用户的分布状态,这就不得不提到我们的移动用户画像。做数据平台的,其实最基础的也就是要有自己的画像体系,我们知道腾讯的业务线是非常广泛的,它在社交、新闻、文娱、金融等各个领域,都有很多的布局。很多APP有数亿甚至数十亿的用户规模,每年产生千亿级的数据流水。如何对这些数据做一个有效的规整,打通数据孤岛,也是我们来解决的一个难题。

数据经过连接、分析,最终得到一个标准化的结果。其中既包括结构化的数据,比如用户属性,用户的商业兴趣,行为特征。也包括一些非结构化的数据,比如语料、声音、图象等信息。再经过整个的处理流程之后,转化成腾讯多维海量的数据资产。这其中涉及到很多的算法和特定的领域问题,其中最基础的,就是涉及到设备特征的识别。

设备识别

提到设备识别,安卓系统可以通过API获取IMEI的标识,但是这个有缺陷,市场山寨机的IMEI是一样的。还有一种情况,终端的模拟器,也会对我们的统计造成干扰,还有一些用户篡改设备号的行为,比如现在市面有很多在安卓root的情况下可以修改IMEI。还有是可能报一些攻击,伪造日志请求,篡改里面的设备号字段。

以上这些情况,都是我们能拿到设备号,但设备号可能不够准确,或者可用性比较差。还有一种情况因为受限于系统权限根本拿不到设备号,比如安卓6.0以后,设备号的管理权限也是收的越来越紧。随着大众对用户隐私的意识、关注度越来越高,谷歌的play商店禁止采集IMEI,欧盟也是在近期不断更新自己的个人信息采集的标准。也是在禁止APP在非必要的情况下去获取设备的IMEI信息。

基于以上事实,我们推出自己的一套方案通过移动端的设备识别,设备指纹信息,在服务器端加密下发的方式,解决了在不同场景下设备识别的问题。我们称之为MID。另外通过一套离线的分析系统,可以把设备、刷机、重置设备而重复分配的MID关联起来,从而实现最终的一致性。前面讲的这些,都是我们在指标统计,在一整套的设备画像上的建设。

归因分析

等企业进入到一个精细化运营的阶段,这时候最重要的是归因分析。这里举个例子,以一个游戏行业的用户流失为例。某个知名游戏APP经过分析发现它的流失用户可以分为三种:

  • 一是感觉成长有障碍,无论怎么样去努力,都感不上大玩家,所以愤而离去。
  • 二是游戏负担太重了,觉得每天花好几个小时耗在这里,每天的玩法都比较单一,枯燥乏味。
  • 三是在PVP的场合遇到了一些障碍,比如官方打击外挂不利,或者有一些帮派的垄断。

针对这种不同原因造成的用户流失,我们采取的策略显然是各不相同的。这个APP的运营方,如果在成本最大化的同时,来去解决这些用户流失的问题。难道给每一个人发一个调查问卷吗?这就需要一个归因分析的能力。我们这里提供了多种手段方法,比如细分流失用户的特征,通过一些方式来建模,最后去对潜在流失用户做一个预测,我们有一个专门的团队做这样的事。

营销推广与效果监测

前面是讲移动分析能提供的一些服务,接下来重点关注一下在营销推广和广告效果监测的环节中,我们又有哪些流程可以改进。

广告效果监测

在用户获取环节,我们其实有很多的方式,最传统的是付费广告,广告推广的形式。我们从广告推广的四个流程来改进整个的效果。

  • 首先是人群的选取,我们如何把要推广的这些人选出来,更好的标定我们的目标用户。
  • 二是广告投放环节,能一键快速无缝投放到广告平台。
  • 三是效果监测。
  • 四是流量清洗,把异常的流量剔除,来去更好地节约投放方的成本。

用户分群

用户分群,这里会提供基于规则和基于算法的两种模型,基于规则包括活跃、非活跃用户,或者已知的自定义实践、用户和设备画像,都可以在这个基础上做一些与或非做一些规则的分群。

基于算法,预测流失用户、预测高潜力用户的分群。

相似人群拓展

如果对前面分群的效果不满意,或者希望拓展新的用户,这里也提供了一个lookalike的形式。这里是某汽车行业线下lookalike的场景,通过和大盘用户的关联,叠加的排序,可以找到它的目标人群在不同兴趣类目上的关联度,可以注意到在一些平常认知不到的类目上,比如家居建材、建筑工程这些行业感兴趣的人群,其实跟它的目标用户的重合度,反而比较高。

这就是一次从线下到线上的一次有效推广,我们借助于Lookalike的能力,为每一个接入的客户提供更好的分析。

数据开放 一键导出

最后可以一键导出到腾讯内部的广告平台上,这是实际操作的界面,可以看到4月份的活跃用户已经推送到了广点通平台。

定制化渠道对接方案

广告界有一句很有名的话,我知道我的广告费有一半都浪费掉了,但我不知道是哪一半。所以广告效果的跟踪是非常非常重要的,这里其实不仅是对接了top10的平台,包括腾讯、爱奇艺、百度、今日头条、陌陌等一些标准的广告渠道,还支持了定制化的平台对接。因为这个渠道对接,在PC端通过用cookie关联数据,因为流量端、分发中心和应用激活分属在不同的层面或者APP,很难串联起来的。

MMA标准:异常流量识别

这时候提供两套方案,一是渠道安装包的可扩展的动态签名方案,在下载安装包的过程中实时对应渠道的安装包。还有一种采用关联算法,通过采集到了LBS信息、指纹信息来搜集下载安装、激活这两部分的行为。

提到移动流量分发,不可避免会想到异常流量的问题,现在有很多的黑产或者商业利益的关系,MMA标准是国内移动广告业通用的标准,里面对异常流量的类型做了简单的分类。通过异常本身是否容易被识别,它的误判和漏判率的高低,可以简单分为常规无效流量和复杂无效流量两个部分。

流量清洗

我们在实现常规无效流量这些场景的同时,更关注到的是认为刷量这一部分,也就是我们俗称的五毛党。他们可能通过网上的派单,通过一些付费的,他们去自己手工的完成整个APP的下载、安装乃至后续的激活注册的流程。我们联合腾讯内部专门做打击黑产的团队,合作完成了这一块数据的识别。

流量清洗模块,大概分为三个部分,规则的识别、建模以及最终应用。这个地方随着黑产的技术在不断地提升,有很多自动化的手段可以去模仿人工的激活,以及后续的注册等等流程。所以这一块我们也是在引入对抗网络和复杂的神经算法来去加强这一块的能力。

互利共生的服务生态

我们如何去利用腾讯的海量数据和计算能力,来赋能企业,建立一个互利共生的服务生态。大数据可以帮助企业洞察用户、行业变迁和资本走向,来辅助公司的战略布局和决策,但应用大数据过程中面临很多的挑战,如何建设底层能力的支撑,如何培养专业的人才梯队等等。我们这里有一些实践经验可以分享。

数据驱动产品运营

可以看到现在我们的指标有很多,我们对它做了一个分级的处理,其中有一些全量的指标,关系到一些历史的状态特征,就比如说一些累计用户留存性的问题,我们采用离线分析的模块。对用户分群的分析,有自己多维实时分析的计算模式。另外还有潜在用户流失,潜在付费用户的在线预测模型,以及基于监控指标和诊断指标的秒级实时分析。

基础技术架构

为了去实现前面的这一些功能和架构,我们也有一套底层的支撑,首先是内部的docker系统,可以给我们提供强大的底层支撑能力。中间实时计算用到这些hadoop、spark等平台,最后暴露给用户的是用户画像、关键指标数据、自定义计算事件上卷和下钻的分析,外层进行了多种多样的接入方式。

赋能企业大数据能力

腾讯经过多年的建设,在存储、计算和调度平台上,都有自己的一些组件上的积累,构建企业大数据的能力需要经过三个部分,首先数据采集,然后是建模,以及分析。我们这里提供了两种方案,一种是可以经过可视化的操作,利用现有的途径降低门槛。或者这些平台也对外开放,企业可以协作或者自建。

企业大数据的建设,涉及到数据采集,算法运用模型和数据透视,以及数据资产管理等多个方面,我们可以直接使用大数据产品化的一个组件,比如腾讯移动分析和黄金眼自助报表等,也可以企业自建平台,利用私有云上用我们的大数据套件去完成整套的分析过程。

单一企业无法满足用户所有的诉求,未来将会有更多的协同合作。我们希望能以MTA为桥梁,对这些基础设施、商业平台和数据服务,加速企业在大数据布局上的能力,大家可以携手共建一个健康完善智能的数据生态,让企业能在大数据中获益,给用户提供更加优质的服务。

我的分享就到这里,谢谢大家。

Q/A:

Q:这个用户监测的数据是哪里产生的?比如用户监测,这个用户监测只是我这个APP的用户进行监测,还是说可能还有一些其它的支持用来完善这个大数据产生的用户监测的结果。

A:我们在整个分析过程中,刚才提到移动画像,移动画像可能涉及到更多的整个生态产生的数据,不仅包括腾讯内,也包括腾讯系外部的一些数据,这一块就会有APP采集的数据之外的。我们也希望借助这个平台来完善整个的服务生态,希望大家都能从中获益。

Q:我们也做一些移动端开发,您提出MID的概念,MID里面有很多像内存或者指纹,都是动态变化的,怎么去识别这个用户是唯一的,保证他的有效性呢?

A:可能现有的机制不能百分之百保证,我们也是尽可能完善这个事。确实有一些终端指纹是比较固定的,比如我们用过H5的指纹,这个在不同终端上拿到的就会不一样,但是相同终端、相同浏览器下使用会得到一个唯一的结果,我们就可以借助这种类似的指纹信息来标定唯一设备。

Q:刚才也提到这个设备可能涉及到一些权限的问题,可能终端的权限会动态调整,这是一个增量的过程吗?这个设备已经有内存或者其它几项信息了,但增量过程中是不是也能保证这个设备是唯一的?比如说他增加指纹或者增加其他的权限了。

A:我们在采集设备唯一指纹特征的时候,就会考虑到权限也是其中一个考量的很重要的点。如果他易于获得,我们就更容易采纳这项特征。你刚才提到的情况是说,这个权限有可能之前没有,后面再获得,这个时候需要一些离线修正的部分,我们怎么样把不同的MID的设备关联起来,做一个后台的去重。

Q:比如有一些黑客通过模拟器或者其他的手段,来伪造一些数据,以我们现有的技术,咱们后端就像微信公众号上阅读原文一样是可以去刷这些流量的,打比方微信公众号,现在后台有办法识别出来吗?因为它是完全模拟人工的操作去实现,我们有办法识别吗?

A:其实是提到黑产的一个场景,可能会雇佣一些真人完成整个真实的点击、注册的流程,在这种情况下我们是有可能做得到的。为什么能做得到?因为做这些的人,往往刷了这个单,还会再接其他的任务,刷了这个APP,又刷另外一个APP,通过不同APP的识别,比如在另外一个APP上识别出有端倪,可以关联这个设备对应的其它APP,也认为它是异常的状态。

还有是利用腾讯本身的一些帐号体系,对于已知的一些加入到黑产产业链的帐号,或者他们的一些设备特征去做一个记录和跟踪。其实一句话来讲,因为他们的违法成本,黑产整个的成本,如果要做到完全没有办法去跟踪,完全没有办法识别到的话,他的成本会无限高,因为他本身也要做一些成本的考量,他的收益在哪里,所以我们现在有办法识别到的。

腾讯移动分析与产品运营-杨列昂.pdf

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张俊红

一起来学习用户活跃的方法

本篇内容来源于图书《增长黑客》与文章《用户活跃计划分析》的学习整理。整篇内容在学习前辈的基础上进行改编,对前辈的一些理论选择性地写出来,并根据理论,配了自己平常...

3245
来自专栏靠谱PM

竞品分析怎么做?我只告诉你一个人!

前面写的文章中提到过,我们大部分产品的小伙伴接触从零到一的产品概率并不高,这时候我们更多做的是功能点的竞品分析,功能点的竞品分析一般我们会在三种情况下去做,它们...

4593
来自专栏SDNLAB

企业网络战略之边缘计算:细数它的5大优势

对于希望超越传统基于云的计算架构的限制的公司而言,边缘计算已迅速成为热门。虽然企业级数据中心依旧在现代网络中发挥重要作用,但物联网设备提供的能够在更接近源的地方...

972
来自专栏EAWorld

DevOps是MindSet:工具也好,文化也罢,人员才是关键

任何变革都需要时间,DevOps亦然。在经过数年的蛰伏期之后,DevOps终于成为了业界聚焦点;不过,从知其然到知其所以然,再到最终完美实现DevOps,依然前...

33313
来自专栏人称T客

多种云管理:2017 年可以期待哪些变化?

T客汇官网:tikehui.com 原文作者:Andrew Froehlich 编译 | 徐婧欣 ? 本文旨在让读者了解,在多种云解决方案领域,2017 年真正...

3197
来自专栏DevOps时代的专栏

驱散谬见 | 7个常见的 DevOps 误区解读

前言: 本文将介绍《DevOps Handbook》全书中的一部分:对 DevOps 常见误区进行解读。有些朋友对DevOps不熟悉或有一些不准确的理解,比如是...

22410
来自专栏DevOps时代的专栏

灰度发布,链接 Dev 与 Ops 的正确姿势

序言 在软件吞噬时间的时代,在IT基础设施多样性与分布式趋势中,部署的复杂性与规模日益增加,而大部分的软件崩溃都发生在部署过程中。目前提高部署效率与稳定性成为了...

54110
来自专栏大数据文摘

网络营销大数据实操七步走

2966
来自专栏PPV课数据科学社区

《游戏数据分析的艺术》之游戏数据分析的流程(下)

点击上方 “蓝色字” 可关注我们! 作者:TalkingData高级咨询总监 - 于洋力作《游戏数据分析的艺术》第一章第一节的前三点的重点阐述。 来源:Talk...

33010
来自专栏云计算D1net

企业应谨慎对待托管数据中心和云计算

日前,调研机构451 Research公司高级分析师Dan Thompson表示,尽管进行了数字化转型,很多组织仍然需要数据中心开展业务,其原因包括从成本到专注...

810

扫码关注云+社区