专栏首页数据社用户行为分之数据处理

用户行为分之数据处理

一、数据架构

上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。

先来一张图:

这张图也就是我们大部分用户行为分析的数据架构情况,埋点离线数据我们会采集到数据仓库,进行ETL加工处理,形成用户属性、访问路径、用户行为的一些模型。

二、数据建模

先说离线计算,数据采集到数据仓库后,我们就需要进行离线任务开发。任务开发之前我们要先进行模型设计,这就要求我们对业务数据进行调研,数据埋点接口的含义以及运营想要达到的目的,期间要和运营同时确认数据口径,以及数据研发完成时间。

事实表:用于描述业务过程,记录每个业务是如何开展的,比如浏览、收藏、下单、支付等都有对应的事实表,按照览、收藏、下单、支付一个流程也有对应的事实表。如果多个业务之间存在共同性,那么我们可以建立一张事实表,增加一个字段来区别业务类型就好了。

快照表:在一个确定的时间段内,对业务进行分析记录。比如查看一个用户近一个月的购物次数以及登录次数和浏览记录等。

维度表:维度表存储一些缓慢变化维的数据,比如商品的价格、品牌、型号等等。但是维度信息并不是一直不变的,我们经常发现某宝或者某东上的商品经常发生变化,对于变化的信息我们可以尝试以下方法处理:

  1. 维度表没有分区,直接覆盖历史数据,重写维度表
  2. 维度表也建分区,保留多条记录,通过分区查询历史信息
  3. 使用拉链表按时间变化进行全量数据存储

第一种直接覆盖,在生产环境中是很少用的,我们一般使用2、3方法。

比如下面这个模型,我们要分析新增用户,活跃用户,沉默用户,APP启动次数,APP版本分布。

首先我们需要先定义这些指标口径:

指标名称

更新周期

统计口径

新增用户

首次联网启动应用的设备视为新增用户,(按照imei号)

活跃用户

“日”活跃用户实时更新“周”活跃用户每周一更新上周数据“月”活跃用户每月1日更新上月数据

所选时间段内,启动过应用的用户(去重),启动过一次的用户即被视为活跃用户。日累计,全日去重,实时更新,每个时段去重

沉默用户

T-1 更新

该用户只在安装当日(以及安装次日启动应用),且在后续时段没有启动过应用的用户【打开时间只有一个】

启动次数

启动次数的数据实时更新

启动:进入应用退出:进入后台或者关闭应用

版本分布

T-1 更新

展示累计用户前10的各版本变化趋势

根据上面的分析目的,我们设计如下模型:

字段

指标

设设识别号

累计用户

用户省份

用户城市

入网时间

入网时间

使用时长

使用时长

版本号

版本分布

渠道编码

运营商

终端机型

联网方式

是否新增用户,1:新增用户,0:老用户

新增用户

是否活跃用户,1:活跃用户,0:沉默用户

活跃用户,沉默用户

是否是回流用户,1:是,0:不是

回流用户

过去7天活跃用户,1:是 ,0:不是

过去7天活跃用户

过去30天活跃用户,1:是 ,0:不是

过去30天活跃用户

连续活跃2周用户,1:是,0:不是

连续活跃2周用户

连续活跃3周用户,1:是,0:不是

连续活跃3周用户

连续活跃4周用户,1:是,0:不是

连续活跃4周用户

忠诚用户,1:是,0:否

忠诚用户

近期流失用户,1:是,0:否

近期流失用户

启动次数

打开次数

错误次数

错误次数

过去7天平均使用时长

过去7天平均使用时长

再说下实时计算,APP用户信息维度表会维护在redis内存中,用于计算新增用户、活跃用户、用户留存等指标信息,同时会在MySQL数据库中进行备份留存。(现在SparkStreaming和Flink已经很成熟了,实时处理Storm正在逐渐退出历史的舞台)

APP用户信息表:

APP版本渠道映射维度表,用户存放APP、版本、渠道的对应关系,供前端页面查询选择。

APP版本信息:

APP指标分析表,最细时间粒度到小时,用户可以通过时间、APP名称、省、市、运营商、网络类型、渠道等维度对点击量、新增用户数、启动次数、活跃用户数等指标进行多维度OLAP分析。

APP指标分析表:

传统的离线分析在做用户画像的时候还奏效,但是在推荐时候,是不能够满足运营需要的,在实际业务场景中,我们需要实时对用户分群,实时路径分析,实时漏斗分析,更快的挖掘用户的需求,精准推送。

关于更多实时架构,可以访问《连载:阿里巴巴大数据实践—实时技术》

三、数据应用

不同的网站提供的内容和服务不同,用户行为分析的侧重点也有差异。但是,几乎所有的网站用户分析都是基于用户属性和用户具体行为 来展开各种关联或逻辑推理分析,主要有以下集中:

用户画像:用户画像是指找出各类用户的行为特点。用户画像是实施针对性营销的前提条件。例如, 通过某东针对用户画像推荐用户喜欢的运动品牌鞋子,根据你的年龄推送各种保健药,还会根据你的职业(程序员)推荐霸王防脱!

关联分析:关联分析发现关联规则。把用户的搜索习惯当成你要的商品推荐特征,你会经常发现,当你搜索轮椅之后,系统会给你卖拐!

分类与预测:利用分类技术,可以将用户归属为一个特定的类。当你下载过某APP后,某一天你卸载了,比如某仙网,之前买过一次酒就卸载了,后来经常给我推送优惠券,也许像我这样的人都会推送满199减100的优惠券吧。

异常分析:曾经遇到过某天某个IP的访问日志量徒增,并发现攻击脚本信息,后来查了下那个IP,是某云的一个IP,针对异常分析,可以有效防止网站攻击。

TopN分析:TopN分析是用户行为分析的一种很常用的方法。比如某博,经常看到热点话题,而且是实时更新的,TopN能够有效给用户推送大众关注的热点信息。

四、结尾


现在埋点已经成为每个系统的标配,为啥呢?一,埋点可以让我们获取用户的一些信息,对营销产品有一定作用;二,埋点可以了解用户的操作习惯,产品可以及时优化产品设计,提高转化效能;三,埋点可以实时让运营了解到产品的使用情况,毕竟用户才是上帝,只有获取了用户的信息(隐私),才能了解用户,抓住用户!大家都在提数据驱动、增长黑客,做好精细化运营才能让投资人的钱烧更长时间!

本文分享自微信公众号 - 数据社(DataClub),作者:数据社

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【数据说第十三期】数据驱动业务增长的底层逻辑

    前面梳理交流了如何通过分析“新增”、“活跃”、“留存”等数据,本季主要深挖用户表面行为的背后真实、本质的需求,全面视角的分析产品的用户行为数据,展现驱动...

    数据社
  • 一文了解数据湖引擎

    数据湖引擎是一种开源软件解决方案或云服务,它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和...

    数据社
  • 如何利用数据仓库进行数据分析

    首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。

    数据社
  • 激活和留存

    增长黑客的拉新和常规市场/运营的拉新区别在于,增长黑客更看重的是新用户为产品带来的实际价值,这个价值可以是电商产品中的用户购买转化,也可以是内容社区产品中的用户...

    葆宁
  • 用户生命周期,从运营到数据的最全攻略在这里

    上一篇{用户流失,该怎么分析}中,有很多同学留言想看用户生命周期的分析,今天它来了。用户生命周期管理,是系统化运营和拍脑袋运营的重要区别。不做系统化设计,就会沦...

    1480
  • 什么才是优秀的网站用户界面设计

    進无尽
  • 如何通过拆分“用户活跃状态”找到转化降低的原因?

    为什么转化降低了,怎么也找不到原因?数据的波动最容易带来改变的就是用户,如果你每天查看的数据指标,没有拆分用户活跃状态,那你可能永远也找不到答案。

    数据猿
  • 多维度分析:推荐效果明显的产品属性

    互联网从 web1.0 到 web3.0,正慢慢推动着人类社会的发展,颠覆着原有产业形态,信息量也急剧膨胀,我们正处于一个高速发展的信息时代。

    石晓文
  • 三个方面,谈谈用户运营究竟要怎么运营

    活动运营、社群运营、内容运营等等,通过字面意思非常能直观的理解,因为它们拥有运营场景—“活动”“社群”“内容”,通过活动,基于社群,编辑内容促使产品引流、拉新、...

    iCDO互联网数据官
  • 用户生命周期,从运营到数据的最全攻略在这里

    上一篇{用户流失,该怎么分析}中,有很多同学留言想看用户生命周期的分析,今天它来了。用户生命周期管理,是系统化运营和拍脑袋运营的重要区别。不做系统化设计,就会沦...

    接地气的陈老师

扫码关注云+社区

领取腾讯云代金券