前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >用户行为分之数据处理

用户行为分之数据处理

作者头像
数据社
发布2020-09-25 14:14:13
8090
发布2020-09-25 14:14:13
举报
文章被收录于专栏:数据社数据社数据社

一、数据架构

上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。

先来一张图:

这张图也就是我们大部分用户行为分析的数据架构情况,埋点离线数据我们会采集到数据仓库,进行ETL加工处理,形成用户属性、访问路径、用户行为的一些模型。

二、数据建模

先说离线计算,数据采集到数据仓库后,我们就需要进行离线任务开发。任务开发之前我们要先进行模型设计,这就要求我们对业务数据进行调研,数据埋点接口的含义以及运营想要达到的目的,期间要和运营同时确认数据口径,以及数据研发完成时间。

事实表:用于描述业务过程,记录每个业务是如何开展的,比如浏览、收藏、下单、支付等都有对应的事实表,按照览、收藏、下单、支付一个流程也有对应的事实表。如果多个业务之间存在共同性,那么我们可以建立一张事实表,增加一个字段来区别业务类型就好了。

快照表:在一个确定的时间段内,对业务进行分析记录。比如查看一个用户近一个月的购物次数以及登录次数和浏览记录等。

维度表:维度表存储一些缓慢变化维的数据,比如商品的价格、品牌、型号等等。但是维度信息并不是一直不变的,我们经常发现某宝或者某东上的商品经常发生变化,对于变化的信息我们可以尝试以下方法处理:

  1. 维度表没有分区,直接覆盖历史数据,重写维度表
  2. 维度表也建分区,保留多条记录,通过分区查询历史信息
  3. 使用拉链表按时间变化进行全量数据存储

第一种直接覆盖,在生产环境中是很少用的,我们一般使用2、3方法。

比如下面这个模型,我们要分析新增用户,活跃用户,沉默用户,APP启动次数,APP版本分布。

首先我们需要先定义这些指标口径:

指标名称

更新周期

统计口径

新增用户

首次联网启动应用的设备视为新增用户,(按照imei号)

活跃用户

“日”活跃用户实时更新“周”活跃用户每周一更新上周数据“月”活跃用户每月1日更新上月数据

所选时间段内,启动过应用的用户(去重),启动过一次的用户即被视为活跃用户。日累计,全日去重,实时更新,每个时段去重

沉默用户

T-1 更新

该用户只在安装当日(以及安装次日启动应用),且在后续时段没有启动过应用的用户【打开时间只有一个】

启动次数

启动次数的数据实时更新

启动:进入应用退出:进入后台或者关闭应用

版本分布

T-1 更新

展示累计用户前10的各版本变化趋势

根据上面的分析目的,我们设计如下模型:

字段

指标

设设识别号

累计用户

用户省份

用户城市

入网时间

入网时间

使用时长

使用时长

版本号

版本分布

渠道编码

运营商

终端机型

联网方式

是否新增用户,1:新增用户,0:老用户

新增用户

是否活跃用户,1:活跃用户,0:沉默用户

活跃用户,沉默用户

是否是回流用户,1:是,0:不是

回流用户

过去7天活跃用户,1:是 ,0:不是

过去7天活跃用户

过去30天活跃用户,1:是 ,0:不是

过去30天活跃用户

连续活跃2周用户,1:是,0:不是

连续活跃2周用户

连续活跃3周用户,1:是,0:不是

连续活跃3周用户

连续活跃4周用户,1:是,0:不是

连续活跃4周用户

忠诚用户,1:是,0:否

忠诚用户

近期流失用户,1:是,0:否

近期流失用户

启动次数

打开次数

错误次数

错误次数

过去7天平均使用时长

过去7天平均使用时长

再说下实时计算,APP用户信息维度表会维护在redis内存中,用于计算新增用户、活跃用户、用户留存等指标信息,同时会在MySQL数据库中进行备份留存。(现在SparkStreaming和Flink已经很成熟了,实时处理Storm正在逐渐退出历史的舞台)

APP用户信息表:

APP版本渠道映射维度表,用户存放APP、版本、渠道的对应关系,供前端页面查询选择。

APP版本信息:

APP指标分析表,最细时间粒度到小时,用户可以通过时间、APP名称、省、市、运营商、网络类型、渠道等维度对点击量、新增用户数、启动次数、活跃用户数等指标进行多维度OLAP分析。

APP指标分析表:

传统的离线分析在做用户画像的时候还奏效,但是在推荐时候,是不能够满足运营需要的,在实际业务场景中,我们需要实时对用户分群,实时路径分析,实时漏斗分析,更快的挖掘用户的需求,精准推送。

关于更多实时架构,可以访问《连载:阿里巴巴大数据实践—实时技术》

三、数据应用

不同的网站提供的内容和服务不同,用户行为分析的侧重点也有差异。但是,几乎所有的网站用户分析都是基于用户属性和用户具体行为 来展开各种关联或逻辑推理分析,主要有以下集中:

用户画像:用户画像是指找出各类用户的行为特点。用户画像是实施针对性营销的前提条件。例如, 通过某东针对用户画像推荐用户喜欢的运动品牌鞋子,根据你的年龄推送各种保健药,还会根据你的职业(程序员)推荐霸王防脱!

关联分析:关联分析发现关联规则。把用户的搜索习惯当成你要的商品推荐特征,你会经常发现,当你搜索轮椅之后,系统会给你卖拐!

分类与预测:利用分类技术,可以将用户归属为一个特定的类。当你下载过某APP后,某一天你卸载了,比如某仙网,之前买过一次酒就卸载了,后来经常给我推送优惠券,也许像我这样的人都会推送满199减100的优惠券吧。

异常分析:曾经遇到过某天某个IP的访问日志量徒增,并发现攻击脚本信息,后来查了下那个IP,是某云的一个IP,针对异常分析,可以有效防止网站攻击。

TopN分析:TopN分析是用户行为分析的一种很常用的方法。比如某博,经常看到热点话题,而且是实时更新的,TopN能够有效给用户推送大众关注的热点信息。

四、结尾


现在埋点已经成为每个系统的标配,为啥呢?一,埋点可以让我们获取用户的一些信息,对营销产品有一定作用;二,埋点可以了解用户的操作习惯,产品可以及时优化产品设计,提高转化效能;三,埋点可以实时让运营了解到产品的使用情况,毕竟用户才是上帝,只有获取了用户的信息(隐私),才能了解用户,抓住用户!大家都在提数据驱动、增长黑客,做好精细化运营才能让投资人的钱烧更长时间!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据架构
  • 二、数据建模
  • 三、数据应用
  • 四、结尾
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档