前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >画像平台常见的3种数据模型

画像平台常见的3种数据模型

原创
作者头像
张叔叔讲互联网
发布2023-10-06 20:40:33
3340
发布2023-10-06 20:40:33
举报

画像数据对于画像平台无疑是非常重要的,按什么样的数据模型存储画像数据直接影响了上层画像平台所能支持的功能范围,本文内容主要介绍3种常见的画像数据模型及其适用的平台功能。

用户模型

用户模型是一种最简单的模型,以用户唯一标识作为主键存储各类画像标签数据,其表结构如图2-15所示。

图2-15 用户模型表结构示例图
图2-15 用户模型表结构示例图

该表结构类似关系型数据库表结构设计,其中主键是用户ID,后续的列代表该用户的各类标签。基于这种单表结构,可以很容易筛选出满足条件的用户,比如找到所有常住省为山东的男性用户;人群分析功能可以基于表中的指定标签列进行聚合操作来实现,比如统计所有省份的用户分布情况。

用户模型结构简单,实现起来简便快捷,只需要将分散在不同数据表中的用户标签汇总成一张宽表即可。但是该模型适用的标签主要是离线标签,比如属性或者统计类标签,不适用行为明细类等与时间相关的数据。这一特点决定了该模型不支持精细化的基于行为数据的画像圈选和分析,比如圈选出1号到4号点赞过某视频的用户。但很多场景并不关注与时间相关的明细行为数据,比如DMP平台中人群圈选大部分都是使用离线标签,用户模型比较符合此类场景。

为什么要把标签数据汇总到一张宽表中?这个与后续工程实现的简便性有关,如果标签分散在不同数据表中,圈选和分析时涉及的实现逻辑会比较复杂。宽表也是数据工程师向研发工程师提供的主要交付物,它使得两个角色的工作边界更加清晰明确。

用户-行为模型

用户的行为数据从粒度上可以分为两类:统计类行为和明细行为。统计类行为可以直接作为标签使用,比如当天点赞数、当天送礼数、当天使用App时长、近7日登录App天数等,这些行为数据需要进行离线统计计算。明细行为指的是用户每一个行为的明细数据,比如用户每天的点赞记录,数据不仅与时间有关,而且还涉及发生行为时的一些附加信息,比如2022-03-20 18:00:00 用户A对视频B进行了点赞操作,当时A使用的是Android手机上的UC浏览器通过WiFi网络进行的操作。

行为数据不同粒度对应的数据表结构也不相同,但是用户-行为模型的整体结构相似。图2-16展示了基于统计类行为的表结构设计,与用户模型相比增加了与日期相关的行为标签数据,且按天记录了各类行为统计类标签数值。基于用户-行为模型,可以结合用户属性类标签和行为标签实现更加复杂的人群圈选和分析功能,比如圈选出3月1日到3月24日之间,平均在线时长超过1000秒的河南省男性用户;针对给定人群,分析其从3月15日到3月24日的平均在线时长变化趋势。此时的行为标签与用户普通标签差距不大,只是业务属性上属于用户行为且与标签值日期有关。

图2-16 基于统计类行为的用户-行为模型表结构示例图
图2-16 基于统计类行为的用户-行为模型表结构示例图

图2-17展示了基于明细行为的数据表结构设计,行为明细数据对行为的描述更加细致,以用户的点赞行为举例,每一次点赞数据都会被记录下来,数据中还包含被点赞的视频ID、点赞用户所使用的操作系统及网络类型。基于行为明细数据可以实现更加细致的人群圈选和分析功能,比如圈选出3月1日到3月7日,中午12:00到14:00之间,使用Android系统进行登录的河南省女性用户;筛选出3月24日登录2小时之内发生了点赞行为的用户,然后分析其使用的网络类型分布情况。基于行为明细数据还可以进行行为分析,比如事件分析、留存分析、漏斗分析等,在后续章节中会做详细介绍。

 图2-17 基于明细行为的用户-行为模型表结构示例图
图2-17 基于明细行为的用户-行为模型表结构示例图

基于用户-行为模型,基本可以实现画像平台大部分功能。可以依据业务特点选择统计类行为数据或者行为明细数据,也可以同时结合两种数据来满足多样的业务需求。本书中主要采用用户-行为模型(统计类行为)进行案例展示,也会介绍一部分基于明细行为数据的功能实现方案。

用户-行为-内容模型

有些情况下用户-行为模型(明细行为)不一定能满足圈选需求,当前可以圈选出对某指定视频有点赞行为的用户,但是关于该视频的其他信息无法考量进去,比如该视频属于搞笑类视频,是否可以统计出对搞笑类视频有点赞行为的用户?最直接的方式是在写入行为明细数据的时候添加上视频分类信息,“搞笑”作为点赞行为涉及的附加属性记录下来。但是这种方式不够灵活,当视频后续又添加了其他维度信息时,很难灵活扩展来支持更多维度的圈选和分析需求。借助用户-行为-内容模型可以解决这类问题,通过将行为中的某些属性关联到具体的内容数据表上来满足灵活的分析维度扩展需求。

图2-18展示了基于用户-行为-内容模型的数据表结构设计,通过将行为明细数据中的视频ID关联到更详细的视频内容信息,可以支持对视频分类、视频时长等视频相关属性的圈选和分析需求。即使后续在视频内容表中增加了其他维度信息,该模型也可以灵活支持。随着模型复杂度提高,系统的工程实现和维护成本也会增加,这个需要根据自身业务及人力情况进行权衡。

图2-18 基于用户-行为-内容模型的表结构示例图
图2-18 基于用户-行为-内容模型的表结构示例图

以上介绍了常见的3种画像平台数据模型,随着模型复杂度的提升,工程实现难度不断提高,但是可支持的功能范围逐渐扩大。与技术架构一样,没有最好的模型,只有最适合业务的模型,读者可以根据实际功能需求灵活运用上述模型。


本文节选自《用户画像:平台构建与业务实践》,转载请注明出处。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 用户模型
  • 用户-行为模型
  • 用户-行为-内容模型
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档