【漫谈】用户画像：方法论与工程化解决方案

腾讯大讲堂

发布于 2021-02-05 16:40:10

1.3K0

发布于 2021-02-05 16:40:10

作者：fionaqu 腾讯WXG程师

|导语日常工作中，我们常常需要了解使用我们产品的用户到底是什么人，他们的消费习惯是怎样的，行为轨迹是怎样的等等…..正好最近读了《用户画像：方法论与工程化解决方案》，对用户画像有一些体系化的学习，同时结合日常工作经验对用户画像的方案论及实施方法进行了体系化的整理。

日常工作中，我们常常需要了解使用我们产品的用户到底是什么人，他们的消费习惯是怎样的，行为轨迹是怎样的等等…..正好最近读了《用户画像：方法论与工程化解决方案》，对用户画像有一些体系化的学习，同时结合日常工作经验对用户画像的方案论及实施方法进行了体系化的整理。

一、用户画像基础概述

1.1 背景及用户画像定义

大数据时代对于企业来讲最重要的资产莫过于数据资产，有了大量数据及数据处理技术后，数据便不再是冷冰冰的数字，而是更刻画用户的‘字符’，为了更好的服务用户首要点就是建立用户画像。

何为用户画像呢？通俗来讲就是指用户的信息化标签，一般是用用户的基础类信息、消费习惯、社交习惯、理财习惯等标签来刻画用户，并将这些标签进行归类后抽象出用户的基础面貌。

1.2 用户画像建设的目标

全域场景下，用户画像的应用通常是基于大数据平台进行数据采集分析，把用户标签按不同模块进行归类后提供给产品、运营或分析师使用，应用场景涵盖金融风控、精准营销、个性化推荐等，应用方向包括活动人群筛选、用户洞察报告、营销决策系统、推荐系统等。

1.3 用户画像的工程架构概览

用户画像的工程架构主要包含数据源梳理、数据采集和存储、画像标签建模及数据应用四个部分，具体框架图如下：

1.4 用户画像主要覆盖模块

搭建一套完整的用户画像系统涵盖的模块很广，包含画像指标体系搭建、画像标签开发及存储、画像标签验证、标签流程调度及画像标签应用。

1.5 用户画像的开发上线流程

用户画像最终服务于业务，因此开发流程的首要点就是明确需求，包含画像应用场景、预期达成的目标等；然后基于此进行数据维度梳理及基础指标清洗，再就是画像标签开发，有些情况下是简单的数据加工（如用户年龄、性别等），有些情况需通过模型进行挖掘（如用户对某个产品响应率高低），完成开发后需进行标签准确定验证，验证通过后方可提供给业务方进行应用。

接下来挑几个用户画像开发过程中的重点模块展开讲一讲。

二、画像标签体系

画像标签体系是指将碎片化的标签进行分门别类，而后汇总成一套体系化的标签，用于抽象化描述用户，以便与快速了解用户。整体过程就是化零为整，再化整为零。化零为整指将各个单独的标签汇总成标签体系，化整为零则指对于具有某一类画像特征的用户分成各个细化的维度再进行描述。

标签体系的建设通常是基于业务情况及所能获取到的数据进行设计的，比较常用的刻画用户的标签包含用户基础信息、消费行为、社交行为、金融属性、营销偏好、风险表现等等……

三、标签数据存储

用户画像标签的数据存储技术选型有多种，常用的如TDW、HDFS、Hive、Hbase、tPG、Hermes、TubeMQ等，不同的存储方式适用于不同的场景。通常情况下需要基于用户维度对标签进行聚合处理，从而映射到用户身上。

四、标签数据开发

标签数据开发是用户画像体系搭建中最重要的环节，主要包括离线标签开发、实时标签开发、用户特征库开发、人群计算、打通数据服务层等开发内容。

基于日常业务，我们笼统一点将离线用户画像分为三大类。第一类为基本信息画像，主要包含用户基本信息，如年龄、性别、学历、职业、收入、资产、婚否、是否有房、是否有车等；第二类为用户行为画像，包括消费行为、社交行为等，如品类偏好、下单预测等；第三类则是宽泛的用户分群画像，此类画像基于统计方法（聚类）将同类型用户划为一类，根据不同业务需求，群体特征也不尽相同。实时用户标签主要是与业务场景紧密结合的标签，如基于某搜索行为进行相关推荐。用户特征库开发主要指各项离线+实时标签汇总而成的特征总库，一般特征库按日或月维度进行更新。人群计算一般是各项标签通过求交集、并集来计算符合某一些准则的用户。打通数据服务则是指从标签开发、调度生产并正常应用于线上业务的的整套数据流程打通。

五、画像标签验证

按事件的发展过程来看，用户画像准确性验证分为事中和事后，其中事中指用户开发过程中，而事后则是指画像上线运用于业务后。不同阶段验证方法也有所不同。

1.1 事中验证：

事中验证主要基于画像开发过程中所选模型及统计方法，对于三类画像统而言之有以下三种验证指标：

（1）模型验证指标

常用的模型指标验证主要用户前两类画像的验证，通用的即为AUC、KS、ROC、Confusion Matrix等，这些指标的介绍及判断标准已经有比较成熟的理论基础，此处就不展开赘述。

对于第三类基于聚类的用户画像没有较常用的验证指标，聚类效果图通常情况不能很好的说明问题，还需结合业务及每个群体用户覆盖度进行相应调整，最后的验证通常也是基于事后的业务反馈效果。

（2）抽样验证

业务中用户画像通常涉及千万级甚至上亿级用户，不可能一一验证，这种情况下可以采取分层抽样验证或随机抽样验证，当然由于抽样验证的数据量相对较小，因此说服度不高。

（3）交叉验证

交叉验证分画像指标间的交叉验证及外部数据的补充交叉验证。

通常情况下，一些画像类的指标间会存在一些相关性，此时可进行交叉验证。举个例子，收入与资产存在一定的相关性，通常收入越高资产也会越高，此时就可用这两个画像评分进行交叉验证。

另外，如果公司购买的第三方机构数据也有相应的画像指标，也可用于参考进行交叉验证。

1.2 事后验证：

事后验证主要基于随业务发展增加的数据源（真实数据）及应用于业务后的反馈数据：

（1）真实数据验证

随着业务发展，一些用户画像信息会从无到有慢慢积累，如果有真实数据，用于验证画像类指标毋庸置疑是最准确的。

（2） A/B Test

A/B Test 是互联网公司最常用的验证方法，一般基于用户画像制定的策略在上线时都会进行严格的对比试验，以测试画像的准确性。下图为一组对比试验（假设纵轴为用户响应率，横轴为营销活动开始时间），可以看出实验组的效果优于对照组，因此该画像可认为相对准确。

（3）业务反馈数据验证

用户画像中的第二类（用户行为画像）和第三类（用户分群画像）与业务有紧密联系，源于业务也用于业务，因此由实际业务数据反馈来验证画像准确性是相对来说最有效的。

验证方法主要看业务反馈排序与画像模型排序模型是否呈现单调性，举个例子，

备注：level1——level10 预测概率等级呈降序，即level1概率最高，level10 概率最低

如上图所示，基于用户画像指标（下单预测概率模型）将用户划分为十个等级，实际业务中，会从每个level随机抽一部分用户用于营销，而后会根据实际情况（即下单率）来检测画像模型排序能力，上图中下单率与画像模型排序呈现严格单调性，因此就业务角度而言该画像是有效的，能用于业务并对业务起到一定提升作用。若不单调，则需要考虑是否需求进一步优化画像模型。

六、总结