应用:如何校验用户画像的准确性?

在用户研究的课题中,用户画像是几乎每个公司都会去做的,浅层的包括统计类的:上月购买量,上周活跃天数等;深层的包括洞察类的:潜在需求偏好,生命周期阶段等;前者的校验简单,后者的校验需要通过一些特别的方式。本文就洞察类画像校验做一系列的梳理。

省略掉预处理设计的过程,画像校验的步骤主要集中在画像开发,画像上线,画像更新中,并且三个阶段中,每个阶段的校验方式完全不同

一、用户画像开发中

当我们所开发的用户画像是类似于用户的下单需求、用户的购车意愿、用户是否有注册意愿这一类存在历史的正负样本的有监督的问题,我们可以利用历史确定的数据来校验我们的画像准确性。比如,银行在设计用户征信的画像前,会有一批外部购买的坏样本和好样本,其实画像问题就转化为分类问题去解决评估了。 1.1 Recall、Pecision、K-S、F1曲线、Roc曲线、Confusion Matrix、AUC 针对这类问题,已经有较为成熟的理论基础,直接利用测试样本判断的准确程度判断画像是否准确

这张图是一张非常常见也是有效的来总结Recall、Pecision、Lift曲线、Roc曲线、Confusion Matrix的图。 FPR = FP/(FP + TN) Recall=TPR=TP/(TP+FN) Precision=TP/(TP+FP) F1曲线:2*Precision*Recall/(Precision+Recall) Roc曲线:TPR vs FPR,也就是Precision vs Recall Auc:area under the roc curve ,也就是roc曲线下面的面积,积分或者投点法均可求解。 这边不详细讲细节,需要的可以参考精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

1.2 交叉验证 并不是所有画像都是有监督训练的画像,举个例子,用户的性别画像,是一个无监督的刻画,当你无法通过app端资料填写直接获取到的时候,你只能够通过其他数据特征的对用户进行分群。

input : 
Data Set:测试数据集

output : 
model:画像模型
label:0(无效),1(有效)

methods:
1.从原始数据集中确定画像模型关键features
2.关键features分层,分为train features、test features
3.train featrues训练画像
4.test freatrues校验画像
5.输出值对(model,label)
6.重复2~5

首先,我们在总的数据集中筛选出所有关键影响特征,每次将筛选出的特征分为两块,测试特征训练特征,利用训练特征建立模型,再利用测试特征去判断模型是否合理(比如女鞋用户群的女鞋购买次数小于男性用户群,则次模型异常,删除),最后集成所有合理模型。 这样的逻辑中,我们将所有异常不合理的模型全部剔除,训练过程中就校验了用户画像的准确性

二、用户画像上线后

1.ABTest

不得不说,abtest是用户画像校验最为直观有效的校验方式。

用户分流模块:

methods:
1. 全量用户流量为Users,切分流量为三块Users:A1、Users:A2、Users:B,且满足Users:A1+Users:A2=Users:B

2. 对流量Users:A1、Users:A2不做任何动作
3. 对流量Users:B做相应的模型预测,保存结果
4. 以用户活跃度为例子,选取观察日期周下平均登陆次数y为代价函数,
if y(Users:A1)=y(Users:A2)then 
        if  y(Users:B)> y(Users:A1+Users:A2)
                 then 模型有效(差值越大代表准确越高)
        else 模型无效(差值越小代表准确越差)
else    模型无效
5.准确程度量化:K=(p*exp(-(dist(y(Users:B),y(Users:A1+Users:A2)))^2/(2*最小容忍度^2)))^(-1)

一句话解释,就是A1=A2保证分配随机,A3好于A1+A2的效果检验画像是否准确?多准确?

三、用户画像更新

用户回访

在画像刻画完成后,必然会存在画像优化迭代的过程,客服回访是非常常见且有效的方式。 比如,我们定义了一波潜在流失用户10万人,随机抽取1000人,进行回访,根据回访结果做文本挖掘,提取关键词,看消极词用户的占比;

这个图随机找的,别在意

机制检测

再比如,我们定义了一波忠诚用户10万人,随机抽取100人,后台随机获取用户安装app的列表,看用户同类app的下载量数目的分布;

横轴为用户手机中同类竞品安装量的个数,纵轴为对应的随机抽样的100人中的个数 人群1分布为忠诚用户画像最准确的,同类app下载量集中在1附近,定义的用户极为准确 人群2分布杂乱,人群3分布在下降量异常高的数值附近,定义人群不准确 用户画像是数据运营运营的基础,也是做深度挖掘的一个不可或缺的模块,只有先打好画像基础,确保画像质量,后续的深挖行为才有突破的可能,最后,谢谢大家阅读。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI派

谷歌机器学习43条黄金法则(手册版+PDF)

之前的 谷歌机器学习法则:ML工程的最佳实践 将谷歌公司关于机器学习方面的实践经验详细的介绍了下,很多朋友会问有没有手册版以及PDF版本。这里会将精简后的法则内...

14240
来自专栏范传康的专栏

使用ARKit开发AR游戏-基础篇:ARKit入门篇

11月到12月,使用新出的ARkit开发了一个AR游戏,梳理下开发过程的经验,整理成文。 计划是一个系列,入门篇主要是收集的资料整合。

48540
来自专栏思影科技

结构脑网络的模块性分离,支持青年时期大脑功能执行的提升

宾夕法尼亚大学精神病学系的Satterthwaite等人在Current Biology期刊上发表了一项研究,用来解释青年时期的执行功能活动和大脑结构网络的成熟...

39270
来自专栏AI研习社

2018 最新机器学习 API 推荐清单,快给 APP 加点智能

本篇基于 2017 年的推荐清单做了一些改进——去除了一些不再进行维护的 API,并且更新了一些新的 API。主要覆盖如下方向:

17430
来自专栏量子位

讲道理,我觉得TensorFlow太逊了

原作:Nico Jimenez 安妮 编译自 Nico’s Blog 量子位 出品 | 公众号 QbitAI 本文作者Nico Jimenez。自2015年从斯...

364100
来自专栏机器学习实践二三事

【Google 年度顶级论文】机器学习系统,隐藏多少技术债?

原文在此:google原文 1. 介绍 随着机器学习(ML)社群持续积累了几年对于活跃系统(live systems)的经验,一种让人不舒服的趋势广泛地浮出...

304100
来自专栏CreateAMind

her训练效果,可以准备人机乒乓球比赛了

11320
来自专栏AI研习社

AI 开发者看过来,主流移动端深度学习框架大盘点

AI 研习社按:移动设备相较于 PC ,携带便携,普及率高。近年来,随着移动设备的广泛普及与应用,在移动设备上使用深度学习技术的需求开始涌现。

37830
来自专栏机器之心

加入巨头竞争之列,索尼开源可在Windows中运行的神经网络库NNabla

选自Sony 机器之心编译 参与:蒋思源、李泽南 索尼昨天宣布开源了自己的神经网络库 NNabla,其中包含用于深度学习系统的 Python API 与用于嵌入...

34960
来自专栏新智元

【解读谷歌TFX】基于TensorFlow可大规模扩展的机器学习平台

【新智元导读】 作者详细分析了Google通用机器学习平台和其实现过程。通过将上述组件集成到一个平台中,能够对组件进行标准化,简化平台配置,并将生产时间从数月缩...

48040

扫码关注云+社区

领取腾讯云代金券