用户群体画像那些事儿

伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。

什么是用户画像?

男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。

这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。

如果用一幅图来展现,即:

为什么需要用户画像

用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?

也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?

大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。

所有伟大的产品,都离不开用户的追随与期待。

用户群体画像是产品用户增长的利器之一——它能够帮您探究产品指标数字背后的原因。

通过跟踪数据,我们已经能够持续的监测产品运营状况,比如:观察产品关键指标的变化、关注用户到目标的转化趋势、分析用户的留存回访……

除此之外,我们还可以观察到产品的每位用户,对单个用户的特征和行为进行最为细致的分析。

但是,我们的目标是改进提升产品以实现用户增长。而数据指标并不足够直接指导产品的改进——因为,在数据指标和用户增长之间,会有很多坑,让产品和运营的改进变得步履维艰、让用户的增长变得缓慢。究其原因,是由于产品的数字指标过于宏观,而用户增长的构成是非常微观的:我们的用户是一个一个(1 by 1)被获取、激活和留存下来的。

因此,我们需要一些有效的工具,帮我们在产品改进过程中尽早找到方向,让产品改进不再是盲目的过程。

群体画像的用途

用户群体画像可以帮助我们:

  • 分析某个指标数字背后的用户,具备哪些特征——他们的人群属性、他们的行为特点?
  • 找到一些有趣的、有价值的事实,并从中发现产品有效改进提升的机会或方向。

用户群体的“画像”包括什么?

用户价值和流失风险分析

高价值用户的占比越高,高流失风险的用户占比越低,产品越健康。

用户特点分析

分析用户的性别、年龄、自定义属性、兴趣标签等。

用户的使用环境分析

分析用户的地域、渠道(来源)、应用版本、设备品牌(浏览器)等。

用户的使用时间

分析用户的首次访问时间、最后访问事件、最近30天访问时长、最近30天访问次数等。

用户的行为特点

分析用户在最近一个月内的行为分布。

用户群体画像应如何使用?

群体画像除了帮助我们查看产品用户的特点,更重要的作用是发现产品问题的背后的原因。

因此,您可以参考下面的步骤使用群体画像:

第一步:弄清目标和当前的主要问题

在开始之前,确立产品的目标,弄清当前最亟待解决的问题是至为重要的事。

比如,一个电商类产品已经确立其目标是提升销售额。接来下,就要分析当前最主要的问题是什么?是新用户的增长不够多,还是老用户的重复购买率太低?这些问题,可以很方便的通过诸葛io分析得到。

第二步:找出问题相关的数据指标

弄清目标和主要问题后,下一步是要找出和问题最直接相关的数据指标。

比如,如果当前的问题是用户的重复购买率低,那么还进一步分析:用户在第一次购买多久之后的购买率会有显著的降低?哪些人群的重复购买率明显的低于或高于全部人群的平均值?

总结起来就是:要尽可能精准的定位问题的点(时间、人群、渠道……)。

第三步:对问题指标的相关人群进行画像分析,探究问题背后的可能原因

找到较为精确的问题点及相关指标后,可以围绕这些指标做背后人群的画像分析,看能不能找到潜在的原因。

比如,分析重复购买率明显高于均值的用户的群体画像,将其人群属性、行为特点与其他用户做对比,找到不同点,分析这些不同点与重复购买率之间的关系(需要的话,可以直接或间接联系少量的用户以做验证)。

通过探索,您可能会发现一些可能的原因。

比如,您可能会发现,某项功能的使用不便、或者某个地区用户习惯的不同是造成问题的可能的原因。

第四步:改进产品或运营

在上一步,您已经分析出了一项或几项可能影响用户增长的原因。接下来,您需要做的是从可能性以及改进成本等方面评估,并对产品或运营做出改进。

比如,改进易用性差的功能,或针对有问题地区的用户增加引导。

第五步:观察指标和画像,分析改进效果

改进后,对问题指标及问题相关人群进行持续的观测,验证是否达到了预期的效果。如果达到了预期的效果,则继续按照上面的步骤分析新的问题并加以解决。如果未达到预期的效果,也可以继续按照上面的步骤继续分析问题的原因,或者放弃转向其他问题。

正所谓“集腋成裘、聚沙成塔”,用户增长是一件积少成多的事儿。用户群体画像提供了一架坚实的桥梁,可以帮助您和您的产品更加顺利的跨越鸿沟,尽早实现用户的快速增长!

如何构建用户画像

伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。

一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。

人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。

3.1 数据源分析

构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。

对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。

这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。

本文将用户数据划分为静态信息数据、动态信息数据两大类。

静态信息数据

用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。

动态信息数据

用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。

本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。

在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。

3.2 目标分析

用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒 0.8、李宁 0.6。

标签,表征了内容,用户对该内容有兴趣、偏好、需求等等。

权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。

3.3 数据建模方法

下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。

什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。

以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。

什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。

什么地点:用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。

内容:每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。

注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。

标签 权重

矿泉水 1 // 超市

矿泉水 3 // 火车

矿泉水 5 // 景区

类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。

所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。

什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。

不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1

红酒 1 // 浏览红酒

红酒 5 // 购买红酒

综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。

用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:

标签权重=衰减因子×行为权重×网址子权重

如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。

  • 标签:红酒,长城
  • 时间:因为是昨天的行为,假设衰减因子为:r=0.95
  • 行为类型:浏览行为记为权重1
  • 地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)

假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。

则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。

上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。

总结:

本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。

核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。

比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。

最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。

比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。

百分点现已全面应用用户画像技术于推荐引擎中,在对某电商客户,针对活动页新访客的应用中,依靠用户画像产生的个性化效果,对比热销榜,推荐效果有显著提升:推荐栏点击率提升27%, 订单转化率提升34%。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-12-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据分析】数据分析中的六脉神剑

了解数据分析 1定义 · 数据分析是什么? 简单地说就是利用有限的数据通过发散的思维,利用相关关系来解释你想知道的问题。 2目的 · 数据分析干什么? 把隐藏在...

2168
来自专栏互联网数据官iCDO

如何使用预测分析方法提高营销效果?

随着大数据,人工智能和数据分析等技术的兴起,营销一直在不断变化。现在,营销活动可以基于对过去活动的测量和洞察来规划,其中一种策略是使用预测分析来获得更好的营销表...

1092
来自专栏Golang语言社区

从设计者角度谈游戏的架构与细节梳理

(本文由四篇独立章节整合完成)游戏设计有点像写书,如果你没有首先花时间阅读和评价几本书,你就永远不可能写出一本书。那些想写书又没读过书的人,不可能创作出任何伟大...

4237
来自专栏C语言及其他语言

学习新技术的10个建议

我们生活在一个振奋人心的时代。我们可以越来越方便廉价地获得大量学习资源。这些资源的传播载体由最初的教室被变成了博客,技术论坛等。坐拥如此众多的学习资源,我们没有...

3674
来自专栏Java帮帮-微信公众号-技术文章全总结

大数据要怎么用,12名创业者这样说

当下,大多数企业都明白大数据的作用。大数据——这个庞大甚至是有时是压倒性的信息包含了企业日常经营的过程:销售策略,营销邮件的打开率,网站点击量等等,利用好大数据...

1022
来自专栏数据科学与人工智能

【数据】大数据用户画像方法与实践

首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据应该说是 信息技术的自然延伸,意味着无所不在的数据。 ? 我...

4638
来自专栏大数据文摘

业界 | Kaggle问卷主成分分析,16000万数据从业者面临这5类挑战

1336
来自专栏Android 开发者

想拥有更多回头客?为什么前十分钟是至关重要的?

1462
来自专栏数据科学与人工智能

【数据分析】用户画像分析

摘要: 伴随着大数据应用的讨论、创新,个性化技术成为了一个重要的落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获...

2355
来自专栏挖掘大数据

推荐系列02,每个职场中的你都有必要了解的推荐系统常识

接上一篇《推荐系列01:人工智能与推荐系统》,上一篇文章主要解决的什么是推荐系统以及为什么要有推荐系统的问题。这一篇我们关注的是,更细节的一些东西,把推荐系统的...

2690

扫码关注云+社区