【数据分析】用户画像分析

摘要: 伴随着大数据应用的讨论、创新,个性化技术成为了一个重要的落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,用户画像的概念悄然而生。

用户画像

用户画像,能够完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。

什么是用户画像? 举例而言,某位客户的特征描述为:男,31岁,收入一万以上,爱美食,团购达人,喜欢红酒配香烟。这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签画。 为什么需要用户画像 用户画像的核心工作是为用户打标签,打标答的重要目的之一是为了让人能够理解并且方便计算机处理,如可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少? 也可以做数据挖掘工作:利用关联规划计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况? 换成运营商的例子则是这样:使用全球通品牌的人通常是什么职业?使用动感地带的客户收入情况怎么样? 大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解”人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。 用户画像如何构建 一个标签通常是人为规定的高度精炼的特征标y6kw,如年龄段标签:25-35岁;地域标签:上海。标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义,能够较好的满足业务需求。如:判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。 制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标答提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。

数据源分析

构建用户画像的数据来源于所有用户相关的数据。对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如:世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期……所有的子分类将构成了类目空间的全部集合。

这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度,不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景、业务需求的不同,也许各有道理,按需划分即可。本文将用户数据划分为静态信息数据、动态信息数据两大类。

1.静态信息数据 用户相对稳定的信息,主要包括人口属性、商业属性等方面数据。这类信息、自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作。 2.动态信息数据 用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着。举例而言,一个用户打开网页,买了一个杯子;傍晚的时候遛了趟狗,取出一一次钱,甚至打了一个呵欠都是上帝眼中的用户行为。当行为集中到互联网,用户的行为就会聚焦很多。以电商为例,浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质量的微博、赞“双十一大促给力”的微博消息,等都可以看作是用户的互联网行为。

目标分析

用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。标签,表征了内容,用户对该内容有兴趣、偏好、需求等等;权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度、概率。

数据建模方法

一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户、在什么时间、在什么地点、做了什么事。

其中用户的属性识别关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。时间的属性包括两个重要信息:时间戳和时间长度,时间戳指的是标识用户行为的时间点,通常精确到秒;时间长度指的是标识用户的停留时间。地点的属性也就是用户接触点,在互联网上,用户的接触点就包括了网址和内容两个重要信息。

用户行为属性有不同的类型,结合接触点的内容产生的标签信息,具有不同的权重。用户画像的数据模型可以概括为这样一个公式:用户标识+时间+行为类型+接触点(网址+内容),某个用户在某个时间、某个地点做了什么事情,就会被打上一个既定的标签。而用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子,行为类型、网址决定了权重,内容决策了标签,可以认为公式转变为标签权重=衰减因子×行为权重×网址子权重。

通过这样的计算才能够构建用户画像模型,进而能够逐步细化模型,从而最终制作出一个精准的用户模型。而每一个精准的用户模型都能够根据用户不断调整的互联网行为进行更新,从而精准把握用户心理,为每一个用户提供最完美的精细化服务,全面提升客户感知,最终实现客户满意度的不断提升。

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-11-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏架构师小秘圈

一线互联网智能推荐系统架构演进

作者:fisherman,时任推荐部门推荐系统负责人,负责推荐部门的架构设计及相关研发工作。Davidxiaozhi,时任推荐部门推荐系统架构师,负责推荐系统的...

1.4K110
来自专栏IT技术精选文摘

深度解析京东个性化推荐系统演进史

在电商领域,推荐的价值在于挖掘用户潜在购买需求,缩短用户到商品的距离,提升用户的购物体验。 京东推荐的演进史是绚丽多彩的。京东的推荐起步于2012年,当时的推荐...

56860
来自专栏IT大咖说

京东推荐系统中的机器学习与大规模线上实验

摘要 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技...

47580
来自专栏ATYUN订阅号

世界上最大的大脑:拥有一百万个处理核心的神经形态计算机

科学家刚刚激活了世界上最大的“大脑”:一台拥有一百万个处理核心和1,200个互连电路板的超级计算机,它们像人脑一样运作。科学家宣布,这是世界上最大的神经形态计算...

9610
来自专栏Spark学习技巧

深度解析京东个性化推荐系统演进史

作者 | fisherman、Davidxiaozhi ? 本文摘自《决战618:探秘京东技术取胜之道》,两位作者时任京东推荐系统负责人和系统架构师。 在电商领...

331100
来自专栏CDA数据分析师

你真的懂什么叫数据挖掘吗?

我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过...

23950
来自专栏大数据挖掘DT机器学习

【解析】数据挖掘工具的评判

要做数据挖掘,当然需要工具。但若靠传统的自我编程来实现,未免有些费时费力,而且其性能也不一定比商业工具来得强和稳定。目前,世界上已经有很多商业公司和研究机构开发...

29640
来自专栏数据科学与人工智能

【知识】推荐系统中的常用算法

目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Content...

29790
来自专栏大数据文摘

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT)

310110
来自专栏点滴积累

人工智能入门

前言 这个名字起的非常大,但是本文只能从一些概念和我自己的理解上介绍一下什么是人工智能。本文只是给从未接触过此块的人一个大致的印象和思路,其余人请直接略过。 一...

47870

扫码关注云+社区

领取腾讯云代金券