首页
学习
活动
专区
工具
TVP
发布

用户画像

1.1什么是用户画像?

用户画像通常包含定性画像与定量画像;定性画像是描述用户的基本属性、行为刻画、兴趣模型等,定量画像主要包括用户基础变量、兴趣偏好等可量化的数据特征。

一般情况,定量画像主要通过表单(问卷等)以及通过行为数据采集、清洗、统计、归约、挖掘分析等手段取的用户画像数据,相互结合,提高补充用户画像整体质量

定性画像主要是标签化,如什么人,在什么地点、做了什么事情。

1.2用户身份

如何确定用户的身份唯一,对于大部分公司或者企业来说仍是难题。用户的身份不可确定性比较高,用户浏览网站,不可能所有用户去注册,或者只有不到1/10的用户注册,或者注册用户不登录浏览也是正常现象;那么,准确的识别用户身份,将是刻画用户画像的基础。

用户身份识别现有以下几种方式:

根据上述特征,根据一种方式很难准确的识别用户身份。

那么如何确定用户身份唯一呢。

1.3识别用户身份方式

不过在这提到一点,做到用户身份识别的完全准确性不怎么现实,用户操作随意性太高,注册用户也可能换账号、手机号等,只能不断提高其准确性。

对于不同的设备,提供不同的处理方式。

如:

电脑端,用cookieId做唯一标识。

手机端,h5用cookieId。Android app嵌入app唯一序列号。而iPhone则使用嵌入唯一序列号的方式。

对于手机端来说,imsi与imei可以同型号等等设备基础特征一起采集。

那么,不同的用户设备之间如何确定是同一用户在操作呢。如何跨设备跨渠道来识别用户身份。

有人说单点登录,当然,对于注册用户来说,单点登录、第三方授权账号等,都可以很好的识别用户身份,咱们这里也需要用单点登录等来确定注册用户的唯一性。

要进行关联识别,则需要用户注册数据、唯一标识数据、采集的用户账号-唯一标识数据。

首先,必须要有唯一的用户识别码(整个系统生态的,唯一用户识别码)。通过这个唯一识别码,来关联用户注册账号、用户唯一标识(imsi/imei/cookieId/嵌入标识)。

现在咱们来讨论一个场景,如果用户清空了cookie,然后以游客方式浏览,将会有一个新的cookieId,这时,将不能确定用户身份,若这个用户在网站浏览了N次后进行登陆,并且关联上唯一识别码,重新确定了此cookieId与账号的关系,那么这些历史数据怎么办,丢掉么。那么多用户做这样的操作,这将会是一笔不小的损失。特别APP用户。

如何设计唯一识别码与唯一标识、登录账号之间的关联关系,将会尤为重要,我们需要一个或多个微服务来建立用户识别机制(uid.mapping)。以下会有单独的章节来说明。

1.1用户画像建模

用户画像建模将以视频推荐与电商的物品推荐为业务场景来讲述,其实他们的核心思想是一样的,不过对用户画像建模的关注点不同。

以下基于用户定性画像进行分析,原因嘛,当然比较难理解的来说。定量画像是基于数字的,可以很好的去推理出来。

定性画像分析的核心,主要是利用本体对用户画像中的标签进行获取、表示、验证、推理和解释,将专业人员的经验转化为计算机可处理的知识。

推荐系统中,有类元素:用户(user)、项(Item)。

如视频推荐,以用户维度看,包括用户特征、行为、兴趣偏好等。从视频维度看,包括视频固有的属性信息(名称、类别、导演、主要演员、所属国家地区、语言、上映年份、时长等)

那么,用户的点播行为与浏览行为,什么时间观看、花费多少时间观看反应了用户观影的时间偏好、时长偏好、对视频的关注偏好、对视频导演的偏好、对主演的偏好、对所属国家偏好等等。

可归纳总结一下。视频推荐应用中,相关知识的类型可以为以下3种:

与用户和视频特征有关的属性知识。

反应用户兴趣偏好的规则知识

用户推理和确保关系完整性、正确性的约束性知识。

1.2定性画像的构建

由上述我们已经理解,用户定性画像主要以用户和视频的相关知识做为画像建模的核心。

但是计算机并不能识别如“让子弹飞”,“姜维”是什么。

如何让计算机理解这些标签呢。

这里引入上边也说到的本体概念。如“让子弹飞”是电影类的实例,“姜维”是主演,“女”是本体性别类标签等等。

从这里可以知道,用户画像领域中的标签以及标签之间的关系建模,都可以通过本体进行语义解释

我们要知道,用户画像,也是针对各项不同的领域的,如物品推荐与视频推荐,他们的构建标签侧重点就不同。所以,我们要先搞清楚我们要什么。

本体构建用户画像在保持使用标准用语与前后一致情况下,要维护一个共享词汇表,并以此为概念基础。

来个实例,不然这些还是比较难理解的。

对用户领域而言,类词汇可以包括人、用户等;属性词汇包括年龄、性别、爱好等。

对视频领域而言,类词汇一般包括人、电影、微电影等,人又包括导演、演员、编剧等。

1.3定性画像的存储

一般对已经经过清洗、分析、转化后的结构化数据,也是使用分布式文件数据库存储,对于已经定义清楚职责的数据,可以采用hbase等分布式数据库。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180328G1H0OL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券