用户画像在大数据分析中是一种很有用的系统,它可以各种不同的系统中,起到很关键的作用。比如搜索引擎、推荐系统、内容系统等等,可以帮助应用实现千人千面、个性化、精准等的效果。
下面将从几个方面来说一下,什么是用户画像,主要的内容来自《用户网络行为画像分析与内容推荐应用》这本书。
下面举几个很典型的场景:
在搜索的时候考虑用户的画像标签,返回用户感兴趣的内容。比如同一个关键字“诸葛亮”,王者荣耀的爱好者搜索的时候应该返回“诸葛亮”相关的内容,比如如何加铭文、如何五杀等等;而历史爱好者搜索的时候,应该返回三国相关的内容。
推荐系统可以根据用户的喜好和特征,也就是用户的画像,推荐相关的内容。比如,给一个用户定位的画像是美妆达人,那么就应该给她多推送一些面膜护肤之类的东西,而不是推一堆零食。
比如新闻类的产品或者读书类的产品,根据用户的喜好不同,展现不同的内容。
用户画像的数据来源主要包括两个方面:
通过这两部分的数据,就能刻画出用户的画像,其实就是给用户打上一个标签,比如高富帅、白富美等等。
用户画像具有很明显的动态性
和时空局部性
。
用户的画像分为定量画像和定性画像,网上也没有找到这两种明确的定义。不过参考1的文章中是这样定义的:
这一块的内容,理解的并不好....以后会多加补充
在用户的定性画像中,标签化是核心。即把用户的画像变成一个一个的标签,那么在考虑标签化的同时,需要注意下面的几个方面:
知识工程,在百科中的解释是:
“知识工程”的产生,把人类所专有的文化、科学、知识、思想等同现代机器联系起来,形成了人——机系统。
即需要领域专家(有经验的老业务)配合来做机器智能的分析。
知识工程的大体过程为:知识的获取-->验证-->表示-->推论-->解释和理由
在用户画像中,就是配合用户和物品的属性,建立对应关系,这部分的对应关系需要知识专家进行鉴别推理和构建。比如有一些“专家”会把电影分为几类,爱情片、动作片、科幻片、恐怖片,这些都是需要领域专家来设定的,而不是靠人工分层分类1分类2分类3...
在构建用户画像时,大致可以按照下面的步骤:
用户画像是用来描述目标用户的画像,而群体画像则是对一类相似的用户的描述。比如成熟稳重型、可爱萝莉型等。
那么如何定义群体画像呢?可以按照下面的步骤:
计算用户画像之间的相似度,可以参考下面的公式:
其中wk表示第k个画像的权重,比如在电影里面,用户喜欢的电影类型比重要比电影的时长重要的多,在计算相似度的时候权重也应该更大一些。
计算相似度有很多中方法,比如:欧氏距离
、曼哈顿距离
、夹角余弦
、皮尔逊相关系数
、杰卡德距离
等,每一种都有自己适合的场景。
画像聚类的方式有很多,比如K-means,原理就是随机几个点,看各个点的数据跟哪个点接近,就归为哪一类。然后不断调整中心点,达到最终聚合的效果。
用户画像有很多中表示的方法,比如:
不同的表示方法,对于存储的方式来说,也会不同。
一般用户画像常用的存储引擎有:
用户画像的场景下:
在画像的更新方面,需要考虑的问题是:
对于获取用户的信息,可以把用户逇信息分为静态信息数据和动态信息数据,
以上就是用户画像的基本内容,也是《用户网络行为画像分析与内容推荐应用》这本书的第一部分,后续会更新其他的部分。
1 什么是定性画像、什么是定量画像?http://www.jianshu.com/p/3750d9349b71 2 《用户网络行为画像分析与内容推荐应用》想要电子版的私M。~