用户画像标签

“数学是研究抽象结果的理论”

在现实生活中,人们总喜欢给别人“贴标签”。很多人批评这是用有色眼镜看他人,但实际上,通过三两个特征去认识身边的人,这种“快捷思考方式”是一种维持人体“低能量”的本能,本也无可厚非。

渐渐的,很多互联网软件把这种便捷思维借鉴在了产品设计中,给予屏幕上物品或服务一个或多个“标签”展示。由于符合人性,用户在使用产品的过程中会感觉到“很省心”。之前文章(

用户画像理解与建模

)讨论了建立用户画像的一般通用流程,本文重点讨论用户画像中标签的挖掘技术。

在实践中,用户画像有两个维度,一种是从产品角度定义的画像,英文称为Persona,是指一个社会角色或者演员扮演的角色的特征描述,例如外观等自然属性,以及角色权利责任、拥有的资源结构等。

另一种是从数据挖掘角度定义的画像,英文称为Profile,是指通过数据建立的大纲概要式描述,通常以标签的形式展示

两个用户画像的概念相同点即他们都是对用户某种属性的一种描述,它们都实现了通过统一的语言确定的标识。然而不同的区别在于,前者更接近于用各种途径办法收集用户的各种情报信息,认知并指导后续的决策;后者则只根据数据挖掘的技术手段获得用户在特定场景下的有限特征信息,且通常是可通过算法自动实现的。

本质上,通过数据挖掘手段得到用户标签也是Persona信息,但是它是在特定场景下总结抽象出来的重要特征,比如会影响用户对某商品或广告的点击率等,因此可通过数据和算法给出该高频场景的解决方案,当然也需要具体问题具体分析。

从技术角度讲,挖掘用户画像标签的本质是从数据中提取有价值信息的过程。其中,这个价值是根据业务场景确定的,通常需要人工或函数量化评估,而提取过程则是找到从数据到标签的规则。

确定规则有两种基本的思路:一是人工直接设定推理规则;二是人工标注标签并在进行有监督的学习。在此基础上,还可以实现半监督的学习,由此也实现了标签系统动态闭环自我学习优化的过程。

然而在实际应用中还会有新的问题,比如输出的标签候选集是未知的。要么找到新的数据集关联挖掘,要么还是需要借助人工智慧的。不可置否的是,AI虽然近年来发展迅猛,但在推理和自我认知方面的能力仍还是有很多不足的。

实践中还常会遇到其它问题,比如供挖掘的数据可能并不规整,例如是稀疏的或者很难关联,此外场景的识别、标签的生命周期。特别的,当挖掘的候选标签很多时,还需要针对标签数据进行维护管理,后续有机会再深入讨论。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180723G098I500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券