为什么你收到的“个性化推荐”总是槽点满满？

DT数据侠

发布于 2018-08-08 16:29:18

5820

发布于 2018-08-08 16:29:18

文章被收录于专栏：DT数据侠

互联网时代，信息量惊人膨胀，也意味着用户必须为信息筛选付出更大成本。个性化推荐技术的出现，意味着这个被信息淹没的时代，用户可以直接获得自己最感兴趣的内容推。但现实是，虽然这个技术已被广泛应用于各种互联网平台，但离真正读懂大家的心还很远。

来自微软亚洲研究院研的数据侠谢幸、张富峥的这篇文章，详细讲解了大数据背后个性化推荐的几重境界，如何才能构建现实版“读心术”。

本文转自公众号微软研究院AI头条（ID：MSRAsia）

个性化推荐系统大致可以分为三层境界。

以电商推荐场景为例，第一层境界是你购买过什么，能够给你推荐类似的商品；第二层境界推荐的是你需要并且也适合你的其他商品；第三层境界，也就是最高的境界，应该是能够基于你的性格、兴趣等个人特性，为你推荐从来没有想过却正中心意的商品，能给你带来意想不到的惊喜。

目前主流的个性化推荐算法，主要包括协同过滤推荐算法和基于内容的推荐算法，还只能达到前两层境界，有可能会产生过于盲目的“精准推荐”，从而使得用户的视野变得越来越狭窄。

个性化推荐技术想要更上一层楼，必须对用户的性格进行更深层次的解读，并且有效地融入在推荐模型中。

有针对性的个性化推荐不仅是营销界的制胜法宝，在政治、经济、文化等领域同样能够大放异彩。

融合用户的性格到推荐算法中，开启了进一步提升个性化推荐境界的大门。按照用户性格获取的方式，目前该领域的研究工作主要分为基于调查问卷的性格推荐算法和基于模型的性格推荐算法。

▍基于调查问卷的性格推荐算法

此类算法常常分为两步，首先使用心理学中的调查问卷工具来测量用户的性格特征，然后把用户的性格特征融合到传统的推荐算法中。

代表性的工作来自洛桑联邦理工学院的Rong和Pearl，他们在协同过滤的框架中引入了性格特征。

如图所示，根据用户的评分数据以及心理学中的TIPI量表测量得到的大五人格数据，他们使用皮尔逊系数来分别计算两个用户的评分相似性和性格相似性。

（图片说明：融合性格相似性和评分相似性的推荐模型）

下图展示了他们的实验结果，可以发现融入性格特征的协同过滤算法能够更好地解决推荐里面常常遇到的冷启动问题。

（图片说明：级联式混合模型和基准算法在不同稀疏性配置下的性能比较）

互联网上的服务，特别是音乐和电影类的网站，由于跟用户性格有强烈的相关性，也开始尝试使用性格来进行个性化推荐。

例如在电影推荐网站Whattorent上，系统会要求用户回答关于性格测量的20个问题，然后根据用户的性格来推荐相关的电影。

Gifts是一个礼物推荐的电商网站，系统会用一套心理学量表来测量礼物接收者的性格，然后根据接收者的性格来筛选合适的礼物。

▍基于模型的性格推荐算法

由于用户填写调查问卷需要花费一定的时间，而且问卷中难免会出现主观偏差的问题，因此基于调查问卷的推荐算法在互联网的个性化服务中存在着难以避免的屏障。

而基于模型的性格推荐算法希望跨过调查问卷这道屏障，从用户的行为数据中挖掘用户的性格特征，并直接融入到推荐算法中进行推荐。

这个领域的工作刚刚起步，研究成果还较为少见。目前我们正在进行初步尝试，探索如何从用户的行为数据中挖掘猎奇性和消费冲动性等性格特征，并且用于餐馆推荐和商品推荐等场景。

具体而言，在餐馆推荐的场景中，我们需要为用户产生在下一次就餐时的餐馆推荐列表。

在传统的电商和新闻等推荐任务中，所推荐的物品主要是用户之前没有购买的商品或者之前没有阅读过的新闻，所以协同过滤等模型主要关注用户对新物品的偏好。

而在餐馆推荐中，用户下一次就餐时可能去之前光顾过的餐馆，也可能去一个新的餐馆。

（图片说明：该图统计了用户就餐次数和去新餐馆的概率，可以看到，即使一个用户在100次就餐之后，有接近40%的概率去一个新的餐馆就餐）

因此，为了区分是推荐去过的餐馆还是推荐新餐馆，我们从用户的历史就餐行为中学习用户对新餐馆的偏好，而这正是用户性格中的猎奇特性。

在下一次餐馆推荐时，首先预测用户是否会选择新餐馆，针对新餐馆和去过的餐馆分别设计不同的推荐算法。

如下图所示，若预测用户会去新餐馆时，使用基于环境信息的张量分解算法进行推荐；若预测用户可能会去之前去过的餐馆，则使用隐马尔科夫模型进行推荐。

我们使用大众点评中的餐馆签到数据进行了实验，发现猎奇推荐算法明显好于协同过滤等基准算法。

▍基于用户猎奇特征的餐馆推荐算法

同时我们还发现，用户的消费行为会受到社交媒体的影响。

消费数据和社交媒体上相关信息的强关联性表明了很多用户的消费受到社交媒体的刺激，而用户对刺激的反应程度正是由心理学中的消费冲动性格来刻画的。

因此，我们设立了基于消费冲动性格的推荐模型：

（1）计算一段时间内社交媒体上的信息和商品的相似性，即该商品在社交媒体上对用户的刺激程度。

（2）把每个用户的消费冲动程度设计为一个隐变量。

（3）使用图模型对用户消费行为进行建模。

当用户的冲动状态处于较高的值时，用户更容易被社交媒体上的信息所刺激，选择一个刺激信息较强的物品去消费，而忽略掉自己本身对这些物品的喜爱程度；而当用户的冲动状态处于较低的值时，用户处于较理性的状态，此时用户更易于根据自身的喜好选择物品。

我们针对移动消费数据和在线购物数据进行实验，一方面发现模型能够较为准确地测量的用户消费冲动程度（跟调查问卷的结果存在较强的相关性），另一方面模型也具有良好的推荐性能。

▍基于物品刺激程度和用户消费冲动的推荐模型

除了对消费者的消费行为进行预测和评估以外，个性化推荐的可应用空间相当可观。

微软小冰就能够根据自身算法测量应聘者和面试官的性格，得出二者之间的匹配指数，为双方提供选择参考。

（图片说明：微软小冰测量用户性格）

（图片说明：根据微软小冰测量的性格匹配应聘者和面试官）

尽管随着心理学和计算机研究的不断进展以及两者的深度融合，有效测量用户的性格特征并融入到个性化推荐场景大有可为，但是基于性格的个性化推荐算法的研究仍然处于初步阶段，前路挑战重重。

这些挑战体现在如下几个方面：

需要克服调查问卷的依赖性，直接根据用户行为对性格测量的有效性是该领域需要突破的关键性研究问题；用户可能来自不同的地区甚至国家，目前的研究工作还不能很好的考虑到可能存在的文化差异，比如在不同的文化背景下，同样的行为是否反应同样的性格，以及是否应该进行类似的个性化推荐；可解释性是个性化推荐技术很重要的一个评价指标，基于性格的推荐算法如何更好地解释用户对物品的偏好也是该领域的关键性问题。

虽然相关研究已证实了个性化推荐在部分应用领域的潜力，但是目前的研究基础理论不完整，技术方案尚未成体系，应用还不够广泛。

作为一个交叉学科，这个领域的成功需要计算机科学家、心理学家和社会学家们一起的努力。

注：本文原载于《中国人工智能学会通讯》2017年第07期。本文仅为作者观点，不代表DT财经立场。

作者 | 张富峥谢幸

▍数据侠门派

本文数据侠张富峥博士，微软亚洲研究院副研究员，从事人工智能和数据挖掘方面的研究。他的研究兴趣包括用户模型、推荐系统、深度学习、情感检测、社交网络、时空数据挖掘、普适计算、大规模系统等领域，并在这些领域的顶级会议和期刊上发表了20余篇论文，如KDD, WWW, Ubicomp, TIST等，曾获ICDM 2013最佳论文大奖。张富峥博士曾任WSDM、APWeb等国际会议和TKDE、TOIS、TIST等国际期刊的评审委员。

本文数据侠谢幸博士于2001年7月加入微软亚洲研究院，现任社会计算组资深研究员，并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位。他在国际会议和学术期刊上发表了200余篇学术论文，并拥有50余项专利。他是ACM、IEEE高级会员和计算机学会杰出会员。他参与创立了ACM SIGSPATIAL中国分会，并曾担任ACM UbiComp 2011大会程序委员会共同主席。