推荐系统系列之隐语义模型

一、隐语义模型的基本思想

隐语义模型是近年来推荐系统领域较为热门的话题,它主要是根据隐含特征将用户与物品联系起来。

现从简单例子出发介绍隐语义模型的基本思想。假设用户A喜欢《数据挖掘导论》,用户B喜欢《三个火枪手》,现在小编要对用户A和用户B推荐其他书籍。基于 UserCF(基于用户的协同过滤),找到与他们偏好相似的用户,将相似用户偏好的书籍推荐给他们;基于ItemCF(基于物品的协同过滤),找到与他们 当前偏好书籍相似的其他书籍,推荐给他们。其实还有一种思路,就是根据用户的当前偏好信息,得到用户的兴趣偏好,将该类兴趣对应的物品推荐给当前用户。比 如,用户A喜欢的《数据挖掘导论》属于计算机类的书籍,那我们可以将其他的计算机类书籍推荐给用户A;用户B喜欢的是文学类数据,可将《巴黎圣母院》等这 类文字作品推荐给用户B。这就是隐语义模型,依据“兴趣”这一隐含特征将用户与物品进行连接,需要说明的是此处的“兴趣”其实是对物品类型的一个分类而 已。

二、隐语义模型的数学理解

我们从数学角度来理解隐语义模型。如下图所示,R矩阵是用户对物品的偏好信息(Rij表示的是user i对item j的兴趣度),P矩阵是用户对各物品类别的一个偏好信息(Pij表示的是user i对class j的兴趣度),Q矩阵是各物品所归属的的物品类别的信息(Qij表示的是item j在class i中的权重)。隐语义模型就是要将矩阵R分解为矩阵P和矩阵Q的乘积,即通过矩阵中的物品类别(class)将用户user和物品item联系起来。实际 上我们需要根据用户当前的物品偏好信息R进行计算,从而得到对应的矩阵P和矩阵Q。

三、隐语义模型所解决的问题

从上面的陈述我们可以知道,要想实现隐语义模型,我们需解决以下问题:

  1. 如何对物品进行分类,分成几类?
  2. 如何确定用户对哪些物品类别有兴趣,兴趣程度如何?
  3. 对于一个给定的类,选择这个类中的哪些物品进行推荐,如何确定物品在某个类别中的权重?

对于第一个问题,就是找对应的编辑人进行人工分类,但是人工分类会存在以下问题:

  1. 当前的人工分类不能代表用户的意见:比如一本《数据挖掘导论》,从编辑人员的角度看会属于计算机类,但从用户来看,可能会归到数学类;
  2. 难以把握分类的粒度:仍以《数据挖掘导论》为例,可分类得粗一点,属于计算机类,也可分得再细一点,属于计算机类别中的数据挖掘类;
  3. 难以给一个物品多个类别:一本小说可归为文学类,或言情类等;
  4. 难以给出多维度的分类:对物品的分类可从多个角度进行,比如一本书可从内容进行分类,也可从作者角度进行分类;
  5. 难以确定一个物品在某一分类中的权重:一个物品可能属于多个类别,但是权重不同;

基于以上局限性,显然我们不能靠由个人的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。隐语义模型是从用户的偏好数据出发进行个性推荐的,即基于用户的行为统计进行自动聚类,所以能解决以上提到的5个问题:

隐语义模型是基于用户的行为数据进行自动聚类的,能反应用户对物品的分类意见;

我们可以指定将物品聚类的类别数k,k越大,则粒度越细;

隐语义模型能计算出物品在各个类别中的权重,这是根据用户的行为数据统计的,不会只将其归到一类中;

隐语义模型得到的物品类别不是基于同一个维度的,维度是由用户的共同兴趣决定的;

四、隐语义模型的样本问题

隐语义模型在显性反馈数据(也就是评分数据)上能解决评分预测问题并达到了很好的精度。不过推荐系统主要讨论的是隐性反馈数据集,这种数据集的特点 是只有正样本(用户喜欢什么物品),而没有负样本(用户对什么物品不感兴趣)。那么,在隐性反馈数据集上应用隐语义模型解决推荐的第一个关键问题就是如何 给每个用户生成负样本。我们发现对负样本采样时应该 遵循以下原则:

  1. 对每个用户,要保证正负样本的平衡(数目相似);
  2. 每个用户采样负样本时,要选取那些很热门,而用户却没有行为的物品:一般认为,很热门而用户却没有行为更加代表用户对这个物品不感兴趣。因为对于冷门的物 品,用户可能是压根没在网站中发现这个物品,所以谈不上是否感兴趣;

五、隐语义模型的推导思路

隐语义模型是根据如下公式来计算用户U对物品I的兴趣度。

其中,隐语义模型会把物品分成K个类型,这个是我们根据经验和业务知识进行反复尝试决定的,p(u,k)表示用户u对于第k个分类的喜爱程度(1 < k <= K),q(k, i)表示物品i属于第k个分类的权重(1 < k <= K)。

现在我们讨论下如何计算矩阵P和矩阵Q中的参数值。一般做法就是最优化损失函数来求参数。

损失函数如下所示:

上式中的

是用来防止过拟合的正则化项,λ需要根据具体应用场景反复实验得到。损失函数的意义是用户u对物品i的真实喜爱程度与推算出来的喜爱程度的均方根误差,通俗 来说就是真实的喜爱程度与推算的喜爱程度的误差,要使模型最合理当然就是使这个误差达到最小值。公式中最后两项是惩罚因子,用来防止分类数取得过大而使误 差减少的不合理做法的发生,λ参数是一个常数,需要根据经验和业务知识进行反复尝试决定的。

损失函数的优化使用随机梯度下降算法:

1)对两组未知数求偏导数

2)根据随机梯度下降法得到递推公式

其中α是在梯度下降的过程中的步长(也可以称作学习速率),这个值不宜过大也不宜过小,过大会产生震荡而导致很难求得最小值,过小会造成计算速度下降,需 要经过试验得到最合适的值。最终会求得每个用户对于每个隐分类的喜爱程度矩阵P和每个物品与每个隐分类的匹配程度矩阵Q。在用户对物品的偏好信息矩阵R 中,通过迭代可以求得每个用户对每个物品的喜爱程度,选取喜爱程度最高而且用户没有反馈过的物品进行推荐。

在隐语义模型中,重要的参数有以下4个:

1)隐分类的个数F;

2)梯度下降过程中的步长(学习速率)α;

3)损失函数中的惩罚因子λ;

4)正反馈样本数和负反馈样本数的比例ratio;

这四项参数需要在试验过程中获得最合适的值.1)3)4)这三项需要根据推荐系统的准确率、召回率、覆盖率及流行度作为参考, 而2)步长α要参考模型的训练效率。

六、优缺点分析

隐语义模型在实际使用中有一个困难,那就是它很难实现实时推荐。经典的隐语义模型每次训练时都需要扫描所有的用户行为记录,这样才能计算出用户对于 每个隐分类的喜爱程度矩阵P和每个物品与每个隐分类的匹配程度矩阵Q。而且隐语义模型的训练需要在用户行为记录上反复迭代才能获得比较好的性能,因此 LFM的每次训练都很耗时,一般在实际应用中只能每天训练一次,并且计算出所有用户的推荐结果。从而隐语义模型不能因为用户行为的变化实时地调整推荐结果 来满足用户最近的行为。

作者:萌新之机器学习 链接:https://www.jianshu.com/p/7b6bb28c1753 來源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

原文发布于微信公众号 - Spark学习技巧(bigdatatip)

原文发表时间:2018-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

开发者成功使用机器学习的十大诀窍

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取...

1946
来自专栏大数据智能实战

Tensorflow用于黑白照片(灰度图)着色的测试

       视觉效果一直是计算机视觉研究的一个重要领域,如风格迁移等已经是各大顶会的重要栏目。        本篇文章主要用于探索黑白照片着色的功能。    ...

3095
来自专栏数据科学与人工智能

【机器学习】开发者成功使用机器学习的十大诀窍

在提供发现埋藏数据深层的模式的能力上,机器学习有着潜在的能力使得应用程序更加的强大并且更能响应用户的需求。精心调校好的算法能够从巨大的并且互不相同的数据源中提取...

2658
来自专栏大数据挖掘DT机器学习

开发者成功使用机器学习的十大诀窍

作者简介:Alexander Gray,Skytree首席技术官,佐治亚理工学院计算机学院副教授,主要致力于大规模数据集的机器学习算法技术研发,1993年开始...

3294
来自专栏专知

基于TensorFlow的机器学习速成课程25讲视频全集(01-03讲)

【导读】前些日子,大家都知道,Google 上线了基于 TensorFlow 的机器学习速成课程,它包含 40 多项练习、25 节课程以及 15 个小时的紧凑学...

39415
来自专栏机器之心

深度 | 超越DQN和A3C:深度强化学习领域近期新进展概览

我觉得,深度强化学习最让人喜欢的一点是它确实实在难以有效,这一点不同于监督学习。用神经网络来解决一个计算机视觉问题可能能达到 80% 的效果;而如果用神经网络来...

901
来自专栏新智元

剑桥构建视觉“语义大脑”:兼顾视觉信息和语义表示

【新智元导读】一般认为,大脑对可视目标的识别过程分为两部分:视觉属性和语义属性,即目标“像什么“和”是什么“。过去人们对这两部分一般是分开研究的,现在,剑桥大学...

772
来自专栏华章科技

数据科学经验谈:这三点你在书里找不到

我真的不是在说这些课程的坏话。我在大学教了很多年的机器学习,教的东西始终都围绕着那些非常具体的算法模型。你可能非常了解支持向量机,高斯混合模型, K-均值聚类等...

733
来自专栏AI科技评论

学界 | 李飞飞协同斯坦福、CMU带来全新成果:从网络嘈杂的视频中进行学习

李飞飞作为人工智能领域鲜有的活跃女性学者,不知道这一次她又带领着团队做出了怎样的贡献呢?赶紧随AI科技评论来看看吧。这项研究是李飞飞团队在今年CVPR上的一项最...

35510
来自专栏AI科技大本营的专栏

资源 | Intel发布AI免费系列课程3部曲:机器学习基础、深度学习基础以及TensorFlow基础

翻译 | AI科技大本营 校对 | 成龙 编辑 | 明明 Intel于近期发布了三门AI系列的免费课程,分别是关于机器学习基础、深度学习基础、TensorFlo...

3378

扫码关注云+社区