文章/答案/技术大牛

发布

机器学习篇

共 26 篇文章

机器学习（二十五） ——adaboost算法与实现

机器学习（二十四） ——从图像处理谈机器学习项目流程

机器学习（二十三） —— 大数据机器学习(随机梯度下降与map reduce)

机器学习（二十二） ——推荐系统基础理论

机器学习（二十一） ——高斯密度估计实现异常检测

机器学习（二十） ——PCA实现样本特征降维

机器学习（十五） ——logistic回归实践

机器学习（十四） ——朴素贝叶斯实践

机器学习（十四） ——朴素贝叶斯实现分类器

机器学习（十三） ——交叉验证、查准率与召回率

机器学习（十二） ——神经网络代价函数、反向传播、梯度检验、随机初始化

机器学习（十一） ——神经网络基础

机器学习（十） ——使用决策树进行预测（离散特征值）

机器学习（九） ——构建决策树（离散特征值）

机器学习（八） ——过拟合与正则化

机器学习（七） ——logistic回归

机器学习（六） ——线性回归的多变量、特征缩放、标准方程法

机器学习（五） ——k-近邻算法进一步探究

机器学习（四） ——梯度下降算法解释以及求解θ

机器学习（三） ——k-近邻算法基础

机器学习（二） ——线性回归、代价函数与梯度下降基础

机器学习（一）——机器学习概述

清单首页机器学习篇文章详情

清单「机器学习篇」 04/26

机器学习（二十二） ——推荐系统基础理论

用户1327360

机器学习（二十二）——推荐系统基础理论

（原创内容，转载请注明来源，谢谢）

一、概述

推荐系统（recommendersystem），作为机器学习的应用之一，在各大app中都有应用。这里以用户评价电影、电影推荐为例，讲述推荐系统。

最简单的理解方式，即假设有两类电影，一类是爱情片，一类是动作片，爱情片3部，动作片2部，共有四个用户参与打分，分值在0~5分。

但是用户并没有对所有的电影打分，如下图所示，问号表示用户未打分的电影。另外，为了方便讲述，本文用nu代表用户数量，nm代表电影数量，r(i,j)=1表示用户j给电影i评价，y(i,j)表示用户j给电影i的打分（当r(i,j)=1时这里的值才有效）。

前三部是爱情片，用户Alice给前两部爱情片都5分，根据直接判断，其打5分的概率很高。

下面首先就要解决用机器学习来预测打分的问题，进而讨论电影的相关性问题。

二、基于内容的推荐系统

1、简要描述

还是上面的几个人和几个电影，现假设已知每部电影的爱情属性和动作属性，分别用x1和x2表示每部电影的这两个特征值，加上x0=1，则该场景变为线性回归场景。即需要预测出用户对每种类型电影的喜好程度矩阵θ，进而在已知某种用户未打分的电影的特征x的情况下，用θTx预测用户可能给该电影打分的分值。

下图假设已求出用户的θ=[05 0]T，第一个数0对应x0没有实际意义，第二个数5表示用户对爱情片的喜欢程度，第三个数0表示用户对动作片的喜好程度。则可以预测出，该用户对第三部电影的打分，可能4.95。如下图所示：

2、计算单个用户的θ

列出类型线性回归的代价函数，但是在推荐系统中，有一些和线性回归的代价函数不太一样的地方：

1）求和的时候，只计算用户已经打过分的电影，忽略未打分的电影。未打分的无法参与计算。

2）不需要除以用户已打过分的电影的数目。这里是常量，忽略对结果影响不大。

3、计算所有用户的θ

每个用户去计算，要列很多公式，比较繁琐，这里可以把公式合并，一次性求出所有的用户对应的θ，即在代价函数的地方，累加上所有用户，同时正则化项也需要累加。

接着，就用梯度下降算法，进行计算。

这部分内容和线性回归完全一致，区别只有代价函数的列式不太一样，梯度下降部分完全一致。

这里基于内容的推荐，可以认为给定样本的特征x，求θ的过程。

三、基于用户评论的预测

现在考虑到，由于现实中并不一定会给每个电影都有特征标签，并且特征的数量可能非常多，但是考虑到已经有很多用户已经打分，现在反求每个电影的特征。

这里可以理解为给定用户对不同特征的喜好程度θ，求样本的特征的过程。如下图所示：

实际求解过程也很简单，只要把x当作变量，θ当作已知值，反过来列代价函数，进而再用梯度下降求出x即可。

四、协同过滤算法

上面的两个问题，有点像鸡生蛋还是蛋生鸡的问题，可以看出x和θ，只要知道一个内容，就可以求出另一个内容。进而，可以用求出的内容，反过来再优化原来的内容。相当于可以形成一个θ->x->θ->x……的链。

这里，首先由用户对电影评分，因此可以认为多个用户对电影的评分，致使计算出电影的特征，而特征又反过来进一步优化对用户评分的预测。

对于公式上，考虑将两个公式整合成一个，再分别对θ和x求偏导数，进行梯度下降，则可以得到θ和x。

这样的计算方式，则成为协同过滤算法（collaborative filtering algorithm）。

公式如下：

五、向量化实现

现在回到一开始的问题，怎么判断两个电影是否类型相似，进而给用户推荐相似类型的电影。

前提条件还是之前的，知道部分用户对电影的打分，未知电影的类型，如下图所示：

此时，可以用到向量化实现技术（vectorization implementation），简单来说，即用上面的协同过滤计算出x和θ后，将x和θ都表示成矩阵，并且用xθT得到预测矩阵，可以预测出每个用户对每种电影的打分，以及预测出电影的特征，矩阵如下图所示：

这个称为低秩矩阵分解（lowrank matrix factorization）。

此时，要判断两个电影是否相似，则很简单，只要计算电影i和电影j对应的特征矩阵的距离||x(i)-x(j)||，当这个值越小，则表示这两部电影越相似。

六、均值归一化

1、现有问题

现考虑一个问题，当来了一个新用户，他没有对任何电影打分。此时如果用协同过滤算法，由于其没有任何的打分，则代价函数中，会只剩下θ平方和正则化项，另外两项都会为0。

因此，当需要对θ进行代价函数最小化求解，会得到θ=0时代价函数最小（显然的事情），结果就是会预测出用户对所有电影的评分都是0分。这个有违常理。

2、解决问题

为了解决问题，引入均值归一化（mean normalization），步骤如下：

1）设矩阵Y表示所有用户对所有电影的打分，为打分的电影用？表示。

2）在已打分的电影中，计算每个电影的分数均值。计算方式即打分的总数除以打分的总人数。设这个矩阵为μ。

3）令Y=Y-μ，得到一个新的矩阵，其中？部分仍为？。

4）用这个新的Y去进行协同过滤算法，求出x和θ。

5）此时对于某个用户，可以预测结果是(θ(j))Tx(i)+μ(i)，要加上对应的μ，是因为一开始扣除了μ。

根据上述的计算，得出的新用户的预测结果，会是均值。这个可以简单的推出，因为结果是(θ(j))Tx(i)+μ(i)，而显然(θ(j))Tx(i)=0（因为这个用户之前没有任何预测，θ=0），故只会剩下μ值。

这样，对于每一个新用户，在还没进行评价之前，会预测其对每个电影的评价是均值，这也就表示给新用户推荐电影时，会按均值，把均值较高的电影推荐给用户，这个比较符合常理。

七、总结

这里的推荐系统，可以算是一个引子，只介绍了推荐系统的一些基础思想，对于真正完整的推荐系统，还有需要内容等待探索。后续我也会继续这方面的学习。

——written by linhxx 2018.01.25

机器学习篇

机器学习（二十二） ——推荐系统基础理论

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐