推荐算法(一)——音乐歌单智能推荐

题记:推荐引擎根据的分类根据数据源,分为基于人口统计学的(用户年龄或性别相同判定为相似用户)、基于内容的(物品具有相同关键词和Tag,没有考虑人为因素),以及基于协同过滤的推荐(发现物品,内容或用户的相关性推荐,分为三个子类,下文阐述);        根据其建立方式,分为基于物品和用户本身的(用户-物品二维矩阵描述用户喜好,聚类算法)、基于关联规则的(The Apriori algorithm算法是一种最有影响的挖掘布尔关联规则频繁项集的算法)、以及基于模型的推荐(机器学习,所谓机器学习,即让计算机像人脑一样持续学习,是人工智能领域内的一个子领域)。

推荐算法: 潜在因子(Latent Factor)算法。 应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电台音乐推荐”等。 关键因素: 评分矩阵的UV分解的理解。

算法思想:        每个用户(user)都有自己的偏好,比如A喜欢带有小清新的、吉他伴奏的、王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵:

     实际上你可以理解为latent factor是对用户属性和音乐属性的双重降维(相当于把高维的用户\音乐属性降维到一个k维的隐空间进行表达),将用户属性\音乐属性都使用一个k维的向量表示,最终预测出某一用户对某一音乐的评分即为这两个向量的内积。 一,,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:

二,潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……

       利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好音乐A含有小清新的成分+对重口味的偏好音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

       即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69        每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):

     因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。 如果用矩阵表示即为:

       下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?     由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵R,也就是输入矩阵大概是这个样子:

    事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵

       对于一个大型的评分矩阵X(m*n,m为用户数,n为音乐数量,矩阵中每一项便是这一用户对这一音乐的评分,显然这会是一个非常稀疏的矩阵),我们希望由这一评分矩阵得到两个分解后的矩阵U(m*k,用户属性在隐空间内的表示)与V(n*k,音乐属性在隐空间内的表示),使得U乘以transpose(V)能够尽可能地逼近矩阵X,即由抽取的用户属性\音乐属性,我们可以“尽可能地还原出”原本输入的大型评分矩阵X——这一分解便被称为”UV分解”。        和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:

       这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就可以求得这P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵:

       这两个矩阵相乘就可以得到估计的得分矩阵:

       将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。

参考文献http://www.zhihu.com/question/26743347/answer/34714804

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

聚焦和增强卷积神经网络

卷积神经网络是一种主流的深度学习模型,它可以用神经网络模型来处理序列化的数据,比如文本、音频和视频数据。它能把一个序列浓缩为抽象的理解,以此来表示这个序列,乃至...

2045
来自专栏量子位

一个神经网络学习一切!谷歌又放了个大卫星(附论文)

李林 问耕 编译自 Arxiv 量子位 出品 | 公众号 QbitAI 最近,Google又在论文题目上口出狂言:One Model To Learn The...

36711
来自专栏AI科技评论

开发丨机器学习零基础?手把手教你用TensorFlow搭建图像识别系统(一)| 干货

如果你觉得这是一篇简单介绍人工智能、机器学习和深度学习的文章,那就错啦。你可以在网上搜罗到一大堆相关话题的文章,而这篇文章也并不是讨论人工智能是否会奴役人类或抢...

4127
来自专栏大数据挖掘DT机器学习

深度学习:用tensorflow建立线性回归模型

1. TensorFlow 是什么 是一个深度学习库,由 Google 开源,可以对定义在 Tensor(张量)上的函数自动求导。 Tensor(张量)意...

3975
来自专栏大数据挖掘DT机器学习

浅入浅出深度学习理论与实践

前言 之前在知乎上看到这么一个问题:在实际业务里,在工作中有什么用得到深度学习的例子么?用到 GPU 了么?,回头看了一下自己写了这么多东西一直围绕着tradi...

27810
来自专栏机器学习之旅

浅入浅出深度学习理论实践前言CNN/RNN理解Attention理解深度学习传统领域的应用关于深度学习一些想法

之前在知乎上看到这么一个问题:在实际业务里,在工作中有什么用得到深度学习的例子么?用到 GPU 了么?,回头看了一下自己写了这么多东西一直围绕着traditio...

1372
来自专栏计算机视觉战队

CVPR2018 ——(GAN)延时摄影视频的生成

CVPR2018即将开始,陆陆续续很多优秀的作品被大家知晓。今天我们来说说又去的科研成果,也希望阅读您对此感兴趣~

931
来自专栏杨熹的专栏

如何自动生成文本摘要

学习资料: https://www.youtube.com/watch?v=ogrJaOIuBx4&list=PL2-dafEMk2A7YdKv4XfKpfb...

3105
来自专栏机器之心

鸡生蛋与蛋生鸡,纵览神经架构搜索方法

深度学习在感知任务中取得的成功主要归功于其特征工程过程自动化:分层特征提取器是以端到端的形式从数据中学习,而不是手工设计。然而,伴随这一成功而来的是对架构工程日...

691
来自专栏数据魔术师

机器学习| 一个简单的入门实例-员工离职预测

2016年,我国员工离职率达到20.1%,一线城市22.4%,意味着你身边每10个同事中就有2个会离职。科技行业员工离职率最高,达到25.1%,其中主动...

1373

扫码关注云+社区