【知识】推荐系统中的常用算法

目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。

一、基于内容推荐

基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的评价意见,更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用户的兴趣资料。在基于内容的推荐系统中,项目或对象是通过相关的特征的属性来定义,系统基于用户评价对象的特征,学习用户的兴趣,考察用户资料与待预测项目的相匹配程度。用户的资料模型取决于所用学习方法,常用的有决策树、神经网络和基于向量的表示方法等。基于内容的用户资料是需要有用户的历史数据,用户资料模型可能随着用户的偏好改变而发生变化。

基于内容推荐方法的优点是:

1)不需要其它用户的数据,没有冷开始问题和稀疏问题。

2)能为具有特殊兴趣爱好的用户进行推荐。

3)能推荐新的或不是很流行的项目,没有新项目问题。

4)通过列出推荐项目的内容特征,可以解释为什么推荐那些项目。

5)已有比较好的技术,如关于分类学习方面的技术已相当成熟。

缺点是要求内容能容易抽取成有意义的特征,要求特征内容有良好的结构性,并且用户的口味必须能够用内容特征形式来表达,不能显式地得到其它用户的判断情况。

二、协同过滤推荐

协同过滤推荐(Collaborative Filtering Recommendation)技术是推荐系统中应用最早和最为成功的技术之一。它一般采用最近邻技术,利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,系统从而根据这一喜好程度来对目标用户进行推荐。协同过滤最大优点是对推荐对象没有特殊的要求,能处理非结构化的复杂对象,如音乐、电影。

协同过滤是基于这样的假设:为一用户找到他真正感兴趣的内容的好方法是首先找到与此用户有相似兴趣的其他用户,然后将他们感兴趣的内容推荐给此用户。其基本思想非常易于理解,在日常生活中,我们往往会利用好朋友的推荐来进行一些选择。协同过滤正是把这一思想运用到电子商务推荐系统中来,基于其他用户对某一内容的评价来向目标用户进行推荐。

基于协同过滤的推荐系统可以说是从用户的角度来进行相应推荐的,而且是自动的,即用户获得的推荐是系统从购买模式或浏览行为等隐式获得的,不需要用户努力地找到适合自己兴趣的推荐信息,如填写一些调查表格等。

和基于内容的过滤方法相比,协同过滤具有如下的优点:

  • 1) 能够过滤难以进行机器自动内容分析的信息,如艺术品,音乐等。
  • 2) 共享其他人的经验,避免了内容分析的不完全和不精确,并且能够基于一些复杂的,难以表述的概念(如信息质量、个人品味)进行过滤。
  • 3) 有推荐新信息的能力。可以发现内容上完全不相似的信息,用户对推荐信息的内容事先是预料不到的。这也是协同过滤和基于内容的过滤一个较大的差别,基于内容的过滤推荐很多都是用户本来就熟悉的内容,而协同过滤可以发现用户潜在的但自己尚未发现的兴趣偏好。
  • 4) 能够有效的使用其他相似用户的反馈信息,较少用户的反馈量,加快个性化学习的速度。

虽然协同过滤作为一种典型的推荐技术有其相当的应用,但协同过滤仍有许多的问题需要解决。最典型的问题有稀疏问题(Sparsity)和可扩展问题(Scalability)。

三、基于关联规则推荐

基于关联规则的推荐(Association Rule-based Recommendation)是以关联规则为基础,把已购商品作为规则头,规则体为推荐对象。关联规则挖掘可以发现不同商品在销售过程中的相关性,在零售业中已经得到了成功的应用。管理规则就是在一个交易数据库中统计购买了商品集X的交易中有多大比例的交易同时购买了商品集Y,其直观的意义就是用户在购买某些商品的时候有多大倾向去购买另外一些商品。比如购买牛奶的同时很多人会同时购买面包。

算法的第一步关联规则的发现最为关键且最耗时,是算法的瓶颈,但可以离线进行。其次,商品名称的同义性问题也是关联规则的一个难点。

四、基于效用推荐

基于效用的推荐(Utility-based Recommendation)是建立在对用户使用项目的效用情况上计算的,其核心问题是怎么样为每一个用户去创建一个效用函数,因此,用户资料模型很大程度上是由系统所采用的效用函数决定的。基于效用推荐的好处是它能把非产品的属性,如提供商的可靠性(Vendor Reliability)和产品的可得性(Product Availability)等考虑到效用计算中。

五、基于知识推荐

基于知识的推荐(Knowledge-based Recommendation)在某种程度是可以看成是一种推理(Inference)技术,它不是建立在用户需要和偏好基础上推荐的。基于知识的方法因它们所用的功能知识不同而有明显区别。效用知识(Functional Knowledge)是一种关于一个项目如何满足某一特定用户的知识,因此能解释需要和推荐的关系,所以用户资料可以是任何能支持推理的知识结构,它可以是用户已经规范化的查询,也可以是一个更详细的用户需要的表示。

六、组合推荐

由于各种推荐方法都有优缺点,所以在实际中,组合推荐(Hybrid Recommendation)经常被采用。研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推荐预测结果,然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法,但在某一具体问题中并不见得都有效,组合推荐一个最重要原则就是通过组合后要能避免或弥补各自推荐技术的弱点。

在组合方式上,有研究人员提出了七种组合思路

  • 1)加权(Weight):加权多种推荐技术结果。
  • 2)变换(Switch):根据问题背景和实际情况或要求决定变换采用不同的推荐技术。
  • 3)混合(Mixed):同时采用多种推荐技术给出多种推荐结果为用户提供参考。
  • 4)特征组合(Feature combination):组合来自不同推荐数据源的特征被另一种推荐算法所采用。
  • 5)层叠(Cascade):先用一种推荐技术产生一种粗糙的推荐结果,第二种推荐技术在此推荐结果的基础上进一步作出更精确的推荐。
  • 6)特征扩充(Feature augmentation):一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中。
  • 7)元级别(Meta-level):用一种推荐方法产生的模型作为另一种推荐方法的输入。

七、主要推荐方法的对比

各种推荐方法都有其各自的优点和缺点,见下表。

推荐方法

优点

缺点

基于内容推荐

推荐结果直观,容易解释;不需要领域知识

稀疏问题;新用户问题;复杂属性不好处理;要有足够数据构造分类器

协同过滤推荐

新异兴趣发现、不需要领域知识;随着时间推移性能提高;推荐个性化、自动化程度高;能处理复杂的非结构化对象

稀疏问题;可扩展性问题;新用户问题;质量取决于历史数据集;系统开始时推荐质量差;

基于规则推荐

能发现新兴趣点;不要领域知识

规则抽取难、耗时;产品名同义性问题;个性化程度低;

基于效用推荐

无冷开始和稀疏问题;对用户偏好变化敏感;能考虑非产品特性

用户必须输入效用函数;推荐是静态的,灵活性差;属性重叠问题;

基于知识推荐

能把用户需求映射到产品上;能考虑非产品属性

知识难获得;推荐是静态的

来源:liyonghui160com.iteye.com/blog/2082450


原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2018-02-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

终于能用Google的TPU跑代码了,每小时6.5美元

AI科技大本营消息,北京时间周一(2月12日)晚间,Google 宣布,在 Google Cloud Platform(GCP)上正式推出Cloud TPUs ...

486100
来自专栏AI科技评论

谷歌人工智能专家:机器学习出现全新挑战

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

41130
来自专栏老秦求学

[推荐系统读书笔记]好的推荐系统

在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战:作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自...

11840
来自专栏新智元

【谷歌重拳开放Cloud TPU】GPU最强对手上线,Jeff Dean十条推文全解读

编辑:闻菲、佩琦、张乾 【新智元导读】谷歌又放大招:刚刚,Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,...

25830
来自专栏腾讯高校合作

2015年度CCF-腾讯犀牛鸟基金文智中文语义开放平台

文智中文语义开放平台。 腾讯搜索技术团队为需要做大数据挖掘和文本处理的研究者们提供有效的工具平台——文智中文语义开放平台。该平台能够满足研究者自然语言处理、文本...

354110

数据整合和机器学习深入客户见解

本文精选与新的DZone人工智能指南中。免费获取更有深度的文章,行业统计,以及更多!

24980
来自专栏CSDN技术头条

机器学习开发者的现代化路径:不需要从统计学微积分开始

【编者按】机器学习算法的传统学习路径,是从统计学、概率论、线性代数、微积分等多种数学知识开始,但专业程序员、机器学习爱好者、MachineLearningMas...

21950
来自专栏大数据挖掘DT机器学习

用户群体画像那些事儿

伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更...

574110
来自专栏架构师小秘圈

一线互联网智能推荐系统架构演进

作者:fisherman,时任推荐部门推荐系统负责人,负责推荐部门的架构设计及相关研发工作。Davidxiaozhi,时任推荐部门推荐系统架构师,负责推荐系统的...

1.5K110
来自专栏ATYUN订阅号

世界上最大的大脑:拥有一百万个处理核心的神经形态计算机

科学家刚刚激活了世界上最大的“大脑”:一台拥有一百万个处理核心和1,200个互连电路板的超级计算机,它们像人脑一样运作。科学家宣布,这是世界上最大的神经形态计算...

9710

扫码关注云+社区

领取腾讯云代金券