前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐引擎所面临的终极挑战

推荐引擎所面临的终极挑战

作者头像
用户1737318
发布2018-06-05 15:07:14
8320
发布2018-06-05 15:07:14
举报
文章被收录于专栏:人工智能头条人工智能头条

摘要:推荐系统其实离我们并不遥远,就像大家到淘宝上买东西一样,买完东西之后,屏幕下方就会出现类似的商品。这是推荐系统最直接的一种形式,那么在其他方面的推荐系统、推荐引擎会遇到什么样的挑战呢?

如果你和别人共用一个在线电影账号的话,那么你很有可能收到一些你根本不感兴趣的电影推送,因为你不喜欢的这些类型是推送给另一个人的。也许,这一状况很快就能得到改变。

“如果一个人买了商品X,那么很有可能他会继续购买商品Y”,这句话已经成为互联网营销时代最为著名的典故之一。这句话的源头出自推荐引擎,推荐引擎就是根据你过去的购买记录,来预测你未来的购买行为的一种系统,它还可以根据和你拥有类似品味的人的购买记录来预测你接下来的行为。

好的推荐系统能够将营业额提高几个百分点。这也是为什么网店和在线服务一定要拥有一个推荐系统的原因。

通过上面的解释,我们不难理解为什么人们对于提高推荐引擎的性能一直兴趣高昂。实际上,早在2006年,在线电影提供商 Netflix 就曾悬赏100万美金,任何人只要能将他们的推荐算法修改内容超过10%的话,就可以拿走这笔巨额奖金。直到三年之后,这笔奖金才被人拿走。

那么,对于推荐引擎来说,下一个突破点在哪里?

今天,从在 MIT 工作的 Amy Zhang 和他同事的身上,我们找到了答案。他们指出,比如在线电影服务在内的在线服务上,往往是几个人共享一个相同的账号。这就意味着和这个账号相关的行为是由几个不同的人共同完成的。包括对电影的喜好,对电影的评级这些都不是单纯的一个人的行为。

他们需要面对的问题是仅仅依靠研究和账号相关的评级信息能否判断出一个账号是不是一个共享账号。如果能够,又该怎样修改推荐算法。

他们选择了两个和电影推荐有关的数据库作为测试数据。第一个数据库包含171000名用户对20000部电影的超过400万条推荐信息。对这个数据库中的600个用户账号进行分析之后,就能确定它们是不是共享账号。这600账号中,有272个账号拥有两个使用者,14个账号拥有3个使用者,4个账号拥有4个使用者。

Zhang和他的同事使用的另一个数据库是 Netflix 里面将近500000用户对超过17000部电影的评级信息。

Zhang和他的同事的着手点在于用数学方法将一系列评级信息分成不同的几个部分。我们知道,一个共享账户的使用者有多人,这些人的行为模式是有差别的,如果我们能够通过聚类的方法将这个共享账户的评级信息分成和使用人数一致的几个部分,那么,很有可能分出来的这几个部分和几个使用者之间存在一一对应的关系。

实际上,这意味着将相似的电影聚类。其中很重要的一项技术就是以高置信度将电影和用户联系起来。比如说,看过《玩具总动员》、《怪物公司》、《冰雪奇缘》的人很可能不会看过《德州电锯杀人狂》、《外星人》和《驱魔人》。

用子空间聚类方法进行区分

在数学上,这是一个子空间聚类问题,解决这类问题也存在几个标准的方法。Zhang和他的同事将这些方法一一应用到前面说的600个账号上,找出效果最好的那一种方法。

然后,他们将这个表现最好的方法应用到第二个数据库上。结果,他们的算法将55000个账号中的37000个标记为单使用者账号,15000为双使用者账号,3000为三使用者账号。

这样的划分结果是否正确我们无从考证,因为我们不知道实际情况究竟是怎样的。但是,我们可以转而研究这些被标记为多用户的账号,看看他们是不是合理。“这些被标记为多用户的账号表现出了一些有趣的性质”,Zhang和他的同事说。

比如说,他们发现在许多账号中同一个电视台的续集和季播剧被聚类在一起。他们还发现,多使用者账号的一个使用者可能被标记为“Science Fiction and Fantasy”,而另一个使用者可能被标记为“Romantic”。这样的发现给了Zhang和他的同事信心。

系统推荐的最终方法

最后的问题是,一旦算法发现多人共享一个账号时,什么样的推荐才是合适的。答案非常直接,选取每个使用者最有可能接受的几个推荐,将这些推荐组成一个表单显示。

尽管还不清楚新提出的这个方法比传统的推荐算法好多少,甚至不知道是否比传统方法好。至少,这个方法充满新意。

有趣的是,Zhang和他的同事指出,可以让一个单使用者账号看起来像是一个多使用者账号,方法是向这个账号中故意加入一些使用者不可能做出的评级信息。“向一个账号中加入额外数据,以达到模糊某些信息(比如说性别)的目的,这是一个有趣的课题,”他们说。

在未来的某个时间点,或许我们会看到这项研究的成果。

(英文来自:Technology View,译者moqiguzhu)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档