推荐引擎所面临的终极挑战

摘要:推荐系统其实离我们并不遥远,就像大家到淘宝上买东西一样,买完东西之后,屏幕下方就会出现类似的商品。这是推荐系统最直接的一种形式,那么在其他方面的推荐系统、推荐引擎会遇到什么样的挑战呢?

如果你和别人共用一个在线电影账号的话,那么你很有可能收到一些你根本不感兴趣的电影推送,因为你不喜欢的这些类型是推送给另一个人的。也许,这一状况很快就能得到改变。

“如果一个人买了商品X,那么很有可能他会继续购买商品Y”,这句话已经成为互联网营销时代最为著名的典故之一。这句话的源头出自推荐引擎,推荐引擎就是根据你过去的购买记录,来预测你未来的购买行为的一种系统,它还可以根据和你拥有类似品味的人的购买记录来预测你接下来的行为。

好的推荐系统能够将营业额提高几个百分点。这也是为什么网店和在线服务一定要拥有一个推荐系统的原因。

通过上面的解释,我们不难理解为什么人们对于提高推荐引擎的性能一直兴趣高昂。实际上,早在2006年,在线电影提供商 Netflix 就曾悬赏100万美金,任何人只要能将他们的推荐算法修改内容超过10%的话,就可以拿走这笔巨额奖金。直到三年之后,这笔奖金才被人拿走。

那么,对于推荐引擎来说,下一个突破点在哪里?

今天,从在 MIT 工作的 Amy Zhang 和他同事的身上,我们找到了答案。他们指出,比如在线电影服务在内的在线服务上,往往是几个人共享一个相同的账号。这就意味着和这个账号相关的行为是由几个不同的人共同完成的。包括对电影的喜好,对电影的评级这些都不是单纯的一个人的行为。

他们需要面对的问题是仅仅依靠研究和账号相关的评级信息能否判断出一个账号是不是一个共享账号。如果能够,又该怎样修改推荐算法。

他们选择了两个和电影推荐有关的数据库作为测试数据。第一个数据库包含171000名用户对20000部电影的超过400万条推荐信息。对这个数据库中的600个用户账号进行分析之后,就能确定它们是不是共享账号。这600账号中,有272个账号拥有两个使用者,14个账号拥有3个使用者,4个账号拥有4个使用者。

Zhang和他的同事使用的另一个数据库是 Netflix 里面将近500000用户对超过17000部电影的评级信息。

Zhang和他的同事的着手点在于用数学方法将一系列评级信息分成不同的几个部分。我们知道,一个共享账户的使用者有多人,这些人的行为模式是有差别的,如果我们能够通过聚类的方法将这个共享账户的评级信息分成和使用人数一致的几个部分,那么,很有可能分出来的这几个部分和几个使用者之间存在一一对应的关系。

实际上,这意味着将相似的电影聚类。其中很重要的一项技术就是以高置信度将电影和用户联系起来。比如说,看过《玩具总动员》、《怪物公司》、《冰雪奇缘》的人很可能不会看过《德州电锯杀人狂》、《外星人》和《驱魔人》。

用子空间聚类方法进行区分

在数学上,这是一个子空间聚类问题,解决这类问题也存在几个标准的方法。Zhang和他的同事将这些方法一一应用到前面说的600个账号上,找出效果最好的那一种方法。

然后,他们将这个表现最好的方法应用到第二个数据库上。结果,他们的算法将55000个账号中的37000个标记为单使用者账号,15000为双使用者账号,3000为三使用者账号。

这样的划分结果是否正确我们无从考证,因为我们不知道实际情况究竟是怎样的。但是,我们可以转而研究这些被标记为多用户的账号,看看他们是不是合理。“这些被标记为多用户的账号表现出了一些有趣的性质”,Zhang和他的同事说。

比如说,他们发现在许多账号中同一个电视台的续集和季播剧被聚类在一起。他们还发现,多使用者账号的一个使用者可能被标记为“Science Fiction and Fantasy”,而另一个使用者可能被标记为“Romantic”。这样的发现给了Zhang和他的同事信心。

系统推荐的最终方法

最后的问题是,一旦算法发现多人共享一个账号时,什么样的推荐才是合适的。答案非常直接,选取每个使用者最有可能接受的几个推荐,将这些推荐组成一个表单显示。

尽管还不清楚新提出的这个方法比传统的推荐算法好多少,甚至不知道是否比传统方法好。至少,这个方法充满新意。

有趣的是,Zhang和他的同事指出,可以让一个单使用者账号看起来像是一个多使用者账号,方法是向这个账号中故意加入一些使用者不可能做出的评级信息。“向一个账号中加入额外数据,以达到模糊某些信息(比如说性别)的目的,这是一个有趣的课题,”他们说。

在未来的某个时间点,或许我们会看到这项研究的成果。

(英文来自:Technology View,译者moqiguzhu)

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-09-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

2017最流行的十大Python库

AiTechYun 编辑:yuxiangyu 年末是你需要思考过去一年的成就的时候。对于程序员来说,这通常是回顾今年发布的或者最近流行的开源库,因为它们是解决特...

2445
来自专栏灯塔大数据

了解了这四件事,帮你走出深陷的数据分析迷宫

【导读】 数据中的错误往往最初尚属于良性范畴,但随着分析流程推进而变得愈发糟糕。这就像是在解数学题,我们要从头开始再推导一遍。这项工作可能费时费力,但却能够以...

3517
来自专栏安智客

基于生物特征识别的移动智能终端身份鉴别技术框架

本标准中,技术框架也是基于可信环境实现,移动智能终端的身份鉴别协议解析、用户生物特征采集、比对、存储与呈现攻击检测等均应在可信环境中进行。可信环境的具体实现方式...

1525
来自专栏hotqin888的专栏

从绩效管理到价值管理,从资源共享到资源创新

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/hotqin888/article/det...

921
来自专栏CSDN技术头条

机器学习API Top 10:AT&T Speech、IBM Watson和Google Prediction

【编者按】随着机器学习算法的流行,Amazon、Google,、IBM和Microsoft等公司在机器学习云服务市场接连出手,并提供许多的API来吸引用户。本文...

2816
来自专栏PHP实战技术

ThinkPHP连续签到小案例

小伙伴们平时做网站开发的时候,是不是也遇到过会员连续签到送积分,比如我有一个加积分的规则是针对连续签到的,那么我们在实现这个功能的时候,我们面对...

47110
来自专栏ATYUN订阅号

NVIDIA AI推理性能里程碑:高吞吐量,高效率,低延迟

推理是基于AI的应用程序真正发挥作用的地方。AI使越来越多的应用程序变得更加智能化,对象识别、图像分类、自然语言处理和推荐引擎只是其中的一小部分。

1341
来自专栏吉浦迅科技

Allinea DDT解决阿贡国家实验室的一个未解之谜

阿贡国家实验室领导计算设施(ALCF)的计算机科学家和工程师拥有世界上第四快的超级计算机,并且用量很大:尝试最大最复杂的宇宙模拟是他们其中的一个...

2959
来自专栏高剑林的专栏

认识多种处理芯片的特性和实战(下篇)

CPU已经占有了桌面和服务器处理器的绝大部分份额,而且这个趋势还在不断增强,但是在某些领域,CPU存在天然的缺陷,以FPGA、GPU为代表的硬件可以克服CPU的...

8821
来自专栏PPV课数据科学社区

知识图谱技术原理介绍

知识图谱技术原理介绍(转载) 王昊奋 近两年来,随着LinkingOpen Data 等项目的全面展开,语义Web数据源的数量激增,大量RDF数据被发布。互...

3707

扫码关注云+社区

领取腾讯云代金券