前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >构建推荐系统:用 Netflix 电影评价数据集练练手

构建推荐系统:用 Netflix 电影评价数据集练练手

作者头像
HyperAI超神经
发布2020-04-27 10:33:48
1.5K0
发布2020-04-27 10:33:48
举报
文章被收录于专栏:HyperAI超神经HyperAI超神经

By 超神经

内容概要:我们每天都在接触视频平台的「猜你喜欢」、「为你推荐」,这背后的算法是怎样获得的,需要用到怎样的数据集?

关键词:Netflix 推荐系统 算法

Netflix:让推荐算法商业化的鼻祖

Netflix 是美国的著名流媒体平台,它从租赁 DVD 起家,当下的主要业务是提供视频流播服务和影片发行制作。

Netflix 视频资源丰富

全美 36% 的家庭已订阅 Netflix

2019 年 Netflix 全球订阅用户数达到 1.58 亿, 其平台的一大特色就是「智能推荐」,即依据用户以往的观看视频类型,借助算法为用户进行视频推荐。

虽然「猜你喜欢」对于现在的很多视频平台来说,早已经算不上新鲜事,但实际上早在 2006 年,Netflix 就已经非常重视推荐算法,并为此举办了奖金高达 100 万美元的 Netflix Prize。

Netflix Prize 副产:电影评价数据集

Netflix Prize 在推荐系统领域具有极其重要的意义,它以极高的奖金额度,吸引了大量 AI 开发者投身于推荐系统相关研究,同时也开辟了「推荐算法」商业化的先河,让这项技术真正从学界进入了商界,并被后来的视频流媒体平台争相模仿。

即使是与当下的数据科学竞赛相比

Netflix Prize 的奖金也极具吸引力

Netflix 电影评价数据集包含来自 48 万用户对 1.7 万部电影的评价数据,评价数超过 100 万条,数据采集的时间段为 1998.10 – 2005.11。

Netflix 电影评价数据集

包含数量:超过100 万条数据

数据格式:TXT

数据大小:665.24 MB

采集时间:1998.10 – 2005.11

发布时间:2006 年

包含内容:用户编号、电影名、评分时间以及评分

下载地址:hyper.ai/datasets/5687

其中评分以 5 分制为基准,用户信息经过脱敏处理,隐去用户姓名,仅保留用户编号、电影名、评分时间以及评分四个维度的数字,不包括任何文本评价的内容。

准确度提高 10%,BPC 团队获百万奖金

根据赛制要求,需要将 Netflix 自己的预测算法 Cinematch 的预测效率提高 10% 以上,才有机会获得最终胜利。

最终 BellKor'Pragmatic Chaos 团队经过不断优化提交了最终验证,在测试子集上获得的 RMSE 为 0.8567 ,与 Cinematch 的表现相比,得分提高了 10.06%,获得了 Netflix 的 100 万美元大奖。

BellKor' Pragmatic Chaos 团队摘得桂冠

Netflix 电影评价数据集对于研究视频流媒体推荐算法具有重要意义,有助于从数字维度了解用户喜好,预测用户可能喜欢的视频类型,并进行推荐。

除此之外,还可以对视频进行评估,先排序后推荐,评估用户感兴趣的程度,然后组成有序列表,进行个性化推荐。

想构建推荐系统、探讨推荐算法的朋友,快下载 Netflix 电影评价数据集开启自己的模型训练吧~

数据集下载传送门→ hyper.ai/datasets/5687

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档