MMD_4a_CollaborativeFiltering

Overview

A tech for using one’s behavior to predict what other people will do.

history

之前,数据量很少的时候,人们一般search,但是当数据量很多,超市的货架上已经装不下的时候,这时候需要recommendation

long tail

X轴后面的商品不会出现在零售店中,因此需要去推荐购买。

types of rs

model

模型的关键在于utility matrix

key problems

推荐系统主要有三个核心问题:

  1. 搜集数据:可以显式地也可以隐式地搜集
  2. 根据数据推荐:主要解决sparse的问题
  3. 评估推荐模型的好坏

Content-based System

基于内容的推荐系统核心是:针对每一个user给很多item打了分。首先,建立item profile,比如电影的话要包含演员、年份、导演等特征。然后,根据用户的打分,将所有打过分的电影特征量聚合成一个新的user profile。最后,将每个电影的item profile和user profile对比,实施推荐方案。

main idea

Main idea: recommend items to customers x similar to previous items rated highly by x.

plan

item profile

item profile是需要人工去指定的。

针对文本特征,可以使用TF-IDF(Term frequency * Inverse Doc Frequency)。

user profile

user profile是根据一定的策略,从item profile中聚合而来。

prediction

pros and cons

Collaborative Filtering

main idea

比如想要给x推荐电影,可以采用两种方法:

  1. user-user: 根据x对电影的评分,找出和x最像的人群集合S,然后用集合S的数据给x未评分的电影打分。
  2. item-item: 根据x未评分的电影m,找出x已经评过的并且和m很相似的电影S,利用S来打分。

similar user

rating prediction

item-item filtering

item vs. user

一般来说,item-item表现更好。

implement

complexity

pros and cons

hybrid methods

global baseline and CF

Evaluating

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏深度学习自然语言处理

这么好的视频不看吗?深度学习和线代,微积分

大家盼望的中秋节和十一已经基本都要过去了,大家是不是都玩的挺开心呀?(哎,我可没0.0,基本没离开过实验室,别认为我在学习

24820
来自专栏PPV课数据科学社区

【数据可视化】可视化图表表达的十个错误

数据可视化是一个沟通复杂信息的强大武器。通过可视化信息,我们的大脑能够更好地抓取和保存有效信息,增加信息的印象。但如果数据可视化做的较弱,反而会带来负面效果。错...

29870
来自专栏Crossin的编程教室

用 Python 实现抖音尬舞机

如今说到体感游戏,大家一定都不陌生,比如微软的 Kinect、任天堂的 Switch,都曾是游戏业的革命性产品。而另一款网红产品—抖音,也在去年底上线过一个“尬...

31420
来自专栏大数据挖掘DT机器学习

京东商品评论情感分析:数据采集与词向量构造方法

最近实习期间在做一个对新闻文本情感分析的项目。在此,用京东的商品评论练手,从数据采集到模型实现完整地写一遍,以备未来回顾所需。事实上,我采用的方法并不困难,甚...

51370
来自专栏华章科技

【干货】为什么你的数据分析那么好,图表做得那么烂?

原文链接:http://blog.sina.com.cn/s/blog_691ac57d0102vmx8.html

7110
来自专栏程序员叨叨叨

1.2 GPU VS CPU

从上节阐述了GPU的发展历史,那么为什么在CPU之外要发展GPU?GPU 的 vertex programmability 和 fragment program...

15150
来自专栏数据科学与人工智能

【Python环境】数据科学的完整学习路径—Python版

从Python菜鸟到Python Kaggler的旅程(译注:Kaggle是一个数据建模和数据分析竞赛平台) 假如你想成为一个数据科学家,或者已经是数据科学家的...

264100
来自专栏Python中文社区

Win10配置人工智能学习平台Tensorflow的正确姿势

專 欄 ❈那只猫,Python中文社区专栏作者,Python中文社区新Logo设计人,纯种非CS科班数据分析人,沉迷Keras。在Cambridge做了点小事...

28290
来自专栏PPV课数据科学社区

如何利用 Excel 进行高级数据分析?

高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干...

32640
来自专栏华章科技

为什么你的数据分析那么好,图表做得那么烂?

所有优秀的数据可视化依赖优异的设计,并非仅仅选择正确的图表模板那么简单。全在于以一种更加有助于理解和引导的方式去表达信息,尽可能减轻用户获取信息的成本。当然并非...

13820

扫码关注云+社区

领取腾讯云代金券