00:00
好,那首先第一部分就是推荐系统简介,首先我们看一下主要内容,想要去介绍什么东西呢?第一部分是一个概述,那这一部分概述里边就是一些概念性的东西,大家做一些整体的了解,主要包括哪些内容?首先推荐系统它有什么目的,然后它有哪些基本的应用啊,哪些公司在在用这样的东西呢?然后接下来这两部分可能会相对比较重要一些,推荐系统的一个基本思想是什么?我们首先要有这样的一个概念,有了基本的思想,我们就可以知道后边的这些算法是怎么出来的啊,这是基本的一个想法啊。然后接下来会有一个推荐系统的分类,这一部分我觉得就是对于大家有一个整体的框架,整体的概念是很重要的啊,所以这是第一部分概述,第二部分呢,就开始是一个算法的简介了,那大家会看到这里边的算法就有各种。
01:00
各样的不同的类型,那这这里的基于各种各样东西的这个推荐,它其实就是应用了我们前面讲到的分类方法里边的一种分类方式,那具体是什么,我们到时候讲到再说,当然最后还有一部分就是评测一致,这就是我们这个PPT这一部分内容主要要给大家讲的。好,那接下来我们先想一下啊,我们在现在的这个时代,大家面对会面对一个什么样的问题呢?我们现在是一个互联网时代,所有的东西,所有的信息在互联网上,在网站上点开之后,什么都可以看得到,对吧,什么都可以找得到,我们要买什么商品,要买什么物品,哎,大家去这个天猫,去这个京东,亚马逊,什么东西都可以买得到,但是我们会有一个问题,什么问题呢?是不是东西不是太少,是太多了呀,我们一上去之后琳琅满目,哎,能够看到的什么东西都。
02:00
所以在这个过程当中,其实是不是会有一个困扰,就是面对这么多的东西,怎么样能够快速的提取出我们自己真正想要的东西呢?主要问题其实是一个信息爆炸,信息过载的问题,怎么解决这样一个问题呢?有一个想法就是哎,用推荐系统去做解决,那推荐系统它是用来做什么事情,它其实就是针对信息过载所做的一种措施,大家会想到我们面对海量数据的时候,面对五花八门琳琅满目的商品的时候,我们怎么样能够直接快速的选取出自己想要的东西呢?我们自己可能选取不出来,那我们需要有一个辅助的系统来帮我们做出这样的一个事情,对吧?那这样的一个系统就是所谓的推荐系统,它不是一个,诶一个一个朋友跟我们推荐,说哪里好玩哪里好吃,而是说一个智能的系统。
03:00
把我们的信息,把我们的行为数据都收集起来,然后猜测我们想要什么东西,那一个典型的场景就是说一些人是选择困难症,我们面对那么多信息的时候,就不知道自己该选什么了,这个时候一个智能的推荐系统是不是就非常的管用,非常的有效啊,这是一个场景。另外一个。大家会想到我可能不是一个选择困难症,哎,我知道自己大概想要什么,但是我现在可能没有明确的目标,对不对,就像我们去逛逛商场,逛街一样,往往不是有明确的目标的,哎,就看一看有什么好玩的对吧,有什么感兴趣的就去多看一看,去多徘徊徘徊,当然也不一定买,但是如果真正有合适的可能就会买,那在这个过程当中,漫无目的的过程当中,我们怎么样去拿到自己感兴趣的东西呢?如果在实际的店铺当中,哎,你可以就是就相当于就当散步一样去去一一点一点去逛,但是如果在网上商城,在网上各种网站里边的话,你如果一点一点去逛,是不是可能根本逛不过来啊,而且他的那种安排,大家可能会发现,我们直接去按照走路的方式去逛的话,是根本逛不过来的。所以我们。
04:26
就是还是需要从大量的兴兴趣当中快速的找到自己可能感兴趣的内容,诶,所以这其实也是用户的一个需求,另外大家会想到从用户的角度讲,他希望找到自己感兴趣的内容,那是不是对于商家来说,他也有一个需求啊,他生产出来的内容,他的商品,或者说他生产出来的信息,是不是也希望大家能够快速的获得,能够快速的推送到。用户的面前啊,这就是我们所说的,哎,这个酒香也怕巷子深嘛,你不是说哎我只要是这个酒好,我就藏在里边,那么呃,你只要到了这条街上,我就能闻到香味,你顺着就就就找到这个卖酒的酒家了,我们在网上根本没有这样的条件,你怎么去找到一个隐藏的很深的很好的一个商品呢?那如果这个时候有一个智能的推荐系统,是不是就非常的重要啊,那所以商家对于这一套推荐系统也是非常需要的。
05:33
所以这我们就可以想到推荐系统,它有什么样的目的呢?对于一个推荐系统而言。可以说里边涉及到是有三方,呃,这个可以说三方参与的一个系统,这是哪三方呢?首先一个推荐系统它的基础是不是应该基于一个网站去搭建,比方说电商啊,像淘宝,京东,亚马逊,或者说诶电影视频对吧,也或呃或者说是一个新闻网站啊,像这个头条啊,或者说像这个呃,谷歌呃百百度这样的一个一个网站,对不对?或者说广告推荐是不是也需要依托一个网站啊,所以网站本身就应该是我们推荐系统的一个基础和一个依托的业务系统,对不对,这是首先必要的一个要素。另外我们会想到推荐系统要推东西给谁推,诶给用户推对不对,所以用户肯定是里边的一个参与方,另外还有一个参与方是不是就是啊,应该是。
06:43
增加大家会想到是商家在我们系统里边直接能够看到的东西,是不是其实就是内容,就是物品啊,就是商品对不对,所以这也是我们的另外一个参与方,那我们就会想到推荐系统想要的是一个什么状态呢?哎,是不是让用户能够更快更好的找到自己想要的东西啊,然后让我们的物品内容是不是更快更好的能够推送到有可能喜欢他,有可能想要他的那些用户手里边去啊,诶,所以这其实就是双方的一个那过程,如果说这两部分我们都做好的话,大家会想到用户他也可以更快更好的获取到自己想要的东西,那么商家他也可以把自己生产出来的商品更快更好的推送到用户面前去,那是不是用户也更愿意用我们这套系统,商家也更愿意把商品发放到这个系统里面来啊,那这么一来。
07:43
是不是网站就会有更多的用户资源留存下来啊,现在这个流量为王的时代,那只要有用户资源,这才是我们一个网站最核心的资产,对不对?诶,所以大家会发现,如果我们做好的话,一个好的推荐系统是应该让这三方都共赢的,这就是我们推荐系统的一个目标,好,那接下来我们看一下。
08:10
推荐系统在实际的网站,实际的这个应用场景里边有哪些应用,大家看这个图啊,其实应用的业务场景非常非常广,里边最经典或者说最常见的,大家也最熟悉的是哪个呢?啊,其实就是电商了,对吧,电子商务那当然了,就是对于电商而言,我们熟悉的京呃国国内的这个代表当然就是淘宝京东这样的一些网站,那么国际上而言的话,其实有一个非常典型的代表啊,大家可能知道亚马逊对不对,亚马逊可以说是在这个推荐系统领域发力最多,而且说他推荐系统做的是非常的,他也被业内一度被业内称为是推荐系统之王啊,就是它的很多推荐算法,很多推荐系统的设计都是从亚马逊出来的,那么基于用户和基于这个物品所。
09:10
获得个性化推荐,最早其实就是从亚马逊出来,有一个在亚马逊工作过多年的一个科学家,应该是可以说是一个科学家了,对吧,他做这个亚马逊的推荐系统,他从亚马逊出来之后,他提过一个数据,就是说亚马逊里边的推荐系统能够有什么样的一个效果和收益呢?亚马逊里边它的销售额,总销售额的大概20%~30%都来自于它的推荐系统的推荐,所以大家可以想象得到这是一个什么样的量级的一个概念啊,所以真的是推荐系统,这是大数据在我们实际的应用当中看得见真金白银收益的一个一个应用场景,所以说很多公司其实也是做的已经非常好了啊,除除掉电商这个行业之外,另外一个行业其实也是在推荐系统方方面做的非常好的,那就是电影视频这个行业,他在国际上有一个代表,不知道大家听过没有啊,叫netlix,大家听说过吗?王菲啊,有些同学可能听说过啊,就是在这个推荐系统领域可以说是非常有代表性的一家公司了,它也是非常的重视这个个性化推荐,什么叫个性化推荐呢?
10:36
这里可以给大家提一句,就是说我们前面大家也也呃有些同学提到过啊,就是可以把这一门类里边的热门提取出来做一个推荐,那这样一个热门推荐,他是个性化的推荐吗?啊,当然如果说我们针对不同的人,他推荐不同类别的热门的话啊,他也有一部分个性化在里边,对吧?但是单纯的这个热门推荐,他是不是每个人看到的热门都应该是一样的啊,因为这是一个基于统计意义上的一个热门,对不对啊,大家可能啊,这个评分最多啊,浏览最多啊,这个排名最高,这其实是一个统计意义上的,所以它其实并不是一个个性化的推荐,那什么叫做个性化的推荐呢?像我们前面的诶,你点过一个什么东西,或者说你对什么东西感兴趣,我把它相关的推荐给你,这是不是就是一个个性化推荐啊,所以对于这个个性化推荐而言啊,前面我们提。
11:36
到的亚马逊,还有就是电影视频领域的Netflix,王菲做的都非常,提到网菲就不得不提一个这个业界比较有名的一个比赛啊,就是从这个零六年开始,网菲他曾经创办过一个非常著名的比赛,叫做netfli surprise呃,不知道大家听过没有,呃,它主要做什么呢?其实就是相当于就是网菲公司他来悬赏,悬赏100万美元,然后把自己的一部分业务数据都公公开公布出来,然后跟大家说你们来帮我设计推荐系统。
12:16
帮我设计推荐算法,谁的算法能够把我当前的这一套推荐系统的这个预测准确率提升10%以上,100万美元就归谁了,就是这么一个比赛,所以当时因为这样的一个比赛就吸引了很多的啊程序员,包括很多的这个算法工程师,很多的科学家都参与进来啊,当然了就是在这个过程当中,也就发展出了各种各样五花八门令人眼花缭乱的算法,对吧?呃,这个推荐系统在那几年可以说就是也得到了一个突飞猛进的发展,最后这个大奖是被一个,呃,应该是ATT的一个一个研究人员被他拿到了,呃,当然了,就是尽管这个大奖已经被拿到,那后续的这个netfli Netflix,其实这个比赛还是每年都在去做的啊,大家如果感兴趣的话,可以搜一下这个网站,可以看看当前就是最新的这些参与比赛的人,他们的这个算法到底是应用。
13:17
用了哪些算法啊?这是一些题外话,跟大家讲一讲,除了网菲,那其他的一些视频公司其实也在这个推荐系统领域发力非常多,比如大家非常熟悉的这个巨头,呃,YouTube对吧?呃,另外还有一个视频的巨头葫芦,他们在这个个性化推荐做的也是非常的好,也有很多的成功经验。当然除了我们提到的电商和呃,电影视频这两大行业,其他的一些行业其实应用也非常的广,比方说个性化音乐。呃,在国际上的话,就是像这个潘多拉他做的这个非常的好,个性化音乐推荐这里它会有什么特点呢?这里就提到了不同的业务场景,其实推荐系统是不一样的,前面我们讲到电商和电影,其实相对来讲,呃,大家能想到的可能还大概是一样的,对不对啊,只不过就是说大家会想到电商也有分门别类嘛,各种各样不同的类别,你打上不同的标签,然后我们电影这里视频是不是也是分门别类啊,有各种各样不同的东西,我们也可以做热门推荐,也可以根据你喜好的这些,呃,历史数据来做一个推荐,这些都是能想到的。那个性化音乐,音乐推荐它有一个什么特点呢?他推荐的商品物品是不是就是音乐本身的那个,呃,就是一首歌对吧,或者说呃,我们的这个一个音频文件,那这个物品有什么特点呢。
14:53
如果说我是一个电商项目的话,像刚才我买过一个电动车,是不是短时间内其实不太可能再去买一个电动车啊,对吧,这个可能性其实比较小的,对不对?当然就是说我浏览过电动车没买的话,那你可以继续给我推,对吧,可能我现在对他比较感兴趣,但是音乐里边可能就不一样,音乐里边我听完一首歌之后。
15:24
诶,对,是不是我可能还会想要去听这首歌,我们平常如果要是打开一个音乐网站,一首歌特别喜欢直接放在那里单曲循环是不是很经常的一件事情啊,诶所以大家会发现这就是不同,而且音乐网站还有一个什么特点呢?我们如果要是这个电商网站,我在那里去点击,在那里去浏览,在那里去下单的时候,这个过程是不是我一定是很专注,我在这个网站上,我一定注意力都在这个网站上啊,电影也是一样,如果我在这个看电影看视频的过程当中,注意力应该都是在这个网站上的,对不对,但是音乐不一样。
16:07
音乐有时候我们就把它开一个背景音乐在那儿放着就不管了,有可能一开开一天对吧,所以这些,呃,这个特点大家会发现发现啊,它本身浏览的这个耗时少,不需要集中精力,而且呢,它的重用率又会比较高,有可能就会单曲循环,所以这些特点就会导致个性化音乐的网站,如果我们要做推荐的话,可能算法和原则就跟这个电商电影是不是完全不一样啊啊,所以这里大家是需要注意的一点,还有就是比方说像这个个性化阅读,这就涉及到呃,像这个新闻,这是不是也属于个性化阅读啊,这个做的比较好的就是像谷歌新新闻啊,Google reader啊,还有我们国内的今日头条,这些做的都都是很好,大家都能够看到它的推荐系统的应用啊。
17:02
社交网络这个是不是也很常见,呃,国际上的话,Facebook Twitter啊,他们做的这个东西都很好,我们国内的话,微信还有这个微博,其实也很也很明显,对不对,像微博的话,好友发现好友的推荐大家都可以看到,微信上面的话,其实现在越来越多的在在朋友圈其实可以看到那个广告推送是有这些内容推荐的,所以这其实都是推荐系统的一些应用场景啊,当然了,就是具体到这个个性化广告这一部分的话,这又是一大块啊,这一部分做的最好的应该还是Google和Facebook这些公司做的是最好的啊,那大家可以看到啊,这就是这个亚马逊的页面。呃,这里是一些社交网站的页面,对不对啊,上面这个是那个Facebook和Twitter啊,然后这边这个是微博,大家可以看到,呃,当然这个是就是Netflix电影的一个推荐啊,啊,这里还有这个,这是豆瓣电台了音乐的推荐,对不对,你自己听完一首张雨生的歌,他可能会把你其他的一些东西都给你推出来。
18:13
好,那接下来大家就会想到,我们已经知道推荐系统有这么广泛的应用了,那么推荐过程当中最核心的思想是什么呢?我们基于什么来做推荐呢?总结起来其实也很简单。大家会想到我们核心是不是想要,就是知道用户想要什么,然后把用户想要的东西推给他就可以了呀,所以在这个过程当中,大家会想到这是不是有点类似于介绍对象的一个过程啊呃,在这个场景大家可能都不陌生啊,不管是这个男同学还是女同学,这过年回家或者说每一次回家探亲,可能经常都会,特别是如果说大家还是这个单身状态啊,没有男男朋友女朋友的时候,肯定回到家里边都会有热心的长辈,热心的家长就会有这样的对话出来,对不对?呃,诶,小伙子现在找女朋友没有啊,来给你介绍一个吧,不知道大家听到这样的话语的时候,自己的反应是什么,大家的反应可能诶好呀好啊,对吧,哎,刚好这个我还这个美女朋友呢,你这个介绍我赶紧去见一面,哎,我我们可能一开始都是这样,但是如果见多。
19:31
多了之后,大家就会发现,别人给你推荐的这个男朋友女朋友,他不一定靠谱,对不对,所以你之后就会想到了,他在说这个话的时候,你第一反应就会觉得,诶,他这个介绍的对象,他到底合不合我的意呢?他这个为什么会有这样的一个疑问呢?大家想一想,是不是就在于。给我们介绍对象,给我们做推荐的这个长辈,他不一定了解我们心里边想什么呀,所以那还有比较常见的场景会是什么样呢?当然下面这个场景,这是一个,这应该是一个女生的一个相亲的一个场景了啊,这个女生她想象当中她的期望是什么样的呢?是左边这个图,呃,大家可以看到这个女生她的想法是我希望的一个男朋友啊,是一个首先要帅,要长得高啊,但是呢,经济也不一定很富,可能就想到只要经济状况还过得去就可以了,但是要高要帅,而且呢,还要有共同化学,还得有幽默感,是应该是这样的一个形象,但是实际如果你要是让家长去介绍对象的话,往往介绍出来都是右边这个样子,对不对?呃,就会发现介绍出来之后可能是又矮又挫,然后也没什么共同话题,但是有一个好处就是有钱,对,就是家里边介绍出来都是这样的,那么大家就会。
20:59
讲到这个过程当中,为什么会出现这样的问题呢?为什么会出现推荐出来效果不好呢?这是不是对于我们而言,就是推荐系统推荐推荐出来的结果不好啊。
21:12
它的核心是不是就在于并没有了解到用户到底想要什么样的东西,哎,所以我们其实一开始我们的推荐系统,其实我们是需要去了解用户到底想要什么样的东西的,那对于我们这个相亲问题的话,那大家可能就是首先要去做一个调查了,对于一个女生你到底想要什么呢?可能想要的就是诶,高富帅,名车,豪宅啊,那这些东西就是我们想要去推荐的一个特点啊,那对于男生而言,可能就是年轻的尾身材好啊,所以大家会想到这就是我们的一个基本思想,我们首先要去了解到用户他想要什么样的特点,他喜欢什么样的类型,然后我们把有对应的这样的一些特点的物品啊,当然在这个例例子里边,我们不是物品,而是人把有这样特点的一些人推荐给他,这是不是就正好啊,这就是我们基本的一个想法。
22:10
所以我们在这里大家会看到这样的一个图啊,我们总结出来我们最希望的是一个什么状态呢?其实是最下边的这条路,大家会看到左边是用户,右边是物品,我们是不是希望把物品推荐给用户,那么用户他可能。喜欢的是具有某些特征的物品,对不对?我们如果要能够找到这样的特征的话,把它提取出来,然后找到有这些特征特征包含这些特征的物品,那么是不是这两个就匹配在一起了?我把这个物品推荐给用户,是不是就这样就完全没有问题啊?你想要呃,这个高富帅我就推给你高富帅你想要这个,呃,对,这个肤白貌美,身材好,对吧?我就把这样的一个女生推荐给你,那肯定符合你的要求啊。
23:04
所以这就是我们推荐系统的一个基本想法,但是大家会想到这种推荐方式有什么问题呢?他可能有一个问题,就是说如果我们知道你到底想要的是什么,那当然好了,但关键的问题就在于更多的情况下,是不是根本不知道你想要什么呀,就是如果说我们能像介绍对象这样直直接的这个比较靠谱的长辈啊,过来之后他先问你,征求你意见,那那也还好办啊,他上来之后就问你说,诶,你到底想要什么样的类型啊,往往这种情况是他就不来问你,或者说问你,你也不知道,有时候我们可能就是说我我也不知道我想要什么样类型,对吧,就我就觉得就是顺眼就对劲儿就可以,那这个别人是不是就没办法推荐了呀。那大家想我们在实际的网站,我们的实际的业务系统当中,是不是很多情况往往是这种情况啊,你可能并没有办法去直接知道用户想要什么样的类型的物品,对不对,那这种时候我们怎么样去推呢?
24:12
诶,这就涉及到另外一个思路,我们在去做这个介绍对象做推荐的时候,大家会想到是不是我不光是可以说去问你喜欢什么样的类型,是不是还可以看一看,诶你之前交过什么样的女朋友,交过什么样的男朋友啊对吧,我去考察一下,诶诶我们这个小伙之前交过三个女朋友,每一个女朋友都是这个肤白貌美大长腿,对吧?所以我就可以得出一个结论,这个小伙他就他就好这口对不对?哎,对,所以我下一个,尽管我不知道你喜欢什么类型的,但是我总结你之前喜欢过的,他都有这个大长腿的这个特性,那下一个我推荐一个大长腿的女生,那是不是很大可能你也会喜欢啊,诶,这就是一个,这是一个另外的一个想法,对不对?在我没有办法直接知道,没有办法直接问你喜欢什么样类型的时候,是不是可以通过这种方式?
25:13
得到你的一个偏好的喜欢的一个数据啊,哎,所以通过这种方式我们也可以做一个推荐,那我们推荐的方式其实就是说要把物品已经喜欢过的物品,呃,就是用户喜欢过的物品做一个特征的提取,对不对,然后找到他们之间相似的物品,然后把其他的你这个用户还没有看过的物品,跟跟他已经看到过的喜欢过的物品比较相似的,那么我们就推荐出来,推荐给他,这就是一个基本的想法,当然了,另外还有一个思路,就是说我去找跟你有相似兴趣的好友,这是不是也是一个方法。
26:02
啊,也就是说,诶,我们想到在我们这个班里边,大家可能都是程序员对吧,出来之后都是程序员,那可能程序员有可能都喜欢,都喜欢程序员女生对吧?男程序员都喜欢女,女程序员都男码农喜欢女码农,有可能是这样啊,啊当然不一定嘞,假如说我们总结出这样一个规律来的话,那其他的程序员都喜欢女码农,那我我认为你也是一个码农的话,我认为你也喜欢女码农,对不对,这是不是也是有道理的一一个事情啊,这就相当于是人以群分,根据你有类似兴趣的好友,然后给你做出推荐,对不对,别人喜欢什么,我就觉得你也喜欢什么,所以这其实就是我们基本的三种推荐的过程,第一种就是根据用户和物品的特征进行匹配。你喜欢什么样的特征,那么有这些特征的物品我就给你推荐出来,那另外一个就是说,根据你喜欢过的物品,你喜欢过什么样的,我就把跟它类似的东西推荐给你。
27:14
最后还有一个就是找到跟你有相似偏好的用户,别人喜欢过什么,那我就把那些推荐给你,这就是我们基本的三个想法,好呃,那有了这样的一个,当然我们这里可以做一个总结啊,总结起来其实前面的三条就是三句话,第一条就是知你所想,精准推荐,那这种精准推荐是什么呢?就是得知道你到底喜欢什么,对不对啊,把那些你喜欢的特征都提取出来,然后一个物品刚好有这些特征的话,匹配起来,这就是一个精准推荐,那如果我们掌握不到这么复杂的信息呢,掌握不到这么精确的信息怎么办呢?所以我们总结起来是不是就是物以类聚,人以群分啊啊,所以大家想到有这么三句,其实就把我们的推荐系统的基本思想已经完整的涵盖了啊,那么我们现在有了基本的思想。
28:15
那接下来我们就来看一看,就要做具体分析了,一个推荐系统里边,我们已经前面已经提到啊,推荐系统里边我们首要的是先要拿到数据,那前面我们的基本思想其实也已经提到,就是最好的方式是精准匹配,知道你想要什么,然后推荐给你,那往往我们做不到,为什么呢?是不是就因为没有这些数据啊,所以我们这里其实第一步就是要先去分析数据,你能拿到什么样的数据,是不是就决定了我们之后可以用什么样的模型,采用什么样的算法啊好,那么我们首先看一下推荐系统里边有什么样的数据呢?是不是首先应该有用户啊对,在推荐系统里边我们有的内容一方面是用户,另外一方面是不是就是对就是商品,我们统一把它叫做物品吧,那有用户对应的是不是就应该可以。
29:15
收集一些用户的数据信息,那么包括比方说个人信息,如果一开始用户注册的时候,我们就收集到的话,这一部分信息是不是非常的有用啊,我们就可以把它收集起来,作为给他推荐的一个原则,对吧?什么样的用户,哪一类我给他推荐什么样的数据,什么样的物品,这就是呃,我们的基本的一个原则,然后很多的网站里边,可能我们不能收集到太多的,这个就就像做这个人口调查一样,查户口本一样,把用户的信息收集起来,对吧?那我们更多的收集到的是什么呢?可能是不是他的一些喜好标签啊,我们可能一开始上来的时候,哎,让你去让你去做一个勾选,对吧,你喜欢什么样的类别呢?喜欢什么样的,呃,对哪些类别比较感兴趣呢?有很多网站是不是一开始都会一开始注册用户的时候冷启动啊,这个注册用户的时候是不是都有一个勾选,勾选感兴趣标签的这样的一个过程,这是不是就是也是一开始收集用户信息的一个过程啊,啊,所以大家可以看到这就是用户信息这一部分,当然还有就是如果我们完全收集不到这些信息,那怎么办呢?
30:33
那还有另外的最后一招,那就是用用户的浏览器上下文信息了,你在浏览器里边,如果我们可以读到cookie的话,那我们就可以看到你的浏览记录,对不对?呃,你到底呃在哪些时间,什么地点去上网,这些信息我们都可以收集得到,这是不是从某种意义上也可以体现一个用户的行为习惯,进而提炼出用户的一些特征,哎,所以这就是我们想要收集的用户数据,这是一大类。
31:04
然后另外还有一大类,是不是就是物品的信息啊,这就比较简单了,那就是我们在一个网站上,电商网站,那每一个物品,每一个商品都有基本信息,对不对,视频网站,电影网站,每一个电影对应的也应该有它的信息,对吧?啊,这个电影片名啊,导演啊,它的时间长度啊,它的关键词啊,所以大家会发现在这个物品信息里边,它主要包含的其实就是一些内容相关的东西。所以如果说我们基于这些信息的话,就可以提炼出物品的特征对不对,那么物品的特征假如说跟用户的偏好。匹配上的话,我们是不是就可以给他做对应的推荐了啊,这是一个基本的想法,当然另外一点就是,假如说我们有了物品的特征的话,是不是也可以找到它的跟一个物品相类似的物品啊,你喜欢了一个,我是不是可以把它类似的物品推荐给你啊,这是不是也是我们之前想到的思想就都可以应用起来了,这就是我们的基本的数据啊。当然除了基本的内容信息之外,我们更更加常用或者说更加提炼之后的数据是什么呢?那就是分类标签和关键词,这些东西从根本上来讲是不是也是属于内容信息啊,那更更像一个从内容信息里边提炼出来的一个内容,对不对啊?这就是我们内物品的内容信息这一部分,在我们的整个网站系统里面,大家会想到。
32:48
啊,能收集到的数据,除了这两部分之外,还能收集到什么呢?除了用户的基本信息,还有物品的基本信息,这两部分之外还有什么呢?哦,大家会想到是不是还应该有用户的一些行为数据啊。
33:06
我们前面提到的是用户的基本信息,还有物品的基本信息,在网站当中,用户和物品是不是还会有关联,他们互相之间是不是会有交互啊,啊,这有点像我们在学这个关系型数据库里边的,这是两个实体,对吧?实体之间是不是还有关系,所以我们用户和物品怎么样去发生关联呢?是不是用户就会有一些行为数据,比如说我可以给一个物品去做评分,可以给一个物品去打标签,对不对?这是不是就是一些典型的行为数据啊,一个用户就对物品发生了,他们互相之间就会有一个关联,那么这个行为数据对于我们的推荐系统而言有什么意义呢?大家想一下。如果说他给了一个评分,打了一个标签,我们是不是就可以从这个信息里边提炼出用户对物品的一个偏好信息啊,是不是就能提炼出来他对这个物品到底感不感兴趣,到底喜不喜欢啊,那这是不是对于我们来说非常的重要,我们推荐是不是就是要基于这种它的偏好信息来去做一个推荐啊,哎,所以这也是非常重要的信息,那当然了,不光是评分和打标签,还有什么呢?还有点击浏览、收藏、购买,这些也属于行为数据。
34:33
大家会想到这些能代表什么呢?这是不是在电商网站上大家看到啊,我前面在京东上去随便的点击了一些商品,点击了电动车,这代表什么?是不是代表最近我对电动车感兴趣啊,是不是代表我有可能想要去买电动车啊,所以这其实也就代表了我的一个兴趣偏好对不对?哎,所以对于推荐系统而言,我既然这段时间对它感兴趣,那是不是顺理成章就应该把这类物品去做一个推荐,哎,所以我们的点击、浏览、收藏、购买这样的行为也可以收集起来,作为我们推荐系统的一个数据,所以大家就会看到我们推荐系统的数据源,如果做一个划分的话,是不是可以有三类数据源,一类来自于用户的基本信息,一类来自物品,对不对?还有一类来自于对行为数据,那这个划分其实非常重要。
35:37
因为之后我们对于推荐系统的分类有一大分类方式,就是基于数据来划分的,好那么我们这里先给大家把这个就是文字描述给大家列出来啊,就是首先我们会想到有这样的两类数据对不对?一类是用户的基本信息,一类是物品的基本信息,然后最后还有一类是行为数据,那么这样的行为数据又可以分成两类,哪两类呢?就是上一幅PPT里边,那幅图里边给大家分分出来的评分和这个。
36:15
直接去打那标标签,或者说用户给物品的一个评价,这是不是相当于是用户对物品的一个很直观很显示的一个反馈信息啊,直观的表达了他对他到底是喜欢还是讨厌,对吧?所以这这一类信息我们把它叫做显示的用户反馈,那当然了,对应的就还有一类是影视的用户反馈,对不对?那这一类反馈包括什么呢?就包括我们前面提到的点击浏览、购买、收藏对不对?这类行为表示什么呢?它并不是直观的用户对物品的一个评价,对吧?但是用户的这种行为是不是潜在的意义表达了对物品的一个一个兴趣啊,所以我们把它也作为用户的一种形式反馈收集起来,那当然了,在这种反馈的收集里边,大家其实会发现显示的反馈其实对于我。
37:16
我们业务系统是不是肯定会存到对应的数据库里面去啊?呃,大家想到这个你的评分,你的评价,这些东西肯定是要存起来的,所以这一部分内容如果我们要去获取的话,应该从业务系统的数据库里面去获取,那对应的影视反馈从哪里去获取呢?如果说收藏和购买这个记录应该在业务系统里边也会有记录,那更多的情况,像这个点击啊,浏览啊,这些数据从哪里去收集呢?对,是不是就要从日志里边去收集啊?所以这其实就跟我们之前讲到的这个,呃,大数据的一些数据采集,我们的日志采集,数据清洗,这些就相当于关联起来了。
我来说两句