首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

我们是怎么掉进个性化推荐的怪圈

关注并标星「人人都是产品经理

每天早07 : 45 按时送达

今日头条之后,很多人都觉得像“中毒”一样,刷段子、刷抖音停不下来;在算法的主导下,抖音成了上瘾的一个代名词。都知道是推荐算法的推荐,为什么我们还是停不下来?

作者:瓶盖

题图来自正版图库 图虫创意

全文共 4836 字 11 图,阅读需要 10 分钟

你刚在微信和朋友讨论AJ款式,看公众号就刷到了AJ的广告,淘宝首页也惊喜般地出现了AJ推荐;

晚上刷抖音总是刷个不停,感觉刷到的每一个视频都有某个点能戳中自己,你陷入寻找刺激的循环。

为什这些APP都知道你在想要什么且清楚你的兴奋点,是他们监控你的聊天记录?

不,是你的个人基础信息和行为数据告诉了他们你需要这些,他们就把你的需要主动给到你罢了。

那他们是怎么做到的呢?

下面我们就来简单探讨下个性化推荐:

首先,个性推荐系统是为了解决信息过载,通过个性化推荐提高信息分发的效率和准确性,使得用户更有粘性而被广泛使用的系统。

通俗的说就是:为了让你更爽,你要什么我就给你什么。

这很美好,但这里有一个陷阱:

你不要什么,我就少点给你或者不给你——你也就失去了与你意见相左的知识领域接触的机会,单一的内容被推荐多了用户也会感到疲劳。

个性化推荐用在电商领域来说应该叫“精准投放”——你想买什么淘宝就推荐给你什么,这像是双赢的感觉。

但对于内容领域(短视频等)来说,只推荐你有兴趣的内容,刺激你兴奋点的同时也让你接触世界的边界越来越窄,沉浸于自己营造的狭小的世界;难道我们进入这种回音室的怪圈之后就无法破解了吗?

* 回音室效应:一些意见相近的声音不断重复,令身处其中的多数人认为这些声音就是事实的全部。

我们先不急着解答,待我们逐步探讨下个性化推荐的内容后,自己就能解答以上的问题。

一、独立因素推荐

独立因素推荐,就是推荐系统基于单个因素筛选的内容或商品推送给用户。

我们在了解独立因素推荐的同时,也了解下推荐的两种模式:被动推荐和主动推荐。

1. 被动推荐

推荐是用户被动的接收信息,需要用户去触发而产生的推荐结果。

例如:淘宝上用户依据价格区间的独立因素筛选商品,这种行为完全依据用户有意识的自主操作,告诉淘宝“我需要特定独立因素”的商品,淘宝后台会依据你的输入信息进而对前端的你进行反馈。

假如用户不是选一个因素,而是同时选择价了格区间+发货地区+品牌这三个独立因素时,这时后台进行筛选,把同时具备这几个独立因素的商品推荐给用户——这只是多个独立因素的简单物理标签相的加,还属于独立因素推荐的范畴。

* 当然淘宝真实推荐结果更为复杂,因为有商品竞价排名,这些都会影响推荐的结果,目前是举例说明。

与之类似的还有网易云音乐的歌单广场。

歌单广场将歌单分为了流行、民谣、电子等不同的类别,每一个类别就是一个因素,用户选择哪个因素的标签,后台系统就更新属于该因素的歌单的数据给到前端界面上展示,这类都是独立因素的被动推荐。

2. 主动推荐

主动推荐,由系统定时更新数据并主动推荐到用户面前,用户打开界面就能接触到主动推荐的结果——如网易云音乐的热歌榜,抖音的人气热搜榜等就是主动推荐的方式。

但这种热榜这种统一推荐的方式有一定程度的马太效应——火的内容会得到更多的曝光越来越火,但大部分人喜欢的内容并不带代表每一个用户都是喜爱的。

热门推荐满足用户从众心理的同时,也忽略了用户的个性差异体验,需要依据用户个性的推荐来弥补。

随着用户对自我独特性的感知越来越强,需要个性化定制的需求也越来越明显;如何让特定的内容满足特定的用户,让用户开开心心的走进个性化推荐的陷阱里,就是接下来我们要讲的重点。

二、融合因素推荐

融合因素推荐就是:将几个不同的因素依据特定算法融合,进而产生新的属性标签,并推荐到与该属性标签匹配的用户手机上。

我们把融合因素推荐分为基于内容本身属性推荐、基于内容属性与用户属性协同推荐、基于相似用户协同推荐这三种推荐方式。

1. 基于内容本身属性推荐

推荐对象一般是所有人。

还是以抖音热门短视频为例,我们需要做的是依据内容的本身属性建立内容画像,用数据模型来表示内容的特征。

由抖音热搜榜可看到:我们把点赞数排名在前30的视频放上热搜榜。

当然,决定点赞数的因素除了视频内容本身的类型及质量外,很大的关键还在于平台给多少人推荐了这个视频(即有多少人可以刷到了这个视频),而平台判断一个视频是否值得推荐给更多的用户群体,又与历史用户对视频的交互行为息息相关。

例如:

短视频平台将一个审核过后的新视频先推荐给10w人的基础用户池进行播放展示,如果这10w人有很多人进行完全播放、点赞、评论、转发等操作,平台就判断该视频为优质内容进而推荐给100w、1000w的用户池,如此类推;如果该视频在10w的展示量中,大部分用户对该视频不感冒,很少播放完或点赞,就会减少该视频的展示量或不会再推荐给更多的用户。

这是一个优质内容能得到更多展示,而劣质内容减少展示的良性循环。

* 注:用户池也分不同种类的用户池,举例用非真实数据。

这种情况下,判断一个视频能否进入到下一个用户池的标准就成为了关键。

现实中这个标准是根据模型动态变化的,现在我们先进行标准的静态分析(这样便于理解):

根据下面初级的算法公式可以看到:视频的优质程度与用户对这个视频的喜爱程度成正比。

视频优质度=用户喜爱度 * 视频质量基数 * 题材类别基数 * 平台广告基数

我们先用“用户的喜爱程度”这个特性来反应视频的优质程度。

影响“用户喜爱程度”的独立因素有:用户对视频的平均播放时长、点赞、评论、分享、关注以及不感兴趣等操作,每一个操作都会为一个独立因素增加数值。

每个独立因素对于平台判断用户对视频的喜爱程度的重要性是不同的,如,分享>评论>点赞。

我们用权重来表示,对喜爱度高的因素进行数据加权,数据加权一般有两种常用方式;

1. 自定义加权:产品经理、运营经理依据平时的数据报表人为的定义这些独立因素和设置权重因子的数值,这种方式比较直接也比较简单,但他局限于团队的自身经验,没有经过大数据的验证与现实还是有较大的偏差。

2. 数据建模:简单说就是将时间变量、独立因素、权重因子通过特定的算法公式进行计算,得出该视频的一个优质度数值;根据这个数值进行推荐和排名,随着时间变量的改变,独立因子、甚至是权重因子也会依据一定的函数关系进行改变。整个模型的输入和输出都是动态变化的,通过不断采集用户行为数据来训练模型,使其更加接近现实预测的数值。

基于以上信息,我们就可以粗略地得出一张反映用户对视频喜爱程度的参考表,该表也可以反映出视频的优质程度:

用户喜爱度=(播放时长量+点赞量+评论量+分享量 – 不感兴趣量+…)* 权重因子 * 衰减因子

* 正常情况下,需要对各个指标做线性方程回归分析,确定各个指标具有独立性后,再做权重分析,以上面表格是非真实数据。

根据以上思路,我们可以对视频进行优质程度和类型的评定;有了内容画像,现在只需找到对这个视频内容感兴趣的用户把视频推送给他就行了。

下面就是我们要说到的是基于内容属性与用户属性的协同的推荐:

2. 基于内容属性与用户属性协同推荐

推荐给特定属性的人。

我们通过采集一个人的基础信息和行为数据,对一个用户做定性分析,得出一个用户在互联网及现实中的各种特征,所有特征整合在一起,就成为一个代表现实中用户的虚拟画像。

构建用户画像数据会用到静态和动态两类数据:

1. 静态用户画像数据:我们在注册APP时通常会输入姓名、年龄、性别、允许获取位置、这些基础信息相对稳定。

2. 动态用户画像数据:用户在平时生活对手机产生的操作行为,如你玩过的游戏、关注的公众号、消费记录,有没有房贷车贷发过红包买过保险——这些行为最后都会变成几千个事实标签,用这些事实标签构建模型计算用户的行为偏好。

(图片来源于回形针PaperClip)

还是用上面提到的用户对视频的喜爱度的情况为例:

当用户刷抖音看到一个标签为美女类的视频点了一个赞,并不代表该用户就喜欢看美女(可能是不小心点的),这就需要更多的行为来判断该用户对美女类视频的喜爱程度。

根据前面提到的初级公式:

对美女的喜爱权重=(播放时长量+点赞量+评论量+分享量 – 不感兴趣量+…)* 权重因子 * 衰减因子

除了点赞、评论、分享,关注了某作者这些行为外,还有一个时间的限定:短期行为无法代表长期兴趣,单次行为的权重会随着时间流逝不断衰减;用户每次打开美女类内容都会生成一个兴趣权重,把一段时间内你所有的美女类兴趣权重进行累加,再用S型函数标准化就能得到一个0-10区间的兴趣值,标签值数值越高,就代表用户对美女就越感兴趣程度。

到了这里,平台已可以计算出用户对某一类视频的喜爱程度和厌恶程度,同时也对视频做了分类处理,可直接根据用户的偏好将视频推荐给用户。

平台除了可以计算出用户在内容兴趣上面的权重外,还可以在消费能力、社交偏好等方向进行建模计算,进而得出一个教为完整的用户画像。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190817A0KJ5R00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券