推荐阅读时间:9min~11min 文章内容:基于内容的推荐系统
推荐系统起步阶段一般都会选用内容推荐,并且会持续存在。
内容推荐非常重要,并且有不可替代的作用。内容推荐有以下优势:
基于内容的推荐,最重要的不是推荐算法,而是内容分析。内容分析得越深入,哪怕最开始使用人为定制的规则也能起到不错的效果。
如何从文本中构建用户画像 讲解了如何从文本中挖掘物品信息,这里简单说下非文本信息的中挖掘有用信息,以短视频为例:
内容分析可以得到两个结果:
结构化内容库就是将原始的内容结构化之后的结果,它可以结合用户的行为,将结构化后的结果传递给用户,构建一部分用户画像。另外一个就是在进行内容分析时,会生成一些内容分析模型,比如(分类器模型,主题模型,实体识别模型,词嵌入模型),这些模型可以在线部署,对新物品进入时,对新物品进行实时分析,提取出结构化内容,以便与用户画像进行匹配。
基于内容的推荐系统,最简单的当属计算用户与物品之间的相似度了。具体来说,物品画像有对应的稀疏向量,用户画像也有对应的稀疏向量,两者之间计算余弦相似度,之后按照相似度结果对物品进行排序。
使用上面的简单算法有一个天然优势就是可解释性很强,但是并不属于机器学习方法,因为没有考虑推荐系统的目标,在 推荐系统中重要却又容易被忽视的问题有哪些 中介绍了目标思维的重要性,如果要考虑目标的话,我们可以构建一个监督学习模型。
具体以实际应用场景来说,首先要确定我们推荐系统的目标,可以是点击率、购买率、阅读时间长短等等,目标需要根据不同的业务和场景来确定。确定了目标之后,我们开始收集跟目标相关数据来作为训练数据。
每一个训练数据样本都包含两部分,一部分是特征,包含用户画像,物品画像以及一些上下文信息,比如时间、地理位置、网络环境、设备等等,另一部分是目标,目标的数据是由用户交互行为得到的,比如标注用户是否点击,是否购买,阅读时间等。
接下来根据训练样本来训练分类器或者回归器,取决于推荐系统目标(目标为点击率,购买率时属于分类问题,阅读时间长短属于回归问题),按照以上这种方式构建的推荐系统,可以一直去迭代优化。
总结一下,基于内容的推荐有一些天生的优势,也是非常重要的,基于内容推荐时,需要两类数据:物品画像,用户画像。基于内容来构建推荐系统可以采用的算法有简单地相似度计算,也可以使用机器学习构建监督学习模型。
相关推荐:
点击这里领取BAT面试题 ==》:BAT机器学习/深度学习面试300题
作者:无邪,个人博客:脑洞大开,专注于机器学习研究。