我目前正在创建一个推荐系统。这个推荐系统与神经网络一起工作,然后搜索最近的邻居,从而为用户提供建议。数据是隐式的。我在产品的数据中只有一个用户有bought.On这个数据的基础,我创建了推荐。
发布于 2020-11-16 16:48:11
有两种主要类型的评估-在线和离线。
在线评估意味着向实际用户展示模型的预测。由于推荐系统的目标是销售更多的产品,对于推荐系统来说,最好的总体最好的衡量标准是增加对实际用户的销售。这是最好的做法是把模型在生产和A/B测试,如果模型增加销售。考虑到有限的资源(时间或对生产系统的访问),这种方法并不总是可行的。
离线评价是指通过保留现有的数据对模型进行评价,从而模拟在线评价。
如果可能的话,根据时间来分割数据。根据先前的数据对模型进行培训。在后面的数据上测试模型。对于给定的产品和用户配对,模型将预测购买或不购买(二进制分类器)。该模型可以作为任何二进制分类器来计算。对于给定的领域,精确性或召回可能更重要。
然而,这在很多时候是不可能的,因为时间数据很多没有被跟踪,或者产品-用户对可能是稀疏的。如果没有跟踪时间,数据可能会被随机分割以模拟时间。如果产品-用户对稀疏,则产品-用户对按潜在因素聚类.
发布于 2020-11-16 18:03:58
离线评估是非常棘手的,因为各种偏见。最突出的偏见类型是位置偏差。我推荐以下的论文(https://arxiv.org/pdf/1608.04468.pdf),其中包含了我自己用于监测和开发大型运动时尚公司推荐的指标。其想法是应用一种反事实的方法来消除你的估计值与文档相反的倾向。
例如,以相关结果的级别之和为例:

当您对关系r_i使用隐式反馈时,预期在某些查询x中排名较高的条目y。因此,对给定位置的项存在观察的隐式概率。此概率可用于对度量进行如下重加权:

证明了该估计量也是无偏的。同样的技巧也可以用于任何你想要的度量,NDCG,地图等.您也可以申请关键性能指标的反事实评估,如预期转换,点击率,添加到购物车等。
不幸的是,这些估计量的问题之一是,由于加权因子,它们已知有很大的差异。我推荐这篇论文作解释(https://arxiv.org/pdf/1801.07030.pdf)
https://datascience.stackexchange.com/questions/85413
复制相似问题