前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >搜索推荐系统延迟反馈问题。

搜索推荐系统延迟反馈问题。

作者头像
炼丹笔记
发布2022-05-23 12:26:45
7890
发布2022-05-23 12:26:45
举报
文章被收录于专栏:炼丹笔记

作者:杰少

CVR预估中的延迟反馈问题

在很多推荐搜索的建模中,我们经常会使用D+1天的数据作为label,从1~D天的数据中的进行特征抽取等工作,和我们时间序列问题建模类似,但和很多其他的时间序列问题建模不一样的地方在于,我们的label不一定可靠,比如在传统的时间序列回归中,D+1天的销量是多少就是多少,我们没有太多的犹豫,因为不大会有其他的情况。但是在电商的问题中,就存在下面这种情况:

D+1天未购买可能并不一定是真正意义上的未购买,而可能是加入购物车或者意愿清单了, 只是没有在当天下单, 而是过了一天在D+2天的时候下了单, 而这样的标签如果我们直接默认其为负样本就会有较大的问题,因为它并不是真正意义上的负样本,只是反馈延迟了。

这在搜索推荐系统中,我们称之为延迟反馈的问题。

问题严峻性

看到这么个描述,我们似乎有了一个直观的理解,但是可能并不会过于重视,我们直观感受是,是的,但是可能比例不会很高吧,有必要重视吗?下面我们看一组数据:

在Criteo公司早期,

  • 有35%的商品会在点击后一个小时内得到转化;
  • 有50%的商品会在点击后24h内得到转化;
  • 有13%的商品会在点击后2周之后才得到转化。

这么看来问题还是十分严峻的,那么如何解决该问题呢?

Modelling Delayed Feedback in Display Ad

1.3.1 eCPM

这个问题较早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,当时神经网络等还没那么流行,但是解决的思路非常值得借鉴?

在广告推荐中,有一个指标价值是非常大的,

eCPM=CPA∗P(conversion,click)=CPA∗P(click)∗P(conversion|click),

  • CPA: Cost per conversion, 广告商愿意为每个转化支付的金额, 如果eCPM高的话,意味着我们可能获得更多的钱。

从上面这点可以看出,我们希望能很好地预估某个广告的转化概率(最终转化即可,对应到下文P(C=1|X=x).

1.3.2 问题建模

1.3.2.1 变量定义

我们先定义五个变量,

1.3.2.2 问题转化
1.3.2.3 假设
1.3.2.4 问题表示
1.3.2.5 损失函数 & 问题求解

1.3.3 小结

本文针对转化回传的延迟问题提出了一种新的建模方式,不把还没观察到转化样本直接当做负样本处理,而是考虑其距离当前点击发生的时间长短给予模型不同权重的梯度,在建模的时候考虑延迟转化的时间信息,实验的结果也验证了该方案的有效性。

当然直观的看本文的方案,我们也可以看到本文的几点不足,我们假设发生转化的延迟时间为指数分布,这种假设可能还不够宽泛;能否替换为其他的更好的函数值得考虑。

参考资料

  • CVR预估中的转化延迟反馈问题概述:https://zhuanlan.zhihu.com/p/74586059
  • Modelling Delayed Feedback in Display Advertising:http://olivier.chapelle.cc/pub/delayedConv.pdf
  • 《Modeling Delayed Feedback in Display Advertising》 阅读笔记
  • DOTA:https://www.zhihu.com/people/yuconan
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.3.2.1 变量定义
  • 1.3.2.2 问题转化
  • 1.3.2.3 假设
  • 1.3.2.4 问题表示
  • 1.3.2.5 损失函数 & 问题求解
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档