前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >那么多CTR论文,真正能复现出效果的有几个?

那么多CTR论文,真正能复现出效果的有几个?

作者头像
炼丹笔记
发布2022-05-23 12:29:15
7690
发布2022-05-23 12:29:15
举报
文章被收录于专栏:炼丹笔记

作者:杰少

CTR预估任务在推荐系统中至关重要,在过去几年间,CTR相关的神经网络文章不下于百篇,但是很多时候我们尝试着去复现这些文章的思路并尝试着运用到自己的生产环境时,却时常无法取得和论文中类似的效果。这些论文中有非常多的实验没有公开源码,也没有公开数据预处理的策略,所以我们复现的时候经常会因为实验设定的不一样或者其他原因,得到与论文中相反的结论,而且大多数时候我们没法保证其在我们自己的场景中也可以达到如文中所述的类似的效果。

本篇文章复现了最新最流行的20多种CTR网络(受限于数据集自身的原因,主要是特征交叉相关的网络),为了方便后续工作的比较,作者运行了4600+的实验,超过12000 GPU hours. 并且在Kaggle的两个竞赛数据集Criteo和Avazu数据集上进行了比较。实验的结论还是令人十分惊讶的,很多网络的复现结论和论文中存在一些细微的差别,但还有一些实验结果和论文中所展示的有较大的不一致,复现效果最好的工作并不是2020年的最新工作,而是早期的工作。

本篇文章并没有提出新的算法,更多的是对过往的算法进行复现&对比,希望成为CTR界的Benchmark。从本文海量的实验数据来看,本文的实验结论90%和我自己实践中的效果是类似,所以非常建议读一下。

这篇文章我们简单分两块进行介绍:

  1. 目前CTR算法中一些经典算法的开源情况;
  2. 在Criteo以及Avazu两大数据集上各大模型的表现情况 & 小结;

各大经典算法开源情况

目前几乎没有一个算法是同时满足下面7个条件的:

  1. 数据分割;
  2. 数据预处理;
  3. 开源模型代码;
  4. 训练代码;
  5. 模型超参;
  6. Baseline的模型超参;
  7. Baseline的代码。

实验对比

此处实验是对比20多个经典算法在现在数据集上的表现:

01

在Criteo数据集合上的复现情况

02

在Avazu数据集合上的复现情况

03

最新算法方案对比

1.在Criteo数据集上的表现

  • xDeepFM平均排名第一
  • DeepFM,DCN,FiGNN,ONN分别位列2,3,4,5位

2.在Avazu数据集上的表现

  • FiBiNET平均排名第一
  • ONN,HFM+,FGCNN,xDeepFM分别位列2,3,4,5位

实验小结

从上面的实验中,我们可以得到如下的结论:

  • 之前很多论文中的实验因为设置,初始化等诸多细节都没有公布,但是很多论文中展示的结果复现效果一般;
  • 最新的很多论文的实验复现效果一半都比不上18年的两篇经典工作(xDeepFM,ONN等,而且最新的19,20年的工作在数据集上并没有表现出应有的优势);
  • xDeepFM和ONN在两个数据集上都展示了不错的效果(Top5),这和非常多的数据竞赛中的结论几乎是一致的

本文的实践参考价值非常大,对于像我一样的初学者非常有参考价值和帮助,目前来看,xDeepFM,ONN还有一些卷积相关的网络效果都表现不错,这是非常值得思考的;

参考资料

  1. FuxiCTR: An Open Benchmark for Click-Through Rate Prediction: https://arxiv.org/pdf/2009.05794.pdf
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 炼丹笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.在Criteo数据集上的表现
  • 2.在Avazu数据集上的表现
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于生成式AI,自动驾驶,深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档