【SPA 大赛】简述一些平滑方法在 CTR 预估中的应用

在网络广告投放指标评估中,CTR(click-through rate)是众多有效的评估手段中的一种,而预测CTR也是数据挖掘上一个热门的领域,在腾讯TSA举办的SPA大赛中,预测移动APP广告转化率,也有一定的相关性,所以前人在预测CTR中用到的方法也很值得在这次比赛中借鉴与学习。而对CTR的平滑处理这是这些方法的其中一种,并且在初赛实践中发现,平滑处理后相较于未平滑处理有0.0005~0.002之间的分数提升(这里面的区别跟统计的方法,还有参数设置等等有关,笔者也没有特别的把握,加了就能有这样的提升)下面文章将分三个方面:1、为什么要加入平滑处理 2、相关细节介绍 3、针对天数不同可以做的额外处理。

一、为什么要加入平滑处理

首先,我们在进行CTR预测时常常会加入一个广告ID或者用户等等过去的转换率作为特征,并且这个特征往往在最后训练中占有较大的权重,但是简单的计算转换率往往会由较大的方差。如:广告A过去被看到200次,而被转换了4次,最后的转换率是2%,广告B被点击了10次,转换了0次,转换率是0%,我们是否就能得出A的转换率比B高呢,我想这里面的稳定性是很低的。

并且时常会出现,近期新出现的广告需要预测,而这类广告的历史出现次数都是很低的。而这时候就需要平滑点击次数少的广告,降低低点击次数的噪音,并且避免对样本多的数据造成较大的影响。

二、相关细节介绍

(1)Add-Lambda Smoothing

首先介绍最简单的Smoothing 方法,

,其中将分子与分母加上lambda(如0.001、1、10等),这样就能够避免上面讲到的,因为没有被点击过而有可能错误的将其点击率估计为0%。

然而Add-One Smoothing 也有它的弊端,即使加上1之后,因为样本少的原因,这样计算出来的点击率仍旧是存在较大的方差的。

(2)Additive smoothing and generalized to the case of known incidence rates

当我们除了这个特征以外,在其他特征上有对应较好的转换率作为先验的话,就可以将这个信息加入到我们的平滑方法中去,

μ = (μ1, …, μd)是对应的其他特征上的转换率。如在TPA比赛中,因为connectionType特征维度低,样本数量够大,我们可以将connectionType的转换率作为我们的μ,使得我们平滑后的转换率噪音更低,避免了过拟合并且符合真实情况,而这个方法也是笔者在Owenzhang在kaggle avazu 上的solution中学到的,读者可以前往进行深入的学习。但是这里仍然存在一个问题,这里的lambda到底要设多少,我也没有很好的解决方案(如果读者有更好的想法,欢迎交流),可能这里也是需要调参的地方,而这会花费大量的时间。

三、针对天数不同可以做的额外处理

首先,我们在统计前几天转换率时,大部分时间我们是对天数统一看待,每一天在统计转换率的权重都是相同的,而真实情况下,前一天的转换率相较于再前一天的转换率有更高的可信度,此时我们可以给每一天设置一定的权重,并增加近期转化率的权重,降低较远时间上转化率的权重,以使得构造的特征更具有可信度。而这个方法是在 Yahoo实验室发的一篇关于CTR的paper上看到的1具体方法,可以前往查看。

(PS:笔者在使用这个方法上得到的提升没有上面的方法得到的提升更有效)

最后,因为刚接触CTR比赛的原因,所以上面的一些见解可能存在偏颇,所以,若有发现,希望能够指出,并希望在比赛中,能够与伙伴们一同进步。

Reference Link:

1.http://cs229.stanford.edu/notes/cs229-notes2.pdf 2.https://www.cs.jhu.edu/~jason/465/PowerPoint/lect05-smoothing.ppt 3.http://www.cs.cmu.edu/~xuerui/papers/ctr.pdf 4.https://github.com/owenzhang/kaggle-avazu

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

连庆的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

手把手 | 初学者如何用Chainer为漫画上色 深度学习帮你逆袭漫画家(附代码)

1623
来自专栏菜鸟致敬

[菜鸟致敬⑨] 排版建议

最近有关注诸多大佬的博客亦或微信公众号,也时常阅读一些好的文章,它们的排版风格亦是各不相同。大概是大佬都专注于叠代码的缘故,对于文章的排版好坏可能抱着得过且过的...

902
来自专栏大数据挖掘DT机器学习

《推荐系统实践》:如何利用用户标签数据?

基于标签的推荐系统 用户用标签来描述自己对物品的看法,因此,标签成为了联系用户和物品的纽带。因此,标签数据是反应用户兴趣的重要数据源,而如何利用用户的标签数据来...

5528
来自专栏专知

【开源】基于Keras的知识图谱处理实战

【导读】近日,Daniel Shapiro博士利用开源的图结构卷积网络进行知识图谱处理,并应用于交易数据的欺诈检测,其知识图谱处理相关源码也开源出来,并且Dan...

5724
来自专栏机器之心

资源 | 从Brain.js到Mind,一文收录11个移动端Javascript机器学习库

选自blog.bitsrc.io 作者:Jonathan Saring 机器之心编译 参与:程耀彤、黄小天 本文作者在构建 Bit 的过程中探索和尝试了把 Ja...

3436
来自专栏数据派THU

独家 | 哈佛教授公开R语言源码,教你用R制作gif动图

原文标题:Code for my educational gifs 作者:Rafael Irizarry 翻译:贾琳 本文长度为1800字,建议阅读4分钟 Ra...

1798
来自专栏腾讯云数据处理团队的专栏

万象优图:图片成本优化的瑞士军刀

引言不知道每天上下班的你坐在地铁公交上会刷哪些app呢?也许正为周末和朋友去哪里聚会而挑选餐厅;也许刷着朋友圈看看朋友们有哪些新动态;也许在Ins上浏览着大V博...

2601
来自专栏企鹅号快讯

2017深度学习优秀论文盘点

本文是伦敦帝国学院博士生Pierre Richemond所写的年度深度学习论文盘点,他属于该大学的BICV计算机视觉团队。这些论文在他们每周的Imperial ...

2227
来自专栏AI科技大本营的专栏

资源 | 2017深度学习优秀论文盘点(建议收藏)

本文是伦敦帝国学院博士生Pierre Richemond所写的年度深度学习论文盘点,他属于该大学的BICV计算机视觉团队。这些论文在他们每周的Imperial ...

36711
来自专栏新智元

【智驾深谈】George Hotz 开源代码复现与分析(80G数据云盘下载)

【新智元导读】上周GeoHot开源代码那篇文章一发,反响还是很强烈的,好多兄弟问我这事儿靠谱么,代码怎么样,论文怎么样,索性上周末抽时间找了赵李二位无人车老司机...

35213

扫码关注云+社区