【 SPA 大赛 】从点击率预估的视角看腾讯社交广告算法大赛

作者:汤斌

大赛简介

腾讯社交广告算法大赛以广告领域常见的转化率预估问题作为出题思路,从用户历史一个月的行为数据中采样竞赛数据,数据规模达几十GB。比赛题目足够诚意的同时,资金投入也显得诚意满满。比赛单奖金及奖品投入就近百万元人民币,一等奖奖金高达30万,指导老师的奖励也颇为丰厚。

笔者在腾讯主要从事广告与上下文画像,点击率预估相关的工作。在大多数人眼中,点击率预估与转化率预估除了优化目标上的不同,其他差异并不明显。两者的解题套路以及使用的工具也颇为相似。但事实真的是这样吗?我将从点击率预估的视角来谈谈我对此次竞赛题目——转化率预估的看法。

转化率预估与点击率预估的异同

点击率预估和转化率预估都是广告领域的典型问题,它们之间有很多的相似之处,例如都是典型的二分类,点击率预估的工具和方法也常常应用于转化率预估问题上,但是它们又有着各自的特点。

相同点

无论是点击率预估还是转化率预估,都是一个典型的二分类问题,可以描述成下面统一的形式:

除掉建模对象需要考虑的信息不尽相同外,两者解决的问题极为相似。因此,用于点击率预估的常用方法、手段和工具,也常常应用于转化率预估问题上。

不同点

虽然两者从问题的定义上看是一致的,也确实共用了不少算法、工具和方法论,但是两者面对的问题和挑战存在差异,从某些方面来说,转化率预估要做好比点击率预估更难。

转化率预估效果采集更困难

点击率预估预测的是用户的点击行为,用户的点击行为可以通过在广告位上埋点进行上报,由于用户点击数据影响流量主的收益,因此通常流量主会尽可能保证点击效果回流的质量和数量。而转化率预估的是用户跳转到广告主推广页面的转化行为,数据采集依赖于广告主的配合。即使在广告主配合的情况下,也存在转化数据链路的工程稳定性问题。

转化率预估在效果数据采集上的困难是广告系统采用CPA[1]计费的一个主要难点。转化数据采集的能力,是腾讯社交效果广告的一大优势,在APP类广告中这种优势体现得尤为突出。

此次比赛数据中,转化效果数据是否存在漏报、误报的情况,也需要选手们自己去探索。

转化预估效果回流时间更长

广告曝光后,用户的点击行为往往随之触发,除掉部分特殊广告位外,点击效果回流时间多在分钟级。而用户的转化行为则发生在广告点击之后,部分转化动作发生周期比较长,例如,电商的下单转化、APP的激活转化。从点击到发生转化,这个时间可能达到小时级,甚至天级,当然,对于不同商品类型的广告,转化回流时间差异也很大。

不同类型商品的转化效果差异大

点击率预估在不同广告位上的点击率差异往往比较大,而转化率预估在不同商品类型上的转化效果差异更加明显。拿电商和APP的转化数据来说,两者的转化指标差异能达数倍之多。因此,如何考虑不同商品类型广告间天然的转化bias差异也是转化率预估的一个难点。分商品类型来优化是一个常见思路。

不过此次赛题只涉及一种商品类型广告的转化率预估,使问题难度降低了不少,也可以让选手更专注于其中一种类型商品的转化分析。

转化预估的效果定义更加丰富

点击率预估的效果就是用户的点击行为,而转化率预估的用户转化行为的定义则多种多样。常见的包括,用户的下单行为、APP的激活转化、微信上微信公众号的关注行为,也有在社交广告上新兴的赞点评转化。

现在还比较少涉及多目标优化,此次赛题也只以用户的APP激活转化作为转化率预估的目标。

转化预估的数据更加稀疏

点击率预估的训练数据是用户的曝光、点击日志,数据规模极大,多数情况下不需要考虑样本充分度的问题。而转化率预估预测的是用户点击行为后的转化,训练数据的规模与点击日志的规模相当,数据量减少了几个数量级。因此,不少在点击率预估问题上行之有效的方法和特征,在转化率预估问题上可能需要重新审视,比如模型复杂的时候训练样本是否充分,是否需要调大正则化系数等等。

[1] CPA计费:按广告的实际转化效果扣费

总结

笔者从点击率预估的视角对腾讯社交广告大数据竞赛的赛题做了点评,主要对比了广告点击率预估与转化率预估的异同点,突出比较了两者的差异性。选手在采用常见的点击率预估方案来解决此次的转化率预估问题的过程中,也可以参考上面提到的两个问题间的差异,求同存异,设计更合适的解决方案。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

高盛的AI说,今年世界杯冠军是巴西

世界杯开战在即,在金融业颇有权势的投行高盛,还没等比赛开始就再一次预测了最终结果。

983
来自专栏TEG云端专业号的专栏

腾讯数平精准推荐|斩获2017年第14届国际文档分析与识别竞赛四项冠军

腾讯数平精准推荐团队自研了「时空上下文感知的OCR深度学习算法」,在最受关注的“Robust Reading Competitions”中的“COCO-TEXT...

2751
来自专栏CDA数据分析师

分享 | 一个文科生学习R语言是种怎么样的体验?

首先介绍一下本人的相关情况:本人毕业于不入流的大学,专业是英语。数学水平在高中水平,因为大学文科专业不需要学习高数等课程,以前以为这是很大的好处,但是现在觉得这...

1955
来自专栏人工智能LeadAI

你知道应聘上一份机器学习的工作需要哪些条件吗?

目标导向,不谈其他的方向,只谈如何快速拿到数据挖掘的offer。 ? 我选择了公司的校招中比较严格的(top5%)一个jd要求,我们看下如何拿下这个offe...

3408
来自专栏机器之心

GMIS 2017读懂机器智能前沿技术:这份技术清单助你做好准备

5 月 27 日至 28 日,机器之心 SYNCED 主办的 2017 全球智能机器峰会(GMIS 2017)将在北京正式举行。这是机器之心主办的第一届 GMI...

35511
来自专栏AI科技评论

动态丨谷歌宣布启动“视频理解挑战赛”,设10万美元奖金池

AI科技评论按:谷歌博客今天比较忙,在发布 TensorFlow's 1.0这一重磅更新后,紧接着又发布了一条新闻:启动一场基于YouTube-8M数据库的视频...

3485
来自专栏深度学习入门与实践

2017年总结与2018年目标和计划

  前段时间看到版内经常会有2017年的总结,但我总觉得年还没过,2017就不算真正的过完,上周五公司开了部门年会,这周五公司要开公司年会,年会完了再过一周多就...

3675
来自专栏云资讯小编的专栏

5月 TIOBE 排行榜:Java 和 C 语言正在被超越

自 2016 年初,Java 和 C 语言就出现了明显的下颓趋势,与去年相比,这两种语言的市场占有率均下滑了 6%有余。根据 TIOBE 的数据显示,原本的 J...

7270
来自专栏机器之心

专访 | 网易有道 CEO 周枫:需求为先的 AI 技术赋能

机器之心原创 作者:邱陆陆 机器翻译领域正经历又一次骤雨疾风般的变革。2014 年,Yoshua Bengio 组做出了第一个循环网络编码器-解码器神经机器翻译...

3258
来自专栏大数据文摘

专访2016CCF大数据与计算智能大赛冠军:针对广告位的作弊检测算法

1765

扫码关注云+社区