【 SPA 大赛 】从点击率预估的视角看腾讯社交广告算法大赛

作者:汤斌

大赛简介

腾讯社交广告算法大赛以广告领域常见的转化率预估问题作为出题思路,从用户历史一个月的行为数据中采样竞赛数据,数据规模达几十GB。比赛题目足够诚意的同时,资金投入也显得诚意满满。比赛单奖金及奖品投入就近百万元人民币,一等奖奖金高达30万,指导老师的奖励也颇为丰厚。

笔者在腾讯主要从事广告与上下文画像,点击率预估相关的工作。在大多数人眼中,点击率预估与转化率预估除了优化目标上的不同,其他差异并不明显。两者的解题套路以及使用的工具也颇为相似。但事实真的是这样吗?我将从点击率预估的视角来谈谈我对此次竞赛题目——转化率预估的看法。

转化率预估与点击率预估的异同

点击率预估和转化率预估都是广告领域的典型问题,它们之间有很多的相似之处,例如都是典型的二分类,点击率预估的工具和方法也常常应用于转化率预估问题上,但是它们又有着各自的特点。

相同点

无论是点击率预估还是转化率预估,都是一个典型的二分类问题,可以描述成下面统一的形式:

除掉建模对象需要考虑的信息不尽相同外,两者解决的问题极为相似。因此,用于点击率预估的常用方法、手段和工具,也常常应用于转化率预估问题上。

不同点

虽然两者从问题的定义上看是一致的,也确实共用了不少算法、工具和方法论,但是两者面对的问题和挑战存在差异,从某些方面来说,转化率预估要做好比点击率预估更难。

转化率预估效果采集更困难

点击率预估预测的是用户的点击行为,用户的点击行为可以通过在广告位上埋点进行上报,由于用户点击数据影响流量主的收益,因此通常流量主会尽可能保证点击效果回流的质量和数量。而转化率预估的是用户跳转到广告主推广页面的转化行为,数据采集依赖于广告主的配合。即使在广告主配合的情况下,也存在转化数据链路的工程稳定性问题。

转化率预估在效果数据采集上的困难是广告系统采用CPA[1]计费的一个主要难点。转化数据采集的能力,是腾讯社交效果广告的一大优势,在APP类广告中这种优势体现得尤为突出。

此次比赛数据中,转化效果数据是否存在漏报、误报的情况,也需要选手们自己去探索。

转化预估效果回流时间更长

广告曝光后,用户的点击行为往往随之触发,除掉部分特殊广告位外,点击效果回流时间多在分钟级。而用户的转化行为则发生在广告点击之后,部分转化动作发生周期比较长,例如,电商的下单转化、APP的激活转化。从点击到发生转化,这个时间可能达到小时级,甚至天级,当然,对于不同商品类型的广告,转化回流时间差异也很大。

不同类型商品的转化效果差异大

点击率预估在不同广告位上的点击率差异往往比较大,而转化率预估在不同商品类型上的转化效果差异更加明显。拿电商和APP的转化数据来说,两者的转化指标差异能达数倍之多。因此,如何考虑不同商品类型广告间天然的转化bias差异也是转化率预估的一个难点。分商品类型来优化是一个常见思路。

不过此次赛题只涉及一种商品类型广告的转化率预估,使问题难度降低了不少,也可以让选手更专注于其中一种类型商品的转化分析。

转化预估的效果定义更加丰富

点击率预估的效果就是用户的点击行为,而转化率预估的用户转化行为的定义则多种多样。常见的包括,用户的下单行为、APP的激活转化、微信上微信公众号的关注行为,也有在社交广告上新兴的赞点评转化。

现在还比较少涉及多目标优化,此次赛题也只以用户的APP激活转化作为转化率预估的目标。

转化预估的数据更加稀疏

点击率预估的训练数据是用户的曝光、点击日志,数据规模极大,多数情况下不需要考虑样本充分度的问题。而转化率预估预测的是用户点击行为后的转化,训练数据的规模与点击日志的规模相当,数据量减少了几个数量级。因此,不少在点击率预估问题上行之有效的方法和特征,在转化率预估问题上可能需要重新审视,比如模型复杂的时候训练样本是否充分,是否需要调大正则化系数等等。

[1] CPA计费:按广告的实际转化效果扣费

总结

笔者从点击率预估的视角对腾讯社交广告大数据竞赛的赛题做了点评,主要对比了广告点击率预估与转化率预估的异同点,突出比较了两者的差异性。选手在采用常见的点击率预估方案来解决此次的转化率预估问题的过程中,也可以参考上面提到的两个问题间的差异,求同存异,设计更合适的解决方案。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏嵌入式程序猿

大公司都在使用什么开发流程?

可能很多工程师对于基于V模型的开发流程很熟悉,而且很多工程师早期都是按照手工的方式去完成这个流程,导致新产品的开发周期很长,这在日益增长和产品更新日益加快的市场...

903
来自专栏逸鹏说道

架构漫谈(四):如何做好架构之架构切分

前一篇已经讲了如何识别问题。在识别出是谁的问题之后,会发现,在大部分情况下,问题都迎刃而解,不需要做额外的动作。很多时候问题的产生都是因为沟通的误解,或者主观上...

2797
来自专栏ThoughtWorks

数据可视化产生生产力|洞见

数据可视化就是借助于图形化手段,清晰有效地进行信息传达与沟通。许多人会着眼于“可视化”,认为数据可视化就是将一系列看上去很炫、很复杂的图表展示在页面上。其实不然...

3436
来自专栏ThoughtWorks

Architectural fitness function,架构你好我也好 | 雷达哔哔哔

ThoughtWorks每年都会出品两期技术雷达,这是一份关于科技行业的技术趋势报告,在四个象限:技术、平台、工具以及语言和框架对每一个条目(Blip)做采用、...

581
来自专栏知晓程序

3 天敲下了 60 万木鱼,群 Play 用微信群+无聊引爆小程序

打开它,最先映入眼帘的就是一只看上去很无聊的木鱼。更无聊的是,如果你用手指敲击这个木鱼,它真的会发出敲击木鱼的声音。

873
来自专栏Crossin的编程教室

Python老司机给上路新手的3点忠告

在你学习编程的过程中,是否有过以下经历,或正在面临类似的局面: 网上找了很多资料,不知道从哪里看起 买了本书,过了很久也没有看完第一章 开始还能跟着写几行代码,...

37910
来自专栏人工智能头条

【AI创新者】小蚁首架张骏峰:让图像AI人尽可用

1994
来自专栏大数据文摘

学界 | 视频卡到天荒地老?MIT最新算法Pensieve让你观影畅通无阻

1512
来自专栏EAWorld

人工智能与软件架构

本文目录: 一、人工智能(AI)的目标是增强智能(IA),而不是替代人类 二、应对软件架构分而治之带来集成的挑战,探索智能的连接 三、从智能连接入手探索在软件架...

39011
来自专栏PPV课数据科学社区

我所经历的大数据平台发展史(上篇)

备注,本章是面向数据领域的一篇专业文章,涉及较前一章节更为专业术语,阅读对象适合有一定数据基础的读者。阅读完大约需要12 分钟左右; 前言,”数据模型“只要是跟...

2907

扫码关注云+社区