【SPA大赛】预测广告转化率实战心得

大家好,我是来自华中科技大学计算机系的肖洋。第一次参加这种机器学习类的比赛,侥幸进了决赛,也来分享一下比赛心得体会。

一、问题与数据分析

这次比赛是预测广告转化率的问题,就是预测某个用户点击某广告之后发生转化的概率,这显然是一个二分类问题。首先简单对数据做一下统计,发现这里面正类负类比例严重失调,正类也就是发生转化的样本只占了总样本的2.5%。一上来我使用随机深林做了一下简单预测,发现预测的结果当中最大的概率也不超过0.5,所以我感觉很不靠谱,另外在知乎上看到有人说这是一个imbalance learning的问题,所以我就看了各种文章,使用里面的过采样、欠采样等方法,但是效果都不好,很明显我掉到坑里面了。总结一个经验吧,数据和实验结果才是王道,不要老凭自己的感觉去揣测。

二、特征选择

“特征决定上限,模型只能原来无限逼近这个上限”,这次比赛我确实深刻体会到了这个至理名言。特征工程是数据预测里面最重要的环节,没有之一。

首先是特征选择因为没有做过类似的比赛,所以一上来我就急急忙忙开始用随机深林的feature_importance做特征选择,这毫无疑问是费时而且错误的选择。其实有两种很简单的方法可以用来观察特征的重要性:第一种是通过data.groupby('feature').mean()'label'方法,得到这个样本在各个取值下的均值,然后再求一次方差,就知道这个特征的重要性了;另一种是通df=data.groupby('connectionType','label').size()来观察一下在给特征取不同值的时候正负样本的比例,如果取不同值的时候比例相差很大,这个特征十有八九是一个强特征。

其次是各种特征的挖掘、组合等,这些隐藏的特征才是决定成绩的关键。特征挖掘方面,主要是各种统计变量,例如用户安装的app个数、与各种特征对应的点击量、转化量、转化率等;特征组合方面,可以通过groupby('feature1','feature2').size()来简单统计一下组合特征下的label情况,然后选择最重要的特征组合。听大佬说connectionType和positionID是一个很重要的组合特征,可能我没有用好,导致了我和前面队伍的差距。

三、数据处理

数据处理方面我也没有花太多功夫,主要是对某些与转化率相关的特征做了一下贝叶斯平滑。为什么要做平滑,举个例子,对于特征creativeID,比如取值为100的样本只出现了一次,没有发生转化,由于样本太少,我们并不能直接认为取值为100的样本转化率为0,毕竟样本太少,没有说服力。贝叶斯平滑的文章参考http://blog.csdn.net/mytestmy/article/details/19088519

四、模型选择

我使用过四种模型,随机深林、逻辑回归、xgboost和fm。其中随机深林效果最差,当然也有可能是我把这个模型用废了,逻辑回归其次,fm比xgboost稍微好一点,可能是因为fm考虑了特征的组合。另外提一句,在我的实验过程中调参对于结果的影响是微弱的,所以个人建议不要把太多的时间花在调参上面了。

最后希望自己能在决赛当中取得一个好成绩。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

肖洋的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

除了深度学习,你还应该了解这些发展方向

译者|严子怡 编辑|Emily AI 前线导读:毫无疑问,AI 的终极未来是达到并超越人类的智能。但是,这是一个非常遥远的目标。即使我们之中最乐观的人,也只敢打...

2026
来自专栏瓜大三哥

FR+FCN

FR:Face Recovery FCN:facial component deep network 自然条件下,因为角度,光线,occlusions(咬合/张...

2017
来自专栏企鹅号快讯

人工智能的缘起:达特茅斯会议

尼克,乌镇智库理事长,数知科技创始人,国家“千人计划”专家。早年负笈美国,师从“强化学习”算法发明者;曾在哈佛和惠普工作。 近日,尼克的《人工智能简史》由人民邮...

2446
来自专栏CSDN技术头条

机器学习和统计模型的差异

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

2028
来自专栏应兆康的专栏

21. 关于偏差和方差的实例

思考我们的猫咪分类器。一个理想的分类器(如:人为分类)会在这个任务中有着完美的表现。

32910
来自专栏PPV课数据科学社区

机器学习、数据挖掘、人工智能、统计模型这么多概念有何差异?

在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么? 这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者...

3507
来自专栏AI传送门

斯坦福大学《机器学习》课程-中文版笔记(2.1)

1554
来自专栏数据科学与人工智能

人工智能、机器学习和深度学习是什么?

人工智能、机器学习与深度学习,每天都有它们的新闻。包括新的技术、新的应用、新的挑战、新的机遇。 人人都在谈,人人都在看,那究竟什么是人工智能、机器学习与深度学习...

3456
来自专栏PPV课数据科学社区

讨论 | 机器学习和统计模型的差异

编者按:统计模型有时也被称作统计分析或者统计建模,是基于传统统计学的一种数据分析方法。机器学习是数据挖掘的一种方法,包含利用分布式计算能力进行数据处理和数据挖掘...

3636
来自专栏AI科技评论

学界 | 离「脑机接口」再近一步,日本研究员根据大脑fMRI重建看到的图像

AI 科技评论按:位于日本的国际电气通信基础技术研究所(ATR)的计算神经科学实验室和京都大学日前联合发布了一篇论文,他们可以借助 fMRI(功能性磁共振成像)...

3609

扫码关注云+社区