【SPA大赛】广告数据挖掘的经验分享

大家好,我们的团队是由来自三个不同专业的小伙伴组成,且都是萌新,这是我们团队第一次参加数据挖掘比赛。我们团队从5月10号下载数据后开始看题目,找相关资料等,就在当天晚上我在腾讯官方微信公众平台上看到了腾讯数据挖掘工程师陈成龙分享的“ kaggle 数据挖掘比赛经验分享”的干货,这份干货对数据挖掘小白的我们实在是太有用了,于是我和队友花了整整一天的时间研究了一下这份干货,随后再去看题目,这才有了一些思路。尽管我们在初赛过程中困困重重,但我们经过两周的共同的努力,目前以0.099711的成绩进入了决赛。下面我就针对具体问题介绍一下我们的做法。

1.数据集构造方面

我们在看了好几遍题目后,开始尝试用干货中提到的数据清洗策略清洗本次数据。首先是分别统计了 train.csv 中 label=1 和 label=0 的样本数量,发现这个比例是1:40,很明显是正负样本不均衡的问题。然后发现数据分布在6个.csv 文件中(train.csv和test.csv除外),这里需要做的工作就是 merge,但真正要把 merge 做好就需要找对连接的标签和采用的连接方式,我们用了左外连接。另外在 validation 划分方面,我们随机选取数据集的12%作为 validation ,因为不同的随机数种子产生的 validation 集的 logloss 会有些差异,但是要注意数据泄露的问题,比如用18-24的数据去做训练,25天的数据去做测试,这就有可能导致数据泄露,这里我们尝试改变随机数种子使得线上线下接近一致。

2.模型构建方面

我们队使用的模型是模型 xgboost,没有调参,也就是默认的参数。我们的主要精力放在寻找特征上,在决赛中我们可能考虑用 lightgbm,因为决赛数据是预赛数据的10倍,所以为了尽快看到结果,所以会选择 lightgbm。

3.特征工程方面

在广告点击率和转化率的特征中,特征可以分为三类,一是 categorical feature (无序特征),二是 ordinal feature(有序特征),三是 numberical feature(数值特征)。我们队对于特征的处理如下:

(1)使用统计频率、转化次数特征、转化率特征代替 onehot ,这里我们对 label=1的用户进行统计分析,针对用户的历史交互,安装 app 等信息,从用户的角度去思考可能决定他点击广告后发生激活的原因,由此提取出一些可能的特征,之后再进行特征提取以及验证。

(2)对训练集和测试集中的重复样本构造是否第一次点击,是否中间点击,是否最后点击,第一次和最后一次间隔特征。

(3)大量使用组合特征,主要是用户特征和广告上下文特征。

总结

在初赛过程中,我们不断地挖掘特征,检验特征,阅读 kaggle 上竞赛获奖者的开源代码等,尽管我们目前的成绩不是太好,但是我们真正学到了东西,正所谓,一次参赛,终身受益。最后感谢腾讯为我们提供的平台和服务。

最后预祝小伙伴们在决赛中取得好的成绩。谢谢。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

王晓娟的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

我们为什么要这样联想|用哲学论证客户画像体系的复杂性

1613
来自专栏深度学习自然语言处理

谈谈我在自然语言处理入门的一些个人拙见

因为最近在准备本科毕设的论文部分,所以最近原创的相对比较少,但是为了坚持每天学点新知识,我也逼着自己每天抽出晚上的1小时左右把自己想到的并且自己还没理解的小知识...

1042
来自专栏AI科技评论

有史以来最精彩的自问自答:OpenAI 转方块的机械手

AI 科技评论按:今年 2 月,OpenAI 发起了一组机械手挑战,他们在基于 MuJoCo 物理模拟器的 Gym 环境中新设计了含有机械臂末端控制、机械手拿取...

1003
来自专栏机器之心

学界 | 邓力等人提出BBQ网络:将深度强化学习用于对话系统

36614
来自专栏机器之心

前沿 | 不使用深度学习,进化算法也能玩Atari游戏!

近期街机学习环境(ALE)被用于对比不同的控制器算法,从深度 Q 学习到神经进化算法。Atari 游戏的环境在一个通用界面上提供了大量不同任务、可理解的奖励度量...

1102
来自专栏数据派THU

独家 | 如何改善你的训练数据集?(附案例)

这张幻灯片是Andrej Karpathy 在Train AI 演讲的一部分,我很赞同它表达的观点。它充分体现了深度学习在研究和应用上的差异。学术论文几乎全部集...

894
来自专栏崔庆才的专栏

DensePose 开源了!利用它可轻松实现实时3D人体姿势识别!

大家可能还记得,今年2月Facebook发布的,人体姿势实时识别系统DensePose。

1730
来自专栏人工智能头条

干货 | 1400篇机器学习的文章中,这10篇是最棒的!

【导读】在过去的一个月中, 作者从近 1400 篇有关机器学习的文章中挑选了最有可能帮助职业生涯发展的 10 篇推荐给大家(入选比率为0.7%)。

1214
来自专栏AI研习社

AI 实时生成材质,效果直逼好莱坞大片

如果你要使用 Principled Shader 通过手动方式创建不同材质上逼真的光影效果,使用者必须对大量的材质参数进行手动微调,并且在每次设置后等待图片渲染...

942
来自专栏AI科技评论

动态 | 迪士尼也来研究人工智能啦,将AI用于动画制作

AI科技评论按:众所周知,卡耐基梅隆大学在计算机科学方面的研究名列前茅,而迪士尼有意将计算机科学技术引入动画制作。他们与卡耐基梅隆大学合作建立的实验室近日发表了...

3314

扫码关注云+社区